Overlapping correlation clustering
-
Francesco Bonchi, Aristides Gionis, Antti Ukkonen
-
ICDM 2011
概要
-
重複クラスタリング
-
局所探索法
-
各反復がムズい
-
集合交差…貪欲法(集合被覆)
-
Jaccard…最小二乗法(NP-hard)
問題定義
非重複クラスタリング
-
C_cc(V,l) = ∑同クラスタ内の(1-s(u,v)) + ∑異クラスタのs(u,v)
-
{0,1}なら各辺±1の符号があって…となる
重複クラスタリング
-
$$ \ell: V \rightarrow {\cal L}_+ = 2^{\cal L} - \emptyset $$
-
ラベル集合同士の類似度 H
-
これは明示的に与えられない
-
C_OCC(V,l) = ∑|H(l(u),l(v))-s(u,v)|
-
直感: 頂点間の類似度sを保つようにlを決める
-
Jaccard係数
-
集合交差指示関数 I(E,F)=[E∩F≠∅]
制約
-
クラスタ数 |L|=k
-
各頂点の所属クラスタ数 |l(v)|≦p
問題の特徴付け
-
類似度 [0,1] or {0,1}
-
類似関数 H Jaccard or 交差
-
クラスタ数制約 p or 無
-
色々見る,多項式時間で厳密解の場合も
-
グラフ彩色とも関連
-
([0,1], 交差, p=k)で0コストを達成する最小のk
アルゴリズム
-
局所探索枠組
-
C_occ(V,l)が減少する間
-
各頂点vについて
-
v以外のラベル集合を固定して,コスト最小のvのラベル集合を計算・更新
-
u≠vについて
-
∑|H(l(u),l(v))-s(u,v)|を最小化する
Jaccardの場合(Jaccard triangulation)
-
{<S_j, z_j>}_jが与えられるので,
-
∑|J(X,S_j)-z_j|
-
を最小化するXを見つけたい
-
関連問題: Jaccard-median (z_j=1)
-
x_i=[i∈X] なる指示を考えると,J(X,S_j)は簡単にかけるので,J=z_jを解きたくなる
-
最小二乗法で解く
集合交差の場合
-
整数計画で書ける
-
関連問題: positive-negative partial set-cover
ICDM クラスタリング 相関クラスタリング
2015/04/13 1:29
最終更新:2015年05月18日 15:32