Sampling Community Structure
-
Arun S. Maiya, Tanya Y. Berger-Wolf
-
WWW 2010
概要
-
expander graphのコンセプトによるコミュニティのサンプリング手法
-
コミュニティ検出で推論っぽいこと?もできるらしい
問題
-
X(S) = |N(S)|/|S|
-
サイズkのサンプルSがcommunity representative sample
-
minimize D[P_S(G(S)), P_S(G)]
-
D[,]は分割に対する距離尺度
-
P_S(G)はGを使って作られた分割
手法
-
X(S)の最小化もあるけれどそうではなくて、最大のサンプルを見つけたい
-
2つ手法を考えたよ
Snowball Expansion Sampler (XSN)
-
最初の頂点を適当に選ぶ
-
k個選ぶまで、|N({v})-(N(S)∪S)|が最大の頂点をSに追加
-
つまり単にX(S)についてGreedyするだけ
MCMC (XMC)
-
Markov Chain Monte Carlo simulation
-
|N(S)|/|V-S|をスコアとする
-
スコアがよくなったら更新、悪くなったら[新しいスコア/今のスコア]^pみたいな確率で更新
実験
-
コミュニティ検出手法
-
Girvan-Newman algorithm (GN)
-
Newman’s leading eigenvector method (NLE)
-
An algorithm based on greedy optimization (CNM)
-
評価基準
-
分割の距離関数D
-
分割が同一になるようにするために削除する頂点数の最小値
-
サンプルから出来たコミュニティの頂点達が元のでかいグラフから出来た同じコミュニティに入っていると良い
-
サンプル内のコミュニティの割合も考える
-
↑2つを混ぜるよ
-
FRAC...recall
-
サンプル内のコミュニティの割合???(高いほうが良い
-
PART...precision
-
距離関数の値を正規化して1-xを計算(高い方が良い
-
F-scoreを計算する
-
Composite = (2FRAC+PART)/(FRAC+PART)
結果
-
XSNがかなりよさげ
-
次数分布とクラスタ係数も比べてみたお
まとめ
-
ふ~ん
-
理論的にどうこう無いし、気合いで説得なのかなあ?
WWW community detection
2013-12-31 19:17:44 (Tue)
最終更新:2013年12月31日 19:17