A Data-Based Approach to Social Influence Maximization
-
Amit Goyal, Francesco Bonchi, Laks V. S. Lakshmanan
-
VLDB 2012
概要
-
Data-Basedの意味:伝播確率をデータから推定するのではなく、直接σを推定する
-
Credit Distribution Modelというモデルを提案
-
NP-hardでsubmodular
-
σ_CDでの最大化が良いし速い!!
何でこんなことになったのか
-
いろんなモデルを使って実験してみよう
-
weighted cascade model
-
trivalency model
-
uniform IC model
-
EMアルゴリズムベース
-
EM perturbed
-
Q1. これらのモデル上で計算した(サイズ50の)seedに共通部分はあるのか?
-
A1. あんまりない(´・ω・`)
-
Q2. influence spreadの値の予測は正しいかな?
-
A2. そうでもない
-
もっとちゃんと実データのinfluence spreadを反映するようにしないとダメダメダメ~
Credit Distribution Model
-
どういうデータモデル?
-
action aが頂点を伝搬する
-
t(u,a): uがaを時刻tにした
-
tで順序を与えれば、DAGが出来る
-
Sからuへ経路が存在する確率を見積もる
-
最大化したい!
-
長い証明がある
-
marginal gainを求めるには
-
actionと頂点のループで頑張っている
-
遅くね???
-
アルゴリズムはもっと色々頑張っているっぽい
実験
-
influence spread
-
良いね!
-
何を元にしたんだ?
-
真のISは分からんので、誤差が少ない(?)のを選んだ(謎)
-
計算時間
-
速い(迫真)
-
ぶっちゃけそうでもないように見える
-
ICとかLTのが遅すぎる
-
データサイズ=(a,u,t)の数には比例
まとめ
-
確率見積もるのは実際めんどそう
-
でも、尋常じゃなくデータが多い場合は、やっぱり確率計算した方がいいんじゃないか?
-
ソッチのほうがデータ少ない気がする
VLDB influence maximization information diffusion modeling
2014-03-15 05:48:17 (Sat)
最終更新:2014年03月15日 05:48