Learning Continuous-Time Information Diffusion Model for Social Behavioral ...

Learning Continuous-Time Information Diffusion Model for Social Behavioral Data Analysis

  • Kazumi Saito, Masahiro Kimura, Kouzou Ohara, Hiroshi Motoda
  • ACML 2009

概要

Continuous-Time Independent Cascade Model

  • r_uv: 時間遅延パラメータ
  • κ_uv: 伝播確率
  • 時刻tでuがactiveになったら,
  • vを時刻t+δに確率κ_uvでactiveにする
    • δはr_uvからきまる指数分布
  • 学習したいパラメータ
    • パラメータはrとκ
    • カスケードの観測データD_Mは各頂点がactiveになった時刻からなる

提案手法

  • 尤度最大化
    • L(r,k; D_M)

実験

  • パラメータ推定と高影響力な頂点の抽出
  • グラフは2つ
    • 10K頂点,200K辺位
  • 確率は0.1と0.01
  • 訓練データはランダムに選んだ頂点からシミュレート
  • σ(v)はICと解釈しても問題無い
    • 時間遅延があるだけだから,確率は変わらない
  • 推定の実験結果
    • 真の値との相対誤差を見ている
    • カスケード数が100とかで1%未満になっている
  • 高影響力頂点の抽出
    • 真のtop kの頂点集合との一致数を見ている

実世界のブログデータへの適用

  • トピックの拡散の様子を調べたい!
  • Doblogを使う
    • NTTデータのブログサービス,既に終了している
  • 7,000URLを抽出
  • 200くらいのカスケードを取得
  • κとrをプロットしてみる
  • ミュージカル・バトンは割りと速い?
  • 迷子に関するものも速い
  • それっぽい傾向はあるっぽい
  • トピック毎の性質を上手く抽出できているはず!

まとめ

  • モデルの難しさはどの位が良いのだろう…
    • 簡単すぎるとうまくフィットしないし,複雑だとまともに学習できなさそう
    • このモデルは割りと唐突にこれ使うよ,みたいな感じだった
    • 既に提案されたいい感じのモデルで学習した,だけとかじゃだめかな…

inference ACML influence maximization modeling

2014-03-18 00:35:34 (Tue)

最終更新:2014年03月18日 00:35