Efficient Discovery of Frequent Subgraph Patterns in Uncertain Graph Databases
-
Odysseas Papapetrou, Ekaterini Ioannou, Dimitrios Skoutas
-
EDBT 2011
概要
提案手法
Edge index
-
各$$ (L_u, L_v, L_{uv}) $$について以下を保存
-
$$ L(u)=L_u, L(v)=L_v, L(uv)=L_{uv} $$な辺を含むD中のグラフG
-
Gにそういう辺(複数有る)が一つ以上出現する確率
Connectivity index
-
各$$ (L_u, L_v, \ell) $$について以下を保存
-
端点のラベルが$$L_u, L_v$$の頂点対間に長さ$$\ell$$の経路があるか?
-
実際には,メモリを食い過ぎるので,Bloom filterを使う
-
あれば1,なければ0(w.p.1-ε) or 1(w.p.ε)
-
$$ \ell \leq \ell_\max = 3 $$
枝刈り
-
結局,期待頻度(サポート)の上限を高速に欲しい
-
S=今見ているパターン
-
$$I_S =$$ Sの全辺を含むD中のグラフからなる集合
-
上限1
-
$$ |I_S|/|D| $$
-
確率とか考えない自明な上限
-
上限2
-
グラフGにSが出現する確率≦(Sの各辺が一回以上出現する確率)
-
↑をD中のグラフについて総和をとる
-
グラフの構造は何も考えない
-
その他枝刈り
-
Connectivity indexをナイーブに使う
-
S中の距離$$\ell$$のラベル対があるか,みたいなことを計算して,一致するかみる
期待頻度計算
-
それでもダメなら期待頻度をCIKM'09の手法で計算
-
Dにはグラフが沢山あるので,良い順番で計算したい
-
(適当な計算量による見積もりコスト)/(出現の上限)が低いものから優先的に見る
-
閾値を超えたり,閾値を超えない(上限を引いていけば分かる)と分かったらすぐ抜ける
実験
-
比較手法MUSE
-
精度の比較なし(MUSEとほぼ同じ)
-
subgraph isomorphismの計算がかなり減ったことが大きい
まとめ
-
こんなもんだなあという感じ
-
センスの良い枝刈りはないものか
EDBT uncertain graphs 頻出部分グラフ
2016/10/13
最終更新:2016年10月13日 03:03