k-Nearest Neighbors in Uncertain Graphs
-
Michalis Potamias, Francesco Bonchi, Aristides Gionis, George Kollios
-
VLDB 2010
概要
-
k近傍クエリ
-
最短距離や酔歩に基づく尺度を拡張
-
Monte-Carloサンプリングで近似アルゴリズム
-
グラフ変形,枝刈り
-
実験:数十M辺
メモ
イントロ
-
確率的グラフ
-
センサや実験による雑音
-
不安定な通信
-
リンク予測
-
秘匿性のための摂動
-
気になること
-
確率的グラフ上の距離とは?
-
頂点のk近傍は?
-
ランキングは?
-
応用
-
ソーシャルネットワーク
-
モバイルアドホックネットワーク(MANET)
-
生物学ネットワーク
-
あるグラフで(距離,確率)を考える
-
<(1,0.3), (2,0.26), (∞,0.44)>
-
統計の概念(?)とグラフ理論のを混ぜる
予備知識
-
s-t間の最短経路長の分布
-
$ \mathbf{P}_{s,t}(d) := \sum_{G \mid d_G(s,t)=d} \Pr[G] $
-
確率的最短経路長
問題 最確最短経路
-
s-t間の最確経路を求めよ
-
w'(e)=-log p(e)としてDijkstra
多数距離
-
最確最短経路長
-
$$ d_{\mathrm{J}}(s,t) = \arg \max_d \mathbf{P}_{s,t}(d) $$
-
RGを標本すると一番出現しやすい最短経路長に注目
期待距離
-
$$ d_{\mathrm{E}}(s,t) = \sum_d d \cdot \mathbf{P}_{s,t}(d) $$
-
非連結な時があるから∞になる
-
→有限の時だけ考慮して信頼性もくっつける
期待信頼距離
-
<dER(s,t), p(s,t)>
-
$$ d_{\mathrm{ER}}(s,t) = \sum_{d \mid d < \infty}d \cdot \frac{\mathbf{p}_{s,t}(d)}{1- \mathbf{p}_{s,t}(\infty)} $$
-
$$ p(s,t) = \sum_{d \mid d < \infty} \mathbf{p}_{s,t}(d) $$
中央値距離
-
$$ d_{\mathrm{M}}(s,t) = \arg \max_{D} \left\{ \sum_{0 \leq d \leq D} \mathbf{P}_{s,t}(d) \leq \frac{1}{2} \right\} $$
-
Pr[sとtが連結]の厳密計算は#P-complete
-
特に最近のデカイグラフでは厳密計算はやばげ
近似アルゴリズム
-
r=数百標本で十分
-
最短距離や連結度を測る
-
Chernoff bound
-
$$ r \geq \frac{3}{\epsilon^2 \mu} \ln \frac{2}{\delta} $$ならPr[(1±ε)近似からずれる]≦δ
-
Hoeffding inequality
-
Xi∈[ai, bi]
-
S = Σ_i Xi
-
$$ \Pr[|S-E[S]|\geq \epsilon] \leq 2 \exp \left( -\frac{2\epsilon^2}{\sum_i (b_i - a_i)^2} \right) $$
-
期待信頼距離を↑でbound
-
$$ r = \max\{ \frac{3}{\epsilon^2 \rho}, \frac{(n-1)^2}{2 \epsilon^2} \} \cdot \ln \frac{2}{\delta} $$必要
-
(n-1)^2がでかそう←(bi-ai)^2の項から
-
でもSmall worldだし実際は小さそう
-
自分の疑惑:本当か?bi=n-1な部分グラフはある(ランダムグラフとして発生しうる)んだよなぁ…
-
期待中央値距離の計算
-
Chernoff boundで何か抑えられる
k-近傍
-
基本戦略: Monte-Carloで標本を取りながら枝刈り
-
問題 k-NN
-
d_P(s,t_i)がtop-kなT_k(S)={t_1,…,t_k}を見つける
-
挑戦: d_P(s,t)を全tについて計算したくない
中央値距離の場合
-
$$ \tilde{\mathbf{p}}_{D,s,t}(d) = $$
-
$$ \mathbf{p}_{s,t}(d) $$ if d<D
-
$$ \sum_{x \geq D}\mathbf{p}_{s,t}(x) $$ if d=D
-
$$ 0 $$ if d > D
-
補題
-
$$ \tilde{d}_{D,M}(s,t) $$: $$ \tilde{\mathbf{p}}_{D,s,t}(d) $$からの中央値
-
$$ d_{M}(s,t) $$: $$ \mathbf{p}_{s,t}(d) $$からの中央値
-
$$ \tilde{d}_{D,M}(s,t_1) $$ < $$ \tilde{d}_{D,M}(s,t_2) $$ なら $$ d_{M}(s,t_1) $$ < $$ d_{M}(s,t_2) $$
-
≦だと多分まずいが論文では無視してるように見える
アルゴリズム
-
|Tk|<kの間
-
D←D+γ
-
r回繰り返し
-
ランダムグラフ上で距離D未満までsからDijkstra
-
$$ \tilde{\mathbf{p}}_{D,s,t}(d) $$をカウントアップ
-
Tkに無い頂点tで,median < D
-
Tk << t
多数距離の場合
-
違い1: medianみたいに50%に到達すればOKではない
-
違い2: もうこいつはtop-kに入らないお,みたいに判定ができない
Random Walks in Possible Worlds
-
辺が使える確率があるようなRWだけど,結局普通のRWになるよみたいな話
実験
まとめ
-
データマイニング・データベースでのUncertain graphsの割りと大事そうな論文
-
やってることは普通
-
精度がtop-kの問題を解く上で放置なのでどうにかした方がいいのでは?
-
k番目とk+1番目の差(?)みたいなののの,確率的に保証するとか.別にいらのかなあ
-
reliability系を普通に昔からあるはずなので調べる必要あり
VLDB k-近傍 uncertain graphs 最短経路
2015/07/13 15:38
最終更新:2015年12月14日 23:34