From "Dango" to "Japanese Cakes": Query Reformulation Models and Patterns
-
Paolo Boldi, Francesco Bonchi, Carlos Castillo, Sebastiano Vigna
概要
-
Reformulation model
-
QRT(query reformulation type)の分類
-
学習結果は精度92%
-
Reformulation strategies
-
QRTの列からミッションを探してパターンを見つける
-
手動(小さいデータ)と一致するよ!
-
Query Flow GraphをQRTでアノテート
-
レコメンドをQFG上のランダムウォークでやる
-
クリック情報なしで良い制度だよ!
-
query reformulation = クエリ変更
Defining Query Reformulation Types
-
クエリの分類を2つの次元で考える
-
汎化・特化軸
-
相違軸
-
相違軸
-
色々なパターンがある
-
Same query: 全く同じ
-
Error correction: スペル訂正
-
Equivalent rephrasing: 意味は同じで単語が違う
-
Parallel move: 関連性が強いけど同意ではない
-
Mission change: 完全にトピックが違う
-
特殊性軸
-
汎化
-
新しいクエリq'が前のクエリqより一般的
-
楽に分かる
-
特化
-
汎化はRecall(再現率)を増やす
-
特化はPrecision(適合率)を増やす
-
G: Generalization
-
S: Specialization
-
C: Error correction
-
P: Parallel move
Learning a Query Reformulation Model
-
訓練データ
-
約1000個の(q,q')
-
手でラベル付(←死ぬだろ…)
-
特徴量
-
27個: セッション長、セッション内の位置、(q,q')間の平均時間、類似度、等…
-
モデリング
-
isG?→isS?→isC?→isP?→ファッ!?
-
dango→japanese cakesは汎化
Empirical Study of Query Reformulations
-
超でかいデータに適用しよう!!
-
データセット
-
長さ1のミッションには消えてもらう
-
分布を見てみる
Query Reformulation Strategies
-
QRTの条件付確率を見てみる
-
汎化と特化は交互に起こりやすい
-
誤り訂正は最初か最後にでてきやすい
-
よくあるsequenceも見てみる
Annotated Query-flow Graph
-
ρ(q,q',t) = min{r(q,q',t), r(q',q,t)} / max{r(q,q',t), r(q',q,t)}
Query Recommendation
-
MSRのデータセット
-
レコード: クエリ、セッションID、タイムスタンプ、クリック結果
-
入力クエリからランダムウォーク
-
レコメンドの方法
-
確率順にそのまま出力
-
PageRankとの比?の順位出力
-
Queryflow-S, SP, SPC, GSPC, GSPCXの順に良い、QRTを区別したほうが良い?
kk query-flow graph recommendation
2014-01-02 02:46:54 (Thu)
最終更新:2014年01月02日 02:46