From Dango to Japanese Cakes: Query Reformulation Models and Patterns

From "Dango" to "Japanese Cakes": Query Reformulation Models and Patterns

  • Paolo Boldi, Francesco Bonchi, Carlos Castillo, Sebastiano Vigna

概要

  1. Reformulation model
    • QRT(query reformulation type)の分類
    • 学習結果は精度92%
  2. Reformulation strategies
    • QRTの列からミッションを探してパターンを見つける
    • 手動(小さいデータ)と一致するよ!
  3. Query Flow GraphをQRTでアノテート
    • レコメンドをQFG上のランダムウォークでやる
    • クリック情報なしで良い制度だよ!
  • query reformulation = クエリ変更

Defining Query Reformulation Types

  • クエリの分類を2つの次元で考える
    1. 汎化・特化軸
    2. 相違軸
  • 相違軸
    • 色々なパターンがある
    • Same query: 全く同じ
    • Error correction: スペル訂正
    • Equivalent rephrasing: 意味は同じで単語が違う
    • Parallel move: 関連性が強いけど同意ではない
    • Mission change: 完全にトピックが違う
  • 特殊性軸
    • 汎化
      • 新しいクエリq'が前のクエリqより一般的
      • 楽に分かる
    • 特化
      • より特定している
    • 汎化はRecall(再現率)を増やす
    • 特化はPrecision(適合率)を増やす
  • G: Generalization
  • S: Specialization
  • C: Error correction
  • P: Parallel move

Learning a Query Reformulation Model

  • 訓練データ
    • 約1000個の(q,q')
    • 手でラベル付(←死ぬだろ…)
  • 特徴量
    • 27個: セッション長、セッション内の位置、(q,q')間の平均時間、類似度、等…
  • モデリング
    • isG?→isS?→isC?→isP?→ファッ!?
  • dango→japanese cakesは汎化

Empirical Study of Query Reformulations

  • 超でかいデータに適用しよう!!
  • データセット
    • Yahoo! UK
    • Yahoo! US
  • 長さ1のミッションには消えてもらう
  • 分布を見てみる
    • Pが多いね

Query Reformulation Strategies

  • QRTの条件付確率を見てみる
  • 汎化と特化は交互に起こりやすい
  • 誤り訂正は最初か最後にでてきやすい
  • よくあるsequenceも見てみる

Annotated Query-flow Graph

  • ρ(q,q',t) = min{r(q,q',t), r(q',q,t)} / max{r(q,q',t), r(q',q,t)}
    • rは出現頻度

Query Recommendation

  • MSRのデータセット
  • レコード: クエリ、セッションID、タイムスタンプ、クリック結果
  • 入力クエリからランダムウォーク
  • レコメンドの方法
    • 確率順にそのまま出力
    • PageRankとの比?の順位出力
  • Queryflow-S, SP, SPC, GSPC, GSPCXの順に良い、QRTを区別したほうが良い?

kk query-flow graph recommendation

2014-01-02 02:46:54 (Thu)

最終更新:2014年01月02日 02:46