ICWSM - A Great Catchy Name: Semi-Supervised Recognition of Sarcastic ...

ICWSM - A Great Catchy Name: Semi-Supervised Recognition of Sarcastic Sentences in Online Product Reviews

  • Oren Tsur, Dmitry Davidov, Ari Rappoport
  • ICWSM 2010
  • レビューが皮肉かどうか?
  • Greatとかあるとダルい
  • 応用
    • 意見抽出
    • 要約
  • コーパス(データ)
    • 1,2: 皮肉でない
    • 3,4,5: 皮肉
    • これがアノテートされたコーパスで「教師つき学習」
  • 普通はn-gramだけど今回はPhrase Patternを使う
    • n-gramの一般拡張
    • 語を変数で置換
    • 変数は任意の語にマッチする
    • 細かく設定できる
      • パターンに語を挿入したらマッチ
      • パターンの変数を削除したらマッチ
  • データの作り方
    • 500文をアノテート(手動!)
    • ↑に似てそうなの5000文をY!で検索して同レベルに設定
  • 推定手法
    • 前処理: 固有名詞をメタなトークンに置換
    • パターン選択: n-gramは線形だが,これはめんどい,頑張るぞい
    • パターン特徴量: マッチを[0,1]^nベクトルとする
    • クラスタリング: k-NN
  • 結果
    • 人手からやってのより,Y!した方がちょっと良さそう
    • Baseline
      • Amazonで評価が悪いがpositiveな単語がある
      • 取りこぼしが多い,しょぼい

ICWSM

2014/10/24

タグ:

ICWSM
最終更新:2014年10月24日 18:28