ICWSM - A Great Catchy Name: Semi-Supervised Recognition of Sarcastic Sentences in Online Product Reviews
-
Oren Tsur, Dmitry Davidov, Ari Rappoport
-
ICWSM 2010
-
レビューが皮肉かどうか?
-
Greatとかあるとダルい
-
応用
-
コーパス(データ)
-
1,2: 皮肉でない
-
3,4,5: 皮肉
-
これがアノテートされたコーパスで「教師つき学習」
-
普通はn-gramだけど今回はPhrase Patternを使う
-
n-gramの一般拡張
-
語を変数で置換
-
変数は任意の語にマッチする
-
細かく設定できる
-
パターンに語を挿入したらマッチ
-
パターンの変数を削除したらマッチ
-
データの作り方
-
500文をアノテート(手動!)
-
↑に似てそうなの5000文をY!で検索して同レベルに設定
-
推定手法
-
前処理: 固有名詞をメタなトークンに置換
-
パターン選択: n-gramは線形だが,これはめんどい,頑張るぞい
-
パターン特徴量: マッチを[0,1]^nベクトルとする
-
クラスタリング: k-NN
-
結果
-
人手からやってのより,Y!した方がちょっと良さそう
-
Baseline
-
Amazonで評価が悪いがpositiveな単語がある
-
取りこぼしが多い,しょぼい
ICWSM
2014/10/24
最終更新:2014年10月24日 18:28