Playing Atari with Deep Reinforcement Learning

Playing Atari with Deep Reinforcement Learning

  • ポイント
  • ゲーム+深層学習+強化学習
  • 結果がやばい
  • 深層学習+強化学習
    • Q(s,a)を畳み込みニューラルネットワークで表現
  • Atari 2600の7つのゲームで評価
  • 背景削除とかいらないぜ!!
  • 3/7で人間に勝利
  • Arcade Learning Environment
  • っていう環境があるらしい(知らなかった)
  • 強化学習タスク
  • 部分観測マルコフ決定過程
    • 観測した画面だけでは現在の状況は分からん
    • シューティングとか、弾がどっちに飛んでるか分からん
  • ゲームのはじめからの画面と自分がとってきた行動を状態とする
  • ↑のおかげでスタンダードなQ-learningが使える
  • そのままはちょっと辛いので関数近似
  • Back propagation
  • Experience relpay
    • 過去の遷移を保存してなんかやる
    • パラメータの振動・発散を防げる
  • Deep Q-Network
    • 入力: ラスト4フレーム(グレースケール
    • 出力: 各アクションの行動価値
  • 結果
    • 長期的な戦略が必要なゲームは人間に勝てないけど、それ意外は勝てるっぽい

NIPS

2014-01-24 14:18:29 (Fri)

タグ:

NIPS
最終更新:2014年01月24日 14:18