某大学生の機械学習日記

趣味はでぃーぷらーにんぐ

Rainbow DQNのまとめ

~Raibow DQNとは~

Deep Q Networkをベースとした以下の6つの改善手法全てを統合したモデル

(1) Double DQN

  • DQNの課題
    Q-learningでは教師データをmaxQ-valueで更新していた。この方法だと本来は価値の高くないはずの行動を最適だと判断してQ-valueの更新を行ってしまう可能性があり(過大評価)、最適な方策を見つけにくくなる恐れがあった。

  • Double DQNにおける提案
    教師データを作る際に、今まで同じネットワークで評価していたのを別のネットワークの評価値で置き換えることで過大評価の可能性を抑えた。

(2)Prioritized Experience Reply

  • DQNの課題
    時系列に影響されない学習の実現のためにExperience Replyを用いる。保存されたものからランダムに経験が抽出されるため、学習にふさわしくない経験が多く呼び出されたり、重要な経験が呼び出されずに非効率的な学習を行っていた。

  • Prioritized Experience Replyにおける提案
    TD誤差によって経験に優先度をつけて保存することで、重要な経験が呼び出されやすくなるようにし効率的な学習を行う。この考えをベースとしてちょっとした工夫を散りばめる(確率的サンプリング、propotional or rank-based、バイアス、)

(3)Dueling Network

  • DQNの課題
    行動が期待報酬に結びつきにくい経験も他の期待報酬に直接影響を施すものと同等に学習されてしまい、余計な推論を行ってしまう。

  • Dueling Networkにおける提案
    状態価値と行動のアドバンテージ価値を別々に学部手法。FC層の部分を二つに分裂させた。

(4)Multi-Step learning

  • DQNの課題
    1-step先の行動報酬に基づいて学習を行っているため、収束までにかかる時間が長い。

  • Multi-Step learningにおける提案
    n-step先の行動報酬を参照するモデルにした。

(5)Noisy Network

  • DQNの課題
    探索のためにε-greedyを採択して行動を確率的にランダムに選択していたが、これでは十分な広さの探索を行えなかった。

  • Noisy Networkにおける提案
    ネットワークの重みをちょっとした変化を与えることで探索を促進させた。

(6)Categorical DQN

  • DQNの課題
    報酬期待値を値(点)として捉えていた。

  • Categorical DQNにおける提案
    報酬期待値を分布として与えた

まさにレインボーと呼べるにふさわしい7色のモデル。学習速度、精度ともに当時のSOTAだったどうだが"ape-X"という革新的なモデルに更新されたらしい。 まだまだ未開拓な感じがなんともそそる。