hyoukadのブログ

立場の説明のしにくい在野研究者の日々の記録

NFL定理は強化学習の最適化とは関係ありません.

例えば,アスリートは常に人類が存在する以上,最新記録を更新し続けます.他のsportsでも同様です.人間はmulti agentで全ての問題をより最適化することができます. つまり, 現在解決可能な全ての問題の部分群を特定の精度で解決できるアルゴリズムを常に超えるアルゴリズムは存在し続けるということです. RLやGAの組み合わせになるかもしれませんし, 量子コンピューター,を利用するかもしれません.

 

厳密にいえば,

(1) x=a(d^x,d^y)であることにより, xはfに依存しないとありますが, 実際には強化学習は何らかのポリシーによって更新されるため,軌道の集合がfに依存しないことはありません. これは証明中に存在していて成立する,fに依存しない話であるのでもしNFLを現実的な強化学習トレードオフと結びつけるとしたら問題があります.

 

(2)m+1へ移るとき,新たなyの値は新たなxの値と関数fのみに依存するとありますが,現実的には過去のそのほかの情報(experience replay)などを用いています.これは証明中に存在している定理を導くための仮定であるため,現実的な設定ではありません.そのような仮定を置かなくても十分,そこで仮定されている全ての問題を解くことが可能です.(特殊な問題を解決するためにそれが通常の最適化アルゴリズムである必要はありません.従って,過去の情報を用いるなどして問題解決できるということです.)

 

従って,現状のRLの問題を全て別のアルゴリズムでより精度よく解くことは可能です.

更に未知の問題を全て良い精度で解くことが可能であるかもしれません.

まとめると,NFL定理はRLの最適化と何の関連性もありません.

 

間違っていたら連絡してください.