強化学習

強化学習はエージェントが環境との相互作用から試行錯誤的に学習を行う枠組みである.強化学習では,行動に対する評価(報酬)の遅延,膨大な学習時間,搾取と探索との間のトレードオフ,という問題点が指摘されている.我々はこれらの問題点に対する解決を試みている。