We read every piece of feedback, and take your input very seriously.
To see all available qualifiers, see our documentation.
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
code2-6 遷移先の価値の計算について、
baby-steps-of-rl-ja/DP/planner.py
Line 59 in 1dadc20
上記箇所において、V を更新してしまうと、同じ iteration 内の後続の V(s) の計算に影響がでてしまうと思います。 (V_{i+1}(s_k) の算出に、すでに計算済の s_j の価値 V_{i+1}(s_j) が反映される場合がある)
P.44 の式の通りの計算をするならば、 next_V[s] = max_reward として、iteration の最後で V を更新(V=next_V) のようにするなど、同一 iteration 内で V を更新しないようにすべきだと思いました。
next_V[s] = max_reward
V=next_V
ページ番号: p45
pip freeze
(例外のメッセージ、ログ、画面ショットなどを添付)
The text was updated successfully, but these errors were encountered:
@tanakanotarou2 さん、ご指摘ありがとうございます。V[s]を修正しているとV[next_state]の値が更新途中で変更されてしまうということですね。ご指摘の通り、更新後のVを別途変数として作成しておき最後に入れ替えるのが適切ですね。
V[s]
V[next_state]
V
Sorry, something went wrong.
ご確認いただきありがとうございました。認識が合っていたようで安心しました。
No branches or pull requests
指摘事項
code2-6 遷移先の価値の計算について、
baby-steps-of-rl-ja/DP/planner.py
Line 59 in 1dadc20
上記箇所において、V を更新してしまうと、同じ iteration 内の後続の V(s) の計算に影響がでてしまうと思います。
(V_{i+1}(s_k) の算出に、すでに計算済の s_j の価値 V_{i+1}(s_j) が反映される場合がある)
P.44 の式の通りの計算をするならば、
next_V[s] = max_reward
として、iteration の最後で V を更新(V=next_V
) のようにするなど、同一 iteration 内で V を更新しないようにすべきだと思いました。指摘箇所
ページ番号: p45
実行環境
pip freeze
の実行結果 (下に添付)エラー内容
(例外のメッセージ、ログ、画面ショットなどを添付)
The text was updated successfully, but these errors were encountered: