code2-6 遷移先の価値の計算について #72

ghost · 2022-06-02T20:11:51Z

code2-6 遷移先の価値の計算について、

Line 59 in 1dadc20

V[s] = max_reward

上記箇所において、V を更新してしまうと、同じ iteration 内の後続の V(s) の計算に影響がでてしまうと思います。
(V_{i+1}(s_k) の算出に、すでに計算済の s_j の価値 V_{i+1}(s_j) が反映される場合がある)

P.44 の式の通りの計算をするならば、
next_V[s] = max_reward として、iteration の最後で V を更新(V=next_V) のようにするなど、同一 iteration 内で V を更新しないようにすべきだと思いました。

ページ番号: p45

(例外のメッセージ、ログ、画面ショットなどを添付)

The text was updated successfully, but these errors were encountered:

icoxfog417 · 2022-06-04T01:43:01Z

@tanakanotarou2 さん、ご指摘ありがとうございます。V[s]を修正しているとV[next_state]の値が更新途中で変更されてしまうということですね。ご指摘の通り、更新後のVを別途変数として作成しておき最後に入れ替えるのが適切ですね。

ghost · 2022-06-04T20:27:18Z

ご確認いただきありがとうございました。認識が合っていたようで安心しました。

icoxfog417 added the question Further information is requested label Jun 3, 2022

icoxfog417 added the code New feature or request label Jun 4, 2022

Provide feedback