Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

前9章读后感 #28

Open
LeeChunley opened this issue Oct 21, 2021 · 0 comments
Open

前9章读后感 #28

LeeChunley opened this issue Oct 21, 2021 · 0 comments

Comments

@LeeChunley
Copy link

LeeChunley commented Oct 21, 2021

人工智能确实是现在很热的方向和研究领域,尤其又是当下的,强化学习。
搜索一番,国内前几所高校,几乎还没有外传的并且公开的有关强化学习的较完整的书籍或者教材。
感谢王树森先生的书籍稿件和视频资料,并分享在GitHub和YouTube上,希望能够发扬并保持下去。
国内几大互联网巨头,没有吸取到外面精华和精髓,任何访问,要么就是一大堆广告,要么就是无节制地索取用户信息,要么就是流量很贵。
稿件前9章以及视频资料有过较详细的阅读和观看,有如下几点体会。
1.概率论数学知识在强化学习中的比重特别大和重要,我个人体会可能要占到70%。
2.这虽然不是主要讲数学的书,但是核心支撑就是概率论数学基础。
3.概率的数学推导,大部分就是数学建模和不断简化(不是优化)。但是王先生好像很少提到数学建模,好像还想避开数学建模字眼,深怕提及了数学建模,怕吓跑读者。当然在视频中,王先生自己也说到“不太严谨”。
4.贝尔曼方程就是一个数学模型,Q函数和V值函数在做时序差分TD算法的时候,能不能不用这个贝尔曼方程?。跨不过去。概率数学、数学建模是基石。
5.策略函数梯度公式,核心又是数学。想躲数学吗?
6.概率论中有【期望】,强化学习的Q值和V值也有【期望】,这两个【期望】好像不是同一回事吧?。概率论中期望,是说当样本越来越多,然后收敛,最后趋于均值。强化学习中的Q值和V值是希望最好值,要找max值。这是要借用还是混用,还是别人这么用,姑且我也先这么用?。
7.【全书或者GitHub没有代码,没有案例?.】有了代码我们是想看,你或者你的团队是怎么衔接的,怎么用到实处。所以烦请你,后面有机会一定要补充和更新代码,锦上添花。不附加实际案例和代码,这就是一本即不像讲数学的书,又不像讲算法和代码的书,几不像。
8.全书或者全稿以及视频讲义:图文并茂、思路清晰、简洁清爽、多色字体呈现,便于读者阅读和理解。知识的呈现,本就应该多元化表达。希望以后继续保持和发扬这种呈现风格。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

1 participant