简介
大致内容:第一章,从阿尔法零的卓越性能出发,深入解读其背后着实不易的成长历程,揭示其数学模型。第二章,从确定性和随机动态规划问题入手,介绍决策问题的数学模型。第三章,从抽象视角回顾纷繁复杂的强化学习算法,揭示值函数近似与滚动改进的重要作用。第四章,从经典的线性二次型最优控制问题入手,分析从阿尔法零的成功中学到的经验。第五章,分别从鲁棒、自适应、模型预测控制等问题入手,分析值函数近似与滚动改进对算法性能的提升潜力。第六章,从离散优化的视角审视阿尔法零的成功经验。第七章,总结全书。适合作为本领域研究者作为学术专著阅读,也适合作为研究生和本科生作为参考书使用。
编辑推荐
本书的目的是提出并构建近似动态规划和强化学习的理论框架。这一框架以两个算法为中心,这两个算法在很大程度上彼此独立地设计出来并通过牛顿法的有力机制融洽地合作使用。本书是原作者在美国亚利桑那州立大学讲课过程中完成。课程视频和课件可从作者网站下载。
更多出版物信息
- 版权: 清华大学出版社
- 出版: 2024-06-01
- 更新: 2024-10-24
- 书号:9787302660361
- 中图:TP18
- 学科:工学控制科学与工程工学计算机科学与技术交叉学科智能科学与技术