《阿尔法零对最优模型预测自适应控制的启示》 [美]德梅萃·P. 博塞克斯（Dimitri P. Bertsekas）著贾庆山李岩译 9787302660361 【清华大学出版社官方正版电子书】- 文泉书局

阿尔法零对最优模型预测自适应控制的启示

作者： [美]德梅萃·P. 博塞克斯（Dimitri P. Bertsekas）著贾庆山李岩译

出版日期： 2024-06-01

电子书：暂不销售（ 定价：69.0 ）

收藏
加书架
引用

简介

大致内容：第一章，从阿尔法零的卓越性能出发，深入解读其背后着实不易的成长历程，揭示其数学模型。第二章，从确定性和随机动态规划问题入手，介绍决策问题的数学模型。第三章，从抽象视角回顾纷繁复杂的强化学习算法，揭示值函数近似与滚动改进的重要作用。第四章，从经典的线性二次型最优控制问题入手，分析从阿尔法零的成功中学到的经验。第五章，分别从鲁棒、自适应、模型预测控制等问题入手，分析值函数近似与滚动改进对算法性能的提升潜力。第六章，从离散优化的视角审视阿尔法零的成功经验。第七章，总结全书。适合作为本领域研究者作为学术专著阅读，也适合作为研究生和本科生作为参考书使用。

编辑推荐

本书的目的是提出并构建近似动态规划和强化学习的理论框架。这一框架以两个算法为中心，这两个算法在很大程度上彼此独立地设计出来并通过牛顿法的有力机制融洽地合作使用。本书是原作者在美国亚利桑那州立大学讲课过程中完成。课程视频和课件可从作者网站下载。

更多出版物信息

版权：清华大学出版社
出版： 2024-06-01
作者：[美]德梅萃·P. 博塞克斯（Dimitri P. Bertsekas）著贾庆山李岩译
更新： 2025-06-05
书号：9787302660361
中图：TP18
学科：

工学

控制科学与工程
工学

计算机科学与技术
交叉学科

智能科学与技术

封面 1

扉页 2

版权页 3

关于作者 4

译者序 5

序言 6

目录 9

第1章阿尔法零、离线训练和在线学习 11

第2章确定性和随机的动态规划 23

第3章强化学习的抽象视角 32

第4章线性二次型情形——例证 69

第5章自适应和模型预测控制 85

第6章有限时段确定性问题——离散优化 98

正文结束 154

附录A 不动点问题的牛顿法 155

参考文献 162

封底 172

作者信息

[美]德梅萃·P. 博塞克斯（Dimitri P. Bertsekas）著贾庆山李岩译

贾庆山，清华大学长聘教授。主要研究信息物理融合能源系统的优化理论与方法。发表四十篇IEEE汇刊论文。获得2009年国家自然科学奖二等奖、2018年国家自然科学奖二等奖、2020年教育部自然科学奖二等奖，多次获得国际期刊、国际会议最佳论文奖。担任IEEE Internet of Things Activity Board委员、IEEE控制系统协会Board of Governors委员、IEEE控制系统协会北京分会主席、IEEE机器人与自动化协会智能建筑专业委员会副主席、IFAC智慧城市控制专业委员会主席。曾任IEEE控制系统协会离散事件系统专业委员会主席。担任中国自动化学会第十一届控制理论专业委员会委员兼副秘书长，中国自动化学会第一届工业控制系统信息安全专业委员会委员。