《强化学习基础、原理与应用》张百珂 9787302685913 【清华大学出版社官方正版电子书】- 文泉书局

强化学习基础、原理与应用

作者：张百珂

出版社：清华大学出版社

出版日期： 2025-05-01

优惠券：
￥3
￥10
￥30
￥70
领券

电子书：￥64.35 （ 定价：99.0 ）

支持送礼物

送给好友

收藏
加书架
引用

简介

本书循序渐进地讲解了使用Python语言实现强化学习的核心算法开发的知识，内容涵盖了数据处理、算法、大模型等知识，并通过具体实例的实现过程演练了各个知识点的使用方法和使用流程。本书共分为17章，主要内容包括强化学习基础、马尔可夫决策过程、蒙特卡洛方法、Q-learning与贝尔曼方程、时序差分学习和SARSA算法、DQN算法、DDQN算法、竞争DQN算法、REINFORCE算法、Actor-Critic算法、PPO算法、TRPO算法、连续动作空间的强化学习、值分布式算法、基于模型的强化学习、多智能体强化学习实战：Predator-Prey游戏及自动驾驶系统。本书内容简洁而不失技术深度，以极简的文字介绍了复杂的案例，易于阅读和理解。本书适用于已经了解Python语言基础语法的读者，想进一步学习强化学习、机器学习、深度学习及相关技术的读者，还可作为大专院校相关专业的师生用书和培训机构的教材使用。

编辑推荐

《强化学习基础、原理与应用》全面介绍强化学习领域的核心开发技术和项目实践。书中涵盖了强化学习领域的广泛内容，从算法到应用，从理论到实践，涵盖机器人控制、游戏、金融投资、自动驾驶等多个场景，让读者不仅能理解理论，还能将其应用到实际项目中。

更多出版物信息

版权：清华大学出版社
出版： 2025-05-01
作者：张百珂
更新： 2025-06-23
书号：9787302685913
中图：TP312.8
学科：

工学

控制科学与工程
工学

计算机科学与技术

封面 1

扉页 2

内容简介 3

版权页 3

前言 4

目录 6

第1章强化学习基础 12

第2章马尔可夫决策过程 22

第3章蒙特卡洛方法 46

第4章 Q-learning与贝尔曼方程 66

第5章时序差分学习和SARSA算法 94

第6章 DQN算法 116

第7章 DDQN算法 144

第8章竞争DQN算法 160

第9章 REINFORCE算法 184

第10章 Actor-Critic算法 198

第11章 PPO算法 222

第12章 TRPO算法 244

第13章连续动作空间的强化学习 264

第14章值分布式算法 292

第15章基于模型的强化学习 312

第16章多智能体强化学习实战：Predator-Prey游戏 330

第17章自动驾驶系统 358

正文结束 405

封底 406

作者信息

张百珂

张百珂，计算机硕士，前百度云研发工程师，在大规模机器学习、深度学习、数据搜索、行业垂直应用、研发管理等领域拥有丰富经验。在企业智能化转型、业务线上化经营，拥有丰富的大规模搜索架构、个性化推荐架构、机器学习系统架构经验和技术团队管理经验。现在从事与城市大数据中心的开发和建设工作，将深度学习运用到数字经济利领域。

强化学习基础、原理与应用

作者信息

张百珂

推荐专题

工程建模与仿真：面向智能制造的跨学科实践

正义的算法：司法变革与未来法治

数字时代的艺术生产：工具、AI与跨媒介实践

数字经济浪潮：洞察、变革与前沿

碳路新篇：战略、路径与创新

“移” 路探索：移动智能新纪元

相关图书

深度强化学习原理与实践

深度强化学习原理与实践

图强化学习--原理与实践入门

图强化学习--原理与实践入门

深度强化学习--算法原理与金融实践入门

深度强化学习--算法原理与金融实践入门

强化学习的数学原理（英文版）

强化学习的数学原理（英文版）

强化学习

强化学习

强化学习

强化学习

强化学习

强化学习

深度学习——图像检索原理与应用

深度学习——图像检索原理与应用

深度强化学习

深度强化学习

相关课程

深度强化学习理论与实践（9787302625544/095306-01）

医学基础化学实验与学习指导

自然语言处理——原理、方法与应用（9787302617747/089906-01）

深度学习原理与PyTorch实战（9787302576860/090778-01）

无线网络技术教程——原理、应用与实验（金光）

雅思写作强化班（陈国辉）

雅思听力强化班（任林）

深度探索Vue.js——原理剖析与实战应用（9787302610991/095784-01）

数据库原理与应用教程——SQL Server 2008（尹志宇、郭晴）

托福阅读强化班（沈昂）