《强化学习入门：从原理到实践》 - 叶强，闫维新，黎斌 - 机械工业出版社 - 香港大書城

	登入帳戶　 \|　訂單查詢　 \|　購物車/收銀台(0)　\|　在線留言板　 \|　付款方式　 \|　運費計算　 \|　聯絡我們　 \|　幫助中心　\|　加入書簽
		會員登入新用戶登記

HOME

新書上架

暢銷書架

好書推介

2024年度TOP

臺灣用戶

品種：超過100萬種各類書籍/音像和精品，正品正價，放心網購，悭钱省心

服務：香港／台灣／澳門／海外

送貨：速遞／郵局／服務站

新書上架：簡體書繁體書
暢銷書架：簡體書繁體書
好書推介：簡體書繁體書

『簡體書』强化学习入门：从原理到实践

書城自編碼： 3531905
分類：簡體書→大陸圖書→計算機/網絡→人工智能
作者：叶强，闫维新，黎斌
國際書號(ISBN)： 9787111661269
出版社：机械工业出版社
出版日期： 2020-08-01

頁數/字數： /
書度/開本： 16开釘裝：平装

售價：HK$ 104.3

我要買件

** 我創建的書架 **
未登入.

新書推薦：

《深入理解PyTorch 》
售價：HK$ 174.9

《校园有戏——中小学戏剧教育实践指南》
售價：HK$ 85.8

《资本的扩张》
售價：HK$ 79.2

《中国古代姓氏与避讳起源（学术文库）》
售價：HK$ 107.8

《以色列史：应许之地的现代叙事 | 看世界 | 区域国别史》
售價：HK$ 94.6

《堂吉诃德（插图珍藏版）（全2册）》
售價：HK$ 437.8

《项目管理一本通（故事版）》
售價：HK$ 74.8

《甲骨文丛书·法兰西美食一千年》
售價：HK$ 75.9

內容簡介：

本书以理论和实践相结合的形式深入浅出地介绍强化学习的历史、基本概念、经典算法和一些前沿技术，共分为三大部分：第壹部分（1～5章）介绍强化学习的发展历史、强化学习的基本概念以及一些经典的强化学习算法；第二部分（6～9章）在简要回顾深度学习技术的基础上着重介绍深度强化学习的一些前沿实用算法；第三部分（*后一章）以五子棋为例详细讲解战胜了人类*围棋选手的Alpha Zero算法的核心思想。

前言
致谢
常用数学符号
主要算法列表
第1章概述1
1.1强化学习的历史1
1.2强化学习的基本概念2
1.3章节组织6
1.4编程环境与代码资源6
第2章从一个示例到马尔可夫决策过程7
2.1马尔可夫过程7
2.2马尔可夫奖励过程9
2.3马尔可夫决策过程13
2.4编程实践：学生马尔可夫决策示例20
2.4.1收获和价值的计算20
2.4.2验证贝尔曼方程22
第3章动态规划寻找最优策略29
3.1策略评估29
3.2策略迭代32
3.3价值迭代33
3.4异步动态规划算法36
3.5编程实践：动态规划求解小型格子世界最优策略37
3.5.1小型格子世界MDP建模37
3.5.2策略评估40
3.5.3策略迭代41
3.5.4价值迭代41
第4章不基于模型的预测43
4.1蒙特卡罗强化学习43
4.2时序差分强化学习45
4.3n步时序差分学习50
4.4编程实践：蒙特卡罗学习评估21点游戏的玩家策略54
4.4.121点游戏规则54
4.4.2将21点游戏建模为强化学习问题55
4.4.3游戏场景的搭建55
4.4.4生成对局数据64
4.4.5策略评估64
第5章无模型的控制67
5.1行为价值函数的重要性67
5.2?贪婪策略68
5.3同策略蒙特卡罗控制69
5.4同策略时序差分控制70
5.4.1Sarsa算法70
5.4.2Sarsaλ算法73
5.4.3比较Sarsa和Sarsaλ74
5.5异策略Q学习算法76
5.6编程实践：蒙特卡罗学习求解21点游戏的最优策略78
5.7编程实践：构建基于gym的有风的格子世界及个体81
5.7.1gym库简介81
5.7.2状态序列的管理83
5.7.3个体基类的编写84
5.8编程实践：各类学习算法的实现及与有风的格子世界的交互88
5.8.1Sarsa算法89
5.8.2Sarsaλ算法90
5.8.3Q学习算法91
第6章价值函数的近似表示93
6.1价值近似的意义93
6.2目标函数与梯度下降95
6.2.1目标函数95
6.2.2梯度和梯度下降97
6.3常用的近似价值函数100
6.3.1线性近似101
6.3.2神经网络101
6.3.3卷积神经网络近似104
6.4DQN算法108
6.5编程实践：基于PyTorch实现DQN求解PuckWorld问题109
6.5.1基于神经网络的近似价值函数110
6.5.2实现DQN求解PuckWorld问题113
第7章基于策略梯度的深度强化学习117
7.1基于策略学习的意义117
7.2策略目标函数119
7.3Actor-Critic算法121
7.4深度确定性策略梯度算法124
7.5编程实践：DDPG算法实现125
7.5.1连续行为空间的PuckWorld环境125
7.5.2Actor-Critic网络的实现127
7.5.3确定性策略下探索的实现130
7.5.4DDPG算法的实现130
7.5.5DDPG算法在PuckWorld环境中的表现135
第8章基于模型的学习和规划137
8.1环境的模型137
8.2整合学习与规划——Dyna算法139
8.3基于模拟的搜索140
8.3.1简单蒙特卡罗搜索140
8.3.2蒙特卡罗树搜索141
第9章探索与利用143
9.1多臂游戏机143
9.2常用的探索方法145
9.2.1衰减的?贪婪探索145
9.2.2不确定行为优先探索146
9.2.3基于信息价值的探索149
第10章Alpha Zero算法实战151
10.1自博弈中的蒙特卡罗树搜索154
10.2模型评估中的蒙特卡罗搜索156
10.3策略价值网络结构及策略提升160
10.4编程实践：Alpha Zero算法在五子棋上的实现161
10.4.1从零开始搭建棋盘环境161
10.4.2搭建两种MCTS以实现Alpha
Zero自博弈与模型评估168
10.4.3搭建策略价值网络并进行策略提升177
10.4.4训练自己的Alpha Zero
模型182
参考文献184

內容試閱：

2017年，DeepMind公司开发的AlphaGo人工智能围棋博弈软件的升级版Master战胜了围棋世界冠军，引起了不小的轰动。AlphaGo的巨大成功主要得益于它的实现是基于人工智能的“强化学习”原理，通过神经网络模拟了人类的学习过程并充分发挥了现代计算机的强大计算性能。强化学习是什么，何以如此强大？带着这个问题，我翻阅了相关学术文献和一些介绍强化学习的书籍，并认真观看了DeepMind在网络上发布的一套关于强化学习的公开课视频，经过一段时间的摸索，我较为系统地掌握了强化学习的工作原理和经典算法，并编写代码实现了其中的主要算法。为了进一步巩固和加深自己对强化学习的理解，我不断和其他学习者进行学术交流，并陆续把自己的学习体会整理后发表在知乎的一个专栏上，与大家分享。
随后有不少出版社联系我商谈出版事宜，我深感自己水平有限，均婉拒之。后来我有幸就读于蒙特利尔大学计算机学院人工智能专业，对强化学习、深度学习等的理论和实践有了较为深入的理解。考虑到市面上介绍强化学习入门的书较少，于是在机械工业出版社编辑的诚挚邀请下，我答应将自己的学习体会整理成书。由于自己才疏学浅，我特邀上海交通大学闫维新教授对全文进行了审改，并请他编写了最后一章。
本书以理论和实践相结合的形式深入浅出地介绍强化学习的历史、基本概念、经典算法和一些前沿技术，共分为三大部分：第一部分（第1～5章）介绍强化学习的发展历史、基本概念以及一些经典的强化学习算法；第二部分（第6～9章）在简要回顾深度学习技术的基础上着重介绍深度强化学习的一些前沿实用算法；第三部分（第10章）以五子棋为例详细讲解战胜了人类顶级围棋选手的Alpha Zero算法的核心思想。为了便于读者学习，本书的每一章都先介绍相关理论以及算法原理，随后通过精心编写的Python示例程序来实现算法、验证理论，让读者能够从理论文字、数学公式、示例代码三个方面综合理解强化学习。
本书涉及的源代码文件既可以通过https：github.comqqiang00reinforcetreemasterreinforce codes_for_book下载，也可以从华章公司的网站（www.hzbook.com）下载（搜索到本书以后单击“资料下载”按钮，即可在本书页面上的“扩展资源”模块找到配书资源下载链接）。若下载有问题，请发送电子邮件到booksaga@126.com，邮件主题为“强化学习入门：从原理到实践”。
本书既可作为计算机专业高年级本科生及硕士生关于人工智能领域的入门参考读物，也可供对人工智能技术特别是强化学习技术感兴趣的读者借鉴参考。限于作者的水平，书中难免有因理解不准确而表述不到位的地方，恳请业内专家指正，先表谢意！
叶强
2020年5月23日

書城介紹　 \|　合作申請　\|　索要書目　 \|　新手入門　\|　聯絡方式　 \|　幫助中心　\|　找書說明　 \|　送貨方式　\|　付款方式	香港用户　 \|　台灣用户　\|　海外用户

	megBook.com.hk
Copyright © 2013 - 2025 （香港）大書城有限公司　 All Rights Reserved.