新書推薦:
《
一个经济杀手的自白 第3版
》
售價:HK$
110.9
《
8秒按压告别疼痛
》
售價:HK$
87.4
《
津巴多时间心理学:挣脱束缚、改写命运的6种时间观
》
售價:HK$
77.3
《
大英博物馆东南亚简史
》
售價:HK$
177.0
《
纯粹·我只要少许
》
售價:HK$
80.6
《
投机苦旅:一位投机客的凤凰涅槃
》
售價:HK$
88.5
《
重返马赛渔场:社会规范与私人治理的局限
》
售價:HK$
69.4
《
日子慢慢向前,事事慢慢如愿
》
售價:HK$
55.8
|
內容簡介: |
本书以理论和实践相结合的形式深入浅出地介绍强化学习的历史、基本概念、经典算法和一些前沿技术,共分为三大部分:第壹部分(1~5章)介绍强化学习的发展历史、强化学习的基本概念以及一些经典的强化学习算法;第二部分(6~9章)在简要回顾深度学习技术的基础上着重介绍深度强化学习的一些前沿实用算法;第三部分(*后一章)以五子棋为例详细讲解战胜了人类*围棋选手的Alpha Zero算法的核心思想。
|
目錄:
|
前言
致谢
常用数学符号
主要算法列表
第1章概述1
1.1强化学习的历史1
1.2强化学习的基本概念2
1.3章节组织6
1.4编程环境与代码资源6
第2章从一个示例到马尔可夫决策过程7
2.1马尔可夫过程7
2.2马尔可夫奖励过程9
2.3马尔可夫决策过程13
2.4编程实践:学生马尔可夫决策示例20
2.4.1收获和价值的计算20
2.4.2验证贝尔曼方程22
第3章动态规划寻找最优策略29
3.1策略评估29
3.2策略迭代32
3.3价值迭代33
3.4异步动态规划算法36
3.5编程实践:动态规划求解小型格子世界最优策略37
3.5.1小型格子世界MDP建模37
3.5.2策略评估40
3.5.3策略迭代41
3.5.4价值迭代41
第4章不基于模型的预测43
4.1蒙特卡罗强化学习43
4.2时序差分强化学习45
4.3n步时序差分学习50
4.4编程实践:蒙特卡罗学习评估21点游戏的玩家策略54
4.4.121点游戏规则54
4.4.2将21点游戏建模为强化学习问题55
4.4.3游戏场景的搭建55
4.4.4生成对局数据64
4.4.5策略评估64
第5章无模型的控制67
5.1行为价值函数的重要性67
5.2?贪婪策略68
5.3同策略蒙特卡罗控制69
5.4同策略时序差分控制70
5.4.1Sarsa算法70
5.4.2Sarsaλ算法73
5.4.3比较Sarsa和Sarsaλ74
5.5异策略Q学习算法76
5.6编程实践:蒙特卡罗学习求解21点游戏的最优策略78
5.7编程实践:构建基于gym的有风的格子世界及个体81
5.7.1gym库简介81
5.7.2状态序列的管理83
5.7.3个体基类的编写84
5.8编程实践:各类学习算法的实现及与有风的格子世界的交互88
5.8.1Sarsa算法89
5.8.2Sarsaλ算法90
5.8.3Q学习算法91
第6章价值函数的近似表示93
6.1价值近似的意义93
6.2目标函数与梯度下降95
6.2.1目标函数95
6.2.2梯度和梯度下降97
6.3常用的近似价值函数100
6.3.1线性近似101
6.3.2神经网络101
6.3.3卷积神经网络近似104
6.4DQN算法108
6.5编程实践:基于PyTorch实现DQN求解PuckWorld问题109
6.5.1基于神经网络的近似价值函数110
6.5.2实现DQN求解PuckWorld问题113
第7章基于策略梯度的深度强化学习117
7.1基于策略学习的意义117
7.2策略目标函数119
7.3Actor-Critic算法121
7.4深度确定性策略梯度算法124
7.5编程实践:DDPG算法实现125
7.5.1连续行为空间的PuckWorld环境125
7.5.2Actor-Critic网络的实现127
7.5.3确定性策略下探索的实现130
7.5.4DDPG算法的实现130
7.5.5DDPG算法在PuckWorld环境中的表现135
第8章基于模型的学习和规划137
8.1环境的模型137
8.2整合学习与规划——Dyna算法139
8.3基于模拟的搜索140
8.3.1简单蒙特卡罗搜索140
8.3.2蒙特卡罗树搜索141
第9章探索与利用143
9.1多臂游戏机143
9.2常用的探索方法145
9.2.1衰减的?贪婪探索145
9.2.2不确定行为优先探索146
9.2.3基于信息价值的探索149
第10章Alpha Zero算法实战151
10.1自博弈中的蒙特卡罗树搜索154
10.2模型评估中的蒙特卡罗搜索156
10.3策略价值网络结构及策略提升160
10.4编程实践:Alpha Zero算法在五子棋上的实现161
10.4.1从零开始搭建棋盘环境161
10.4.2搭建两种MCTS以实现Alpha
Zero自博弈与模型评估168
10.4.3搭建策略价值网络并进行策略提升177
10.4.4训练自己的Alpha Zero
模型182
参考文献184
|
內容試閱:
|
2017年,DeepMind公司开发的AlphaGo人工智能围棋博弈软件的升级版Master战胜了围棋世界冠军,引起了不小的轰动。AlphaGo的巨大成功主要得益于它的实现是基于人工智能的“强化学习”原理,通过神经网络模拟了人类的学习过程并充分发挥了现代计算机的强大计算性能。强化学习是什么,何以如此强大?带着这个问题,我翻阅了相关学术文献和一些介绍强化学习的书籍,并认真观看了DeepMind在网络上发布的一套关于强化学习的公开课视频,经过一段时间的摸索,我较为系统地掌握了强化学习的工作原理和经典算法,并编写代码实现了其中的主要算法。为了进一步巩固和加深自己对强化学习的理解,我不断和其他学习者进行学术交流,并陆续把自己的学习体会整理后发表在知乎的一个专栏上,与大家分享。
随后有不少出版社联系我商谈出版事宜,我深感自己水平有限,均婉拒之。后来我有幸就读于蒙特利尔大学计算机学院人工智能专业,对强化学习、深度学习等的理论和实践有了较为深入的理解。考虑到市面上介绍强化学习入门的书较少,于是在机械工业出版社编辑的诚挚邀请下,我答应将自己的学习体会整理成书。由于自己才疏学浅,我特邀上海交通大学闫维新教授对全文进行了审改,并请他编写了最后一章。
本书以理论和实践相结合的形式深入浅出地介绍强化学习的历史、基本概念、经典算法和一些前沿技术,共分为三大部分:第一部分(第1~5章)介绍强化学习的发展历史、基本概念以及一些经典的强化学习算法;第二部分(第6~9章)在简要回顾深度学习技术的基础上着重介绍深度强化学习的一些前沿实用算法;第三部分(第10章)以五子棋为例详细讲解战胜了人类顶级围棋选手的Alpha Zero算法的核心思想。为了便于读者学习,本书的每一章都先介绍相关理论以及算法原理,随后通过精心编写的Python示例程序来实现算法、验证理论,让读者能够从理论文字、数学公式、示例代码三个方面综合理解强化学习。
本书涉及的源代码文件既可以通过https:github.comqqiang00reinforcetreemasterreinforce codes_for_book下载,也可以从华章公司的网站(www.hzbook.com)下载(搜索到本书以后单击“资料下载”按钮,即可在本书页面上的“扩展资源”模块找到配书资源下载链接)。若下载有问题,请发送电子邮件到booksaga@126.com,邮件主题为“强化学习入门:从原理到实践”。
本书既可作为计算机专业高年级本科生及硕士生关于人工智能领域的入门参考读物,也可供对人工智能技术特别是强化学习技术感兴趣的读者借鉴参考。限于作者的水平,书中难免有因理解不准确而表述不到位的地方,恳请业内专家指正,先表谢意!
叶强
2020年5月23日
|
|