新書推薦:

《
大争之世:改变古代中国的十五次战争
》
售價:HK$
96.8

《
基础肌动学手册(第20版)
》
售價:HK$
151.8

《
草原帝国(精装本)
》
售價:HK$
121.0

《
大女主:唤醒女性内在的力量(女性应最大限度地做自己,而不是做女儿、妻子或母亲!)
》
售價:HK$
63.8

《
海权的胜利 第二次世界大战中海军与全球秩序的转变 保罗·肯尼迪 著 二战如何改变全球秩序 海权论 战争史 二战史 制海权
》
售價:HK$
118.8

《
牛津中国创新手册
》
售價:HK$
261.8

《
李鸿章传:20世纪四大传记之一
》
售價:HK$
41.8

《
养正
》
售價:HK$
85.8
|
編輯推薦: |
《多智能体强化学习:基础与现代方法》是多智能体强化学习领域的权威之作,作者巧妙地将强化学习与博弈论相结合,为该领域的研究和应用奠定了坚实基础。本书不仅适合初学者入门,更为成熟研究人员提供了深度洞察和真知灼见,是多智能体强化学习不可或缺的参考书。
|
內容簡介: |
多智能体强化学习(Multi-Agent Reinforcement Learning, MARL)是机器学习中的一个领域,研究多个智能体如何在共享环境中学习最优的交互方式。这一领域在现代生活中有着广泛的应用,包括自动驾驶、多机器人工厂、自动化交易和能源网络管理等。 本书是一部系统阐述多智能体强化学习理论与技术的权威著作,清晰而严谨地介绍了MARL的模型、解决方案概念、算法思想、技术挑战以及现代方法。书中首先介绍了该领域的基础知识,包括强化学习理论和算法的基础、交互式博弈模型、博弈中的不同解决方案概念以及支撑MARL研究的算法思想。随后,书中详细介绍了利用深度学习技术的现代MARL算法,涵盖集中训练与分散执行、价值分解、参数共享和自博弈等思想。本书还附带了一个用Python编写的MARL代码库,其中包括自包含且易于阅读的MARL算法实现。 本书技术内容以易于理解的语言解释,并通过大量示例进行说明,既为初学者阐明了MARL的概念,也为专业的读者提供了高层次的见解。
|
關於作者: |
斯特凡诺·V. 阿尔布莱希特(Stefano V. Albrecht)爱丁堡大学信息学院人工智能专业副教授,并担任该校自主智能体研究组负责人,同时是英国皇家工程院工业研究员、阿兰·图灵研究所多智能体系统研究团队领军学者。他的研究聚焦自主智能体、多智能体系统、强化学习和博弈论领域,核心方向是不确定情况下的序贯决策。菲利波斯·克里斯蒂安诺斯(Filippos Christianos)多智能体深度强化学习领域的研究科学家,主要研究如何高效地使用MARL算法。他编写了多个流行的MARL代码库。卢卡斯·舍费尔(Lukas Sch?fer)多智能体强化学习领域的一位资深研究人员,专注于利用深度强化学习完成更具通用性、鲁棒性和样本效率的决策制定。
|
目錄:
|
目 录译者序前言符号总览第1章 引言1 1.1 多智能体系统1 1.2 多智能体强化学习4 1.3 应用示例61.3.1 多机器人仓库管理61.3.2 棋盘游戏和电子游戏中的竞争性对战71.3.3 自动驾驶71.3.4 电子市场中的自动化交易7 1.4 多智能体强化学习的挑战8 1.5 多智能体强化学习的议题9 1.6 本书内容和结构10第一部分 多智能体强化学习的基础第2章 强化学习12 2.1 一般定义12 2.2 马尔可夫决策过程14 2.3 期望折扣回报和最优策略16 2.4 价值函数与贝尔曼方程17 2.5 动态规划18 2.6 时序差分学习21 2.7 学习曲线评估23 2.8 R(s,a,s′)和R(s,a)的等价性26 2.9 总结27第3章 博弈:多智能体交互模型28 3.1 标准式博弈29 3.2 重复标准式博弈30 3.3 随机博弈31 3.4 部分可观测随机博弈33 3.5 建模通信35 3.6 博弈中的知识假设36 3.7 词典:强化学习与博弈论37 3.8 总结38第4章 博弈的解概念40 4.1 联合策略与期望回报41 4.2 最佳响应42 4.3 极小极大算法43 4.4 纳什均衡44 4.5 -纳什均衡46 4.6 (粗)相关均衡47 4.7 均衡解的概念局限性49 4.8 帕雷托最优50 4.9 社会福利和公平51 4.10 无悔53 4.11 均衡计算的复杂性544.11.1 PPAD复杂性类554.11.2 计算-纳什均衡是PPAD-完全问题56 4.12 总结57第5章 博弈中的多智能体强化学习:第一步与挑战58 5.1 一般学习过程58 5.2 收敛类型60 5.3 单智能体强化学习的简化625.3.1 中心学习625.3.2 独立学习635.3.3 示例:基于等级的搜寻65 5.4 多智能体强化学习的挑战665.4.1 非平稳性675.4.2 均衡选择685.4.3 多智能体信用分配695.4.4 扩展到多个智能体71 5.5 智能体使用哪些算法715.5.1 自博弈725.5.2 混合博弈72 5.6 总结73第6章 多智能体强化学习:基础算法75 6.1 博弈的动态规划:价值迭代75 6.2 博弈中的时序差分:联合动作学习776.2.1 极小极大Q学习796.2.2 纳什Q学习806.2.3 相关Q学习816.2.4 联合动作学习的局限性81 6.3 智能体建模826.3.1 虚拟博弈836.3.2 智能体建模的联合动作学习856.3.3 贝叶斯学习与信息价值87 6.4 基于策略的学习926.4.1 期望奖励中的梯度上升926.4.2 无穷小梯度上升的学习动态936.4.3 赢或快速学习946.4.4 用策略爬山算法实现赢或快速学习966.4.5 广义无穷小梯度上升98 6.5 无悔学习996.5.1 无条件与有条件的遗憾匹配996.5.2 遗憾匹配的收敛性100 6.6 总结103第二部分 多智能体深度强化学习:算法与实践第7章 深度学习106 7.1 强化学习的函数逼近106 7.2 线性函数逼近107 7.3 前馈神经网络1087.3.1 神经元1097.3.2 激活函数1097.3.3 由层和单元构成网络110 7.4 基于梯度的优化1117.4.1 损失函数1117.4.2 梯度下降1127.4.3 反向传播114 7.5 卷积神经网络与递归神经网络1147.5.1 从图像中学习——利用数据中的空间关系1157.5.2 利用记忆从序列中学习116 7.6 总结117第8章 深度强化学习119 8.1 深度价值函数逼近1198.1.1 深度Q学习——可能出现什么问题1208.1.2 目标值变动问题1218.1.3 打破相关性1238.1.4 汇总:深度Q网络1248.1.5 超越深度Q网络126 8.2 策略梯度算法1268.2.1 学习策略的优势1278.2.2 策略梯度定理1288.2.3 REINFORCE:蒙特卡罗策略梯度1298.2.4 演员-评论家算法1318.2.5 A2C:优势演员-评论家1328.2.6 近端策略优化1348.2.7 策略梯度算法在实践中的应用1358.2.8 策略的并行训练136 8.3 实践中的观测、状态和历史记录139 8.4 总结140第9章 多智能体深度强化学习142 9.1 训练和执行模式1429.1.1 集中式训练和执行1439.1.2 分散式训练和执行1439.1.3 集中式训练与分散式执行144 9.2 多智能体深度强化学习的符号表示144 9.3 独立学习1459.3.1 基于独立价值的学习1459.3.2 独立策略梯度方法1469.3.3 示例:大型任务中的深度独立学习149 9.4 多智能体策略梯度算法1509.4.1 多智能体策略梯度定理1509.4.2 集中式评论家1519.4.3 集中式动作-价值评论家1539.4.4 反事实动作-价值估计1549.4.5 使用集中式动作-价值评论家的均衡选择155 9.5 共享奖励博弈中的价值分解1579.5.1 个体-全局-最大化性质1599.5.2 线性价值分解1599.5.3 单调价值分解1629.5.4 实践中的价值分解1669.5.5 超越单调价值分解170 9.6 使用神经网络的智能体建模1739.6.1 用深度智能体模型进行联合动作学习1739.6.2 学习智能体策略的表示176 9.7 具有同质智能体的环境1789.7.1 参数共享1799.7.2 经验共享180 9.8 零和博弈中的策略自博弈1829.8.1 蒙特卡罗树搜索1839.8.2 自博弈蒙特卡罗树搜索1869.8.3 带有深度神经网络的自博弈MCTS:AlphaZero187 9.9 基于种群的训练1889.9.1 策略空间响应预言家1899.9.2 PSRO的收敛性1929.9.3 《星际争霸Ⅱ》中的宗师级别:AlphaStar194 9.10 总结196第10章 实践中的多智能体深度强化学习198 10.1 智能体环境接口198 10.2 PyTorch中的多智能体强化学习神经网络19910.2.1 无缝参数共享实现20110.2.2 定义模型:IDQN的一个示例201 10.3 集中式价值函数203 10.4 价值分解204 10.5 多智能体强化学习算法的实用技巧20510.5.1 堆叠时间步与循环网络20510.5.2 标准化奖励20510.5.3 集中式优化206 10.6 实验结果的展示20610.6.1 学习曲线20610.6.2 超参数搜索207第11章 多智能体环境209 11.1 选择环境的标准209 11.2 结构不同的2×2矩阵博弈21011.2.1 无冲突博弈21011.2.2 冲突博弈211 11.3 复杂环境21211.3.1 基于等级的搜寻21311.3.2 多智能体粒子环境21411.3.3 星际争霸多智能体挑战21511.3.4 多机器人仓库21611.3.5 谷歌足球21711.3.6 《花火》21711.3.7 《胡闹厨房》218 11.4 环境集合21811.4.1 熔炉21911.4.2 OpenSpiel21911.4.3 Petting Zoo220多智能体强化学习研究综述221参 考 文 献224
|
內容試閱:
|
译 者 序多智能体强化学习(MARL)作为人工智能的一个新兴研究领域,已经在国际上积累了较为丰富的研究成果和实践经验。本书系统性地总结了MARL的研究脉络,在领域内有较强的影响力。本书由Stefano V.Albrecht、Filippos Christianos和Lukas Schfer三位在多智能体系统和强化学习领域享有盛誉的专家共同撰写。本书内容主要分为两部分:第一部分介绍MARL中的基本概念和基础知识;第二部分则介绍基于深度学习技术的前沿MARL研究。本书不仅涵盖坚实的理论基础,还在实践层面展示了将复杂概念转化为应用方案的方法。通过具体的算法实践,读者可以加深对理论知识的理解。我们希望这本中文翻译版可以给国内读者带来阅读的便利。得益于大语言模型的帮助,本书的翻译效率得到了极大的提升。在翻译过程中,我们也遇到了一些挑战,例如,某些术语尚无统一的中文翻译,我们选择了目前较为主流的翻译,并在首次出现时标注了其他可能的翻译,以便读者理解。此外,为了让本书更加通俗易懂,我们在翻译时特别注重语言的流畅性和表达的准确性。我们力求将复杂的概念用简洁明了的语言进行解释,同时保留原文的科学性和严谨性。在此,我们要特别感谢在本书翻译过程中给予支持和帮助的所有老师和同学。他们的建议和指导使本书的翻译更加准确和完善。同时,也要感谢机械工业出版社的支持,使得这本书的中文版得以顺利出版。尽管我们在翻译过程中力求准确无误,但由于时间和精力有限,书中难免存在疏漏之处。我们诚挚地欢迎读者提出宝贵的批评和建议,以便我们在后续版本中不断改进和完善。前 言多智能体强化学习(Multi-Agent Reinforcement Learning,MARL)是一个多样化且极为活跃的研究领域。随着深度学习在2010年代中期被引入多智能体强化学习,该领域的研究工作出现了爆炸式增长。现在,所有主要的人工智能和机器学习会议都会例行讨论相关文章,比如开发新的多智能体强化学习算法或以某种方式应用多智能体强化学习。这种急剧增长还体现在自那以后发表的越来越多的综述论文中,我们在书末列出了许多这样的论文。随着这种增长,该领域显然需要一本教科书来提供对多智能体强化学习的原则性介绍。本书部分基于并在很大程度上遵循了Stefano V.Albrecht和Peter Stone在2017年澳大利亚墨尔本举行的国际人工智能联合会议(International Joint Conference on Artificial Intelligence,IJCAI)上所做的“Multiagent Learning:Foundations and Recent Trends”报告的结构。本书的写作目的是对多智能体强化学习中的模型、求解、算法思想和技术挑战进行基本介绍,并描述将深度学习技术整合进多智能体强化学习以产生强大新算法的现代方法。从本质上讲,我们认为本书所涵盖的材料应该为每一位从事多智能体强化学习的研究人员所了解。此外,本书还旨在为研究人员和从业人员使用MARL算法提供实用指导。为此,本书附带了用Python编程语言编写的代码库,其中包含本书讨论的几种多智能体强化学习算法的实现。代码库的主要目的是提供自成一体且易于阅读的算法代码,以帮助读者理解。本书假定读者具有本科水平的基础数学背景,包括统计学、概率论、线性代数和微积分。此外,为了理解和使用代码库,读者需要熟悉基本的编程概念。通常,我们建议按顺序阅读本书的各个章节。对于不熟悉强化学习和深度学习的读者,我们将在第2章、第7章和第8章分别介绍相关基础知识。对于已经熟悉强化学习和深度学习的读者,如果想快速开始学习基于深度学习的最新多智能体强化学习算法,那么可以先阅读第3章,然后跳到第9章及以后的章节。为了帮助教师采用本书,我们制作了讲义幻灯片(可从本书网站获取),内容可根据课程需要进行修改。多智能体强化学习已成为一个庞大的研究领域,本书并未涵盖其所有方面。例如,关于在多智能体强化学习中使用通信的研究日益增多,但本书并未涉及。这方面的研究问题包括:当通信信道嘈杂、不可靠时,智能体如何学会稳健地进行通信;智能体如何利用多智能体强化学习来学习针对特定任务的专用通信协议或语言。虽然本书的重点不是多智能体强化学习中的通信,但本书介绍的模型具有足够的通用性,也可以表示通信行为(如3.5节所述)。此外,还有关于将演化博弈论用于多智能体学习的研究,在本书中也没有涉及(我们推荐Bloembergen等人于2015年发表的优秀综述)。最后,随着近年来多智能体强化学习研究工作的急剧增加,试图编写一本跟上新算法的书籍是徒劳的。因此,我们将重点放在多智能体强化学习的基础概念和思想上,并参考研究综述论文(书末),以获知更完整的算法发展历程。致谢:我们非常感谢在本书撰写过程中许多与我们合作或提供反馈意见的人。在这里,特别感谢MIT出版社的Elizabeth Swayze和Matthew Valades,他们在出版过程中给予了我们悉心的指导。许多同事也为我们提供了宝贵的反馈意见和建议,我们在此一并表示感谢(按姓氏字母顺序排列):Christopher Amato、Marina Aoyama、Ignacio Carlucho、Georgios Chalkiadakis、Sam Dauncey、Alex Davey、Bertrand Decoster、Mhairi Dunion、Kousha Etessami、Aris Filos-Ratsikas、Elliot Fosong、Amy Greenwald、Dongge Han、Josiah Hanna、Leonard Hinckeldey、Sarah Keren、Mykel Kochenderfer、Marc Lanctot、Stefanos Leonardos、Michael Littman、Luke Marris、Elle McFarlane、Trevor McInroe、Mahdi Kazemi Moghaddam、Frans Oliehoek、Georgios Papoudakis、Tabish Rashid、Michael Rovatsos、Rahat Santosh、Raul Steleac、Massimiliano Tamborski、Kale-ab Tessera、Callum Tilbury、Jeroen van Riel、Zhu Zheng。我们还要感谢为MIT出版社审阅本书的匿名审稿人。图2.3中的火星探测车的马尔可夫决策过程(Markov Decision Process,MDP)基于Elliot Fosong和Adam Jelley为爱丁堡大学强化学习课程创建的类似的马尔可夫决策过程。图4.4和图4.5b中的图像是Mahdi Kazemi Moghaddam为本书制作的。我们非常感谢Karl Tuyls在2023年智能体及多智能体系统(Autonomous Agents and Multi-Agent Systems,AAMAS)国际会议上发表的主旨演讲中宣布了本书的出版。勘误:尽管我们尽了最大努力,但仍可能有一些错字或不准确之处未被注意到。如果发现任何错误,请通过电子邮件issues@marl-book.com向我们告知,我们将不胜感激。本书网站、代码库和幻灯片:本书的完整PDF版本以及附带资料(包括代码库和讲义幻灯片)的链接可在本书网站上找到:www.marl-book.com。
|
|