新書推薦:

《
近代中国政府与政治
》
售價:HK$
118.8

《
索恩丛书·蛮族之王:狄奥多里克与罗马帝国的黄昏
》
售價:HK$
174.9

《
世界银行营商环境成熟度方法论手册 2025年修订版 官方指导手册
》
售價:HK$
327.8

《
人形机器人:产业变革商业机遇与未来趋势
》
售價:HK$
96.8

《
没有人能让我不快乐
》
售價:HK$
46.2

《
汉匈战争三百年
》
售價:HK$
97.9

《
成为作家:提升创造力、自律性、谦逊和毅力的专业指南(写作不是天赋,作家可以培养,人人都可以实现自己的作家梦)
》
售價:HK$
64.9

《
中国中世西北民族关系研究
》
售價:HK$
129.8
|
內容簡介: |
《深度强化学习控制:前沿理论与方法》系统梳理了深度强化学习的核心理论、关键算法及其在智能控制、机器人技术和多智能体系统中的应用。《深度强化学习控制:前沿理论与方法》涵盖强化学习的基本概念、深度强化学习的主要框架,以及多智能体强化学习的协同决策、任务分解与优化控制等前沿问题,并结合大量实验案例,深入探讨强化学习在飞行器控制、移动机器人导航与避障等领域的实践应用。
|
目錄:
|
目录 前言 第1章 绪论 1 1.1 强化学习发展历程 1 1.2 深度强化学习基础算法 2 1.2.1 基于值函数的深度强化学习 2 1.2.2 基于策略的深度强化学习 5 1.2.3 深度强化学习的应用与挑战 8 1.3 多智能体强化学习 11 1.3.1 多智能体强化学习难点问题 11 1.3.2 多智能体强化学习常用算法与结构 12 1.3.3 多智能体强化学习应用与挑战 16 1.4 本章小结 17 参考文献 18 第2章 强化学习基本概念与理论 25 2.1 智能体–环境交互模型 25 2.2 策略与值函数 26 2.3 基于值函数的强化学习算法 28 2.4 基于策略的强化学习算法 30 2.5 本章小结 33 参考文献 33 第3章 面向输入受限系统的深度强化学习 34 3.1 引言 34 3.2 问题描述 36 3.3 解算器–评价器结构与离轨策略学习算法 37 3.3.1 基于平方和的策略评价器 37 3.3.2 动作解算器 38 3.3.3 离轨策略学习算法 39 3.3.4 算法收敛性和策略*优性分析 41 3.4 仿真实验 483.4.1 一般线性系统的控制仿真 48 3.4.2 非线性振荡器的控制仿真 51 3.4.3 平衡车系统的控制仿真 54 3.4.4 二自由度机械臂系统的控制仿真 55 3.5 本章小结 59 参考文献 59 第4章 状态依赖输入约束的强化学习优化控制 62 4.1 引言 62 4.2 问题描述 63 4.3 动作映射机制 65 4.4 基于动作映射的强化学习框架 72 4.4.1 执行器–评价器网络设计 79 4.4.2 异策略学习算法 80 4.5 值函数的连续性分析 82 4.6 仿真实验 84 4.6.1 线性系统的控制仿真 85 4.6.2 输入受限系统的控制仿真 87 4.6.3 二自由度机械臂系统的控制仿真 90 4.7 本章小结 91 参考文献 92 第5章 自治切换系统的强化学习优化控制 94 5.1 引言 94 5.2 问题描述 95 5.3 算法设计及实现 97 5.3.1 精确 Q 学习算法 97 5.3.2 近似 Q 学习算法 98 5.3.3 算法执行过程 99 5.4 算法理论分析 101 5.4.1 近似值函数迭代算法回顾 101 5.4.2 目标函数连续性分析 101 5.4.3 算法收敛性分析 102 5.4.4 切换策略稳定性分析 103 5.5 仿真实验 104 5.5.1 仿真实验一 105 5.5.2 仿真实验二 107 5.5.3 仿真实验三 111 5.6 本章小结 117 参考文献 117 第6章 受控切换系统的强化学习优化控制 119 6.1 引言 119 6.2 问题描述 120 6.3 算法设计 121 6.3.1 混合 Q 学习算法 121 6.3.2 混合归一化优势函数算法 122 6.4 算法理论分析 124 6.4.1 HQL 算法特性分析 124 6.4.2 HNAF 算法特性分析 128 6.5 仿真实验 130 6.5.1 仿真实验一 130 6.5.2 仿真实验二 133 6.5.3 仿真实验三 135 6.6 本章小结 137 参考文献 137 第7章 基于任务分解的多智能体强化学习协同控制 138 7.1 引言 138 7.2 问题描述 140 7.3 基于任务分解的学习算法 140 7.3.1 值函数分解 141 7.3.2 基于任务分解的多智能体 Q 学习算法 142 7.3.3 基于任务分解的多智能体确定性策略梯度算法 146 7.4 仿真实验 151 7.4.1 仿真实验一 151 7.4.2 仿真实验二 154 7.4.3 仿真实验三 157 7.5 本章小结 160 参考文献 161 第8章 基于后继特征的多智能体迁移强化学习 163 8.1 引言 163 8.2 问题描述 164 8.3 基于后继特征的多智能体强化学习及任务迁移 1658.3.1 基于后继特征的多智能体强化学习框架 166 8.3.2 基于后继特征的目标任务知识迁移方法 170 8.3.3 关于目标任务快速启动策略的理论分析 173 8.4 仿真实验 177 8.4.1 仿真实验环境介绍 177 8.4.2 奖励特征函数的设计 179 8.4.3 实验结果分析与讨论 180 8.5 本章小结 187 参考文献 188 第9章 基于邻居动作值函数的多智能体一致性控制 191 9.1 引言 191 9.2 问题描述 193 9.2.1 多智能体系统 193 9.2.2 *优控制 194 9.3 算法设计 196 9.3.1 基于邻居动作值函数的多智能体一致性算法 196 9.3.2 算法执行过程 198 9.4 收敛性分析 199 9.4.1 带领导者的多智能体系统:折扣因子γ∈ [0,1) 200 9.4.2 带领导者的多智能体系统:折扣因子γ= 1 202 9.4.3 无领导者的多智能体系统:折扣因子γ∈ [0,1] 204 9.4.4 稳定性分析 204 9.5 仿真实验 205 9.5.1 带领导者的多智能体系统控制仿真 206 9.5.2 无领导者的多智能体系统控制仿真 208 9.6 本章小结 210 参考文献 210 第10章 基于自学习通信多智能体强化学习的合作追捕 213 10.1 引言 213 10.2 合作追捕学习算法 215 10.2.1 环形拓扑网络结构下合作追捕学习算法 215 10.2.2 主从式线形拓扑网络结构下合作追捕学习算法 219 10.3 仿真实验 223 10.3.1 仿真环境描述 223 10.3.2 训练实施方式 225 10.3.3 实验结果与分析 227 10.4 本章小结 233 参考文献 233 第11章 强化学习在飞行器控制中的应用 236 11.1 引言 236 11.2 问题描述 238 11.3 积分补偿确定性策略梯度控制器 240 11.3.1 确定性策略梯度算法 241 11.3.2 带积分补偿的确定性策略梯度算法 243 11.3.3 四旋翼 DPG-IC 控制器设计 244 11.4 基于 DPG-IC 的两段式训练算法 247 11.4.1 离线训练阶段 247 11.4.2 在线训练阶段 249 11.5 仿真实验 249 11.5.1 训练和测试环境 250 11.5.2 离线训练过程与结果 251 11.5.3 离线控制策略实验和结果 254 11.5.4 在线训练实验和结果 260 11.6 本章小结 261 参考文献 261 第12章 强化学习在移动机器人导航与避障中的应用 264 12.1 引言 264 12.2 问题描述 266 12.3 模块化深度强化学习导航与避障算法 268 12.3.1 局部避障模块 269 12.3.2 全局导航模块 272 12.3.3 动作调度模块 273 12.4 仿真实验 275 12.4.1 深度双流 Q 网络局部避障训练与对比实验 276 12.4.2 导航模块离线训练与测试结果 280 12.4.3 模块化深度强化学习在线训练与对比测试结果 280 12.5 本章小结 285 参考文献 285 第13章 强化学习开源测试环境与算法库 288 13.1 引言 28813.2 强化学习开源测试环境 288 13.2.1 OpenAI Gym 289 13.2.2 Unity ML-Agents Toolkit 289 13.2.3 PyBullet 290 13.2.4 DeepMind Control Suite 290 13.3 玄策强化学习开源算法库 291 13.3.1 软件概述 291 13.3.2 软件主要功能详解 294 13.3.3 软件使用说明 302 13.4 本章小结 305 第14章 总结与展望 306
|
|