《深度强化学习控制：前沿理论与方法》 - 孙长银，穆朝絮 - 科学出版社 - 香港大書城

	登入帳戶　 \|　訂單查詢　 \|　購物車/收銀台(0)　\|　在線留言板　 \|　付款方式　 \|　運費計算　 \|　聯絡我們　 \|　幫助中心　\|　加入書簽
		會員登入新用戶登記

HOME

新書上架

暢銷書架

好書推介

2024年度TOP

臺灣用戶

品種：超過100萬種各類書籍/音像和精品，正品正價，放心網購，悭钱省心

服務：香港／台灣／澳門／海外

送貨：速遞／郵局／服務站

新書上架：簡體書繁體書
暢銷書架：簡體書繁體書
好書推介：簡體書繁體書

『簡體書』深度强化学习控制：前沿理论与方法

書城自編碼： 4131027
分類：簡體書→大陸圖書→教材→研究生/本科/专科教材
作者：孙长银，穆朝絮
國際書號(ISBN)： 9787030819345
出版社：科学出版社
出版日期： 2025-06-01

頁數/字數： /
書度/開本： 16开釘裝：精装

售價：HK$ 198.0

我要買件

** 我創建的書架 **
未登入.

新書推薦：

《皇帝与国王：足利义满和他的时代（颠覆天皇王权的逆贼将军，还是活用东亚朝贡规则的政治能人？）》
售價：HK$ 64.9

《锦衣行（《白衣公卿》影视原著小说）》
售價：HK$ 54.8

《乘风而上（美依礼芽中文自传）》
售價：HK$ 85.8

《金庸江湖的另一面》
售價：HK$ 64.9

《以远见超越未见：当今时代的教育、文化与未来》
售價：HK$ 65.8

《 DK草药大百科》
售價：HK$ 294.8

《甲骨文丛书·英国人在印度：三百年社会史》
售價：HK$ 173.8

《唯美手编.17，绚丽的春夏毛衫》
售價：HK$ 53.9

內容簡介：

《深度强化学习控制：前沿理论与方法》系统梳理了深度强化学习的核心理论、关键算法及其在智能控制、机器人技术和多智能体系统中的应用。《深度强化学习控制：前沿理论与方法》涵盖强化学习的基本概念、深度强化学习的主要框架，以及多智能体强化学习的协同决策、任务分解与优化控制等前沿问题，并结合大量实验案例，深入探讨强化学习在飞行器控制、移动机器人导航与避障等领域的实践应用。

目录前言第1章绪论 1 1.1 强化学习发展历程 1 1.2 深度强化学习基础算法 2 1.2.1 基于值函数的深度强化学习 2 1.2.2 基于策略的深度强化学习 5 1.2.3 深度强化学习的应用与挑战 8 1.3 多智能体强化学习 11 1.3.1 多智能体强化学习难点问题 11 1.3.2 多智能体强化学习常用算法与结构 12 1.3.3 多智能体强化学习应用与挑战 16 1.4 本章小结 17 参考文献 18 第2章强化学习基本概念与理论 25 2.1 智能体–环境交互模型 25 2.2 策略与值函数 26 2.3 基于值函数的强化学习算法 28 2.4 基于策略的强化学习算法 30 2.5 本章小结 33 参考文献 33 第3章面向输入受限系统的深度强化学习 34 3.1 引言 34 3.2 问题描述 36 3.3 解算器–评价器结构与离轨策略学习算法 37 3.3.1 基于平方和的策略评价器 37 3.3.2 动作解算器 38 3.3.3 离轨策略学习算法 39 3.3.4 算法收敛性和策略*优性分析 41 3.4 仿真实验 483.4.1 一般线性系统的控制仿真 48 3.4.2 非线性振荡器的控制仿真 51 3.4.3 平衡车系统的控制仿真 54 3.4.4 二自由度机械臂系统的控制仿真 55 3.5 本章小结 59 参考文献 59 第4章状态依赖输入约束的强化学习优化控制 62 4.1 引言 62 4.2 问题描述 63 4.3 动作映射机制 65 4.4 基于动作映射的强化学习框架 72 4.4.1 执行器–评价器网络设计 79 4.4.2 异策略学习算法 80 4.5 值函数的连续性分析 82 4.6 仿真实验 84 4.6.1 线性系统的控制仿真 85 4.6.2 输入受限系统的控制仿真 87 4.6.3 二自由度机械臂系统的控制仿真 90 4.7 本章小结 91 参考文献 92 第5章自治切换系统的强化学习优化控制 94 5.1 引言 94 5.2 问题描述 95 5.3 算法设计及实现 97 5.3.1 精确 Q 学习算法 97 5.3.2 近似 Q 学习算法 98 5.3.3 算法执行过程 99 5.4 算法理论分析 101 5.4.1 近似值函数迭代算法回顾 101 5.4.2 目标函数连续性分析 101 5.4.3 算法收敛性分析 102 5.4.4 切换策略稳定性分析 103 5.5 仿真实验 104 5.5.1 仿真实验一 105 5.5.2 仿真实验二 107 5.5.3 仿真实验三 111 5.6 本章小结 117 参考文献 117 第6章受控切换系统的强化学习优化控制 119 6.1 引言 119 6.2 问题描述 120 6.3 算法设计 121 6.3.1 混合 Q 学习算法 121 6.3.2 混合归一化优势函数算法 122 6.4 算法理论分析 124 6.4.1 HQL 算法特性分析 124 6.4.2 HNAF 算法特性分析 128 6.5 仿真实验 130 6.5.1 仿真实验一 130 6.5.2 仿真实验二 133 6.5.3 仿真实验三 135 6.6 本章小结 137 参考文献 137 第7章基于任务分解的多智能体强化学习协同控制 138 7.1 引言 138 7.2 问题描述 140 7.3 基于任务分解的学习算法 140 7.3.1 值函数分解 141 7.3.2 基于任务分解的多智能体 Q 学习算法 142 7.3.3 基于任务分解的多智能体确定性策略梯度算法 146 7.4 仿真实验 151 7.4.1 仿真实验一 151 7.4.2 仿真实验二 154 7.4.3 仿真实验三 157 7.5 本章小结 160 参考文献 161 第8章基于后继特征的多智能体迁移强化学习 163 8.1 引言 163 8.2 问题描述 164 8.3 基于后继特征的多智能体强化学习及任务迁移 1658.3.1 基于后继特征的多智能体强化学习框架 166 8.3.2 基于后继特征的目标任务知识迁移方法 170 8.3.3 关于目标任务快速启动策略的理论分析 173 8.4 仿真实验 177 8.4.1 仿真实验环境介绍 177 8.4.2 奖励特征函数的设计 179 8.4.3 实验结果分析与讨论 180 8.5 本章小结 187 参考文献 188 第9章基于邻居动作值函数的多智能体一致性控制 191 9.1 引言 191 9.2 问题描述 193 9.2.1 多智能体系统 193 9.2.2 *优控制 194 9.3 算法设计 196 9.3.1 基于邻居动作值函数的多智能体一致性算法 196 9.3.2 算法执行过程 198 9.4 收敛性分析 199 9.4.1 带领导者的多智能体系统：折扣因子γ∈ [0，1) 200 9.4.2 带领导者的多智能体系统：折扣因子γ= 1 202 9.4.3 无领导者的多智能体系统：折扣因子γ∈ [0，1] 204 9.4.4 稳定性分析 204 9.5 仿真实验 205 9.5.1 带领导者的多智能体系统控制仿真 206 9.5.2 无领导者的多智能体系统控制仿真 208 9.6 本章小结 210 参考文献 210 第10章基于自学习通信多智能体强化学习的合作追捕 213 10.1 引言 213 10.2 合作追捕学习算法 215 10.2.1 环形拓扑网络结构下合作追捕学习算法 215 10.2.2 主从式线形拓扑网络结构下合作追捕学习算法 219 10.3 仿真实验 223 10.3.1 仿真环境描述 223 10.3.2 训练实施方式 225 10.3.3 实验结果与分析 227 10.4 本章小结 233 参考文献 233 第11章强化学习在飞行器控制中的应用 236 11.1 引言 236 11.2 问题描述 238 11.3 积分补偿确定性策略梯度控制器 240 11.3.1 确定性策略梯度算法 241 11.3.2 带积分补偿的确定性策略梯度算法 243 11.3.3 四旋翼 DPG-IC 控制器设计 244 11.4 基于 DPG-IC 的两段式训练算法 247 11.4.1 离线训练阶段 247 11.4.2 在线训练阶段 249 11.5 仿真实验 249 11.5.1 训练和测试环境 250 11.5.2 离线训练过程与结果 251 11.5.3 离线控制策略实验和结果 254 11.5.4 在线训练实验和结果 260 11.6 本章小结 261 参考文献 261 第12章强化学习在移动机器人导航与避障中的应用 264 12.1 引言 264 12.2 问题描述 266 12.3 模块化深度强化学习导航与避障算法 268 12.3.1 局部避障模块 269 12.3.2 全局导航模块 272 12.3.3 动作调度模块 273 12.4 仿真实验 275 12.4.1 深度双流 Q 网络局部避障训练与对比实验 276 12.4.2 导航模块离线训练与测试结果 280 12.4.3 模块化深度强化学习在线训练与对比测试结果 280 12.5 本章小结 285 参考文献 285 第13章强化学习开源测试环境与算法库 288 13.1 引言 28813.2 强化学习开源测试环境 288 13.2.1 OpenAI Gym 289 13.2.2 Unity ML-Agents Toolkit 289 13.2.3 PyBullet 290 13.2.4 DeepMind Control Suite 290 13.3 玄策强化学习开源算法库 291 13.3.1 软件概述 291 13.3.2 软件主要功能详解 294 13.3.3 软件使用说明 302 13.4 本章小结 305 第14章总结与展望 306

書城介紹　 \|　合作申請　\|　索要書目　 \|　新手入門　\|　聯絡方式　 \|　幫助中心　\|　找書說明　 \|　送貨方式　\|　付款方式	香港用户　 \|　台灣用户　\|　海外用户

	megBook.com.hk
Copyright © 2013 - 2025 （香港）大書城有限公司　 All Rights Reserved.