登入帳戶  | 訂單查詢  | 購物車/收銀台(0) | 在線留言板  | 付款方式  | 運費計算  | 聯絡我們  | 幫助中心 |  加入書簽
會員登入   新用戶登記
HOME新書上架暢銷書架好書推介特價區會員書架精選月讀2024年度TOP分類瀏覽雜誌 臺灣用戶
品種:超過100萬種各類書籍/音像和精品,正品正價,放心網購,悭钱省心 服務:香港台灣澳門海外 送貨:速遞郵局服務站

新書上架簡體書 繁體書
暢銷書架簡體書 繁體書
好書推介簡體書 繁體書

八月出版:大陸書 台灣書
七月出版:大陸書 台灣書
六月出版:大陸書 台灣書
五月出版:大陸書 台灣書
四月出版:大陸書 台灣書
三月出版:大陸書 台灣書
二月出版:大陸書 台灣書
一月出版:大陸書 台灣書
12月出版:大陸書 台灣書
11月出版:大陸書 台灣書
十月出版:大陸書 台灣書
九月出版:大陸書 台灣書
八月出版:大陸書 台灣書
七月出版:大陸書 台灣書
六月出版:大陸書 台灣書

『簡體書』深度强化学习控制:前沿理论与方法

書城自編碼: 4131027
分類:簡體書→大陸圖書→教材研究生/本科/专科教材
作者: 孙长银,穆朝絮
國際書號(ISBN): 9787030819345
出版社: 科学出版社
出版日期: 2025-06-01

頁數/字數: /
書度/開本: 16开 釘裝: 精装

售價:HK$ 198.0

我要買

share:

** 我創建的書架 **
未登入.



新書推薦:
近代中国政府与政治
《 近代中国政府与政治 》

售價:HK$ 118.8
索恩丛书·蛮族之王:狄奥多里克与罗马帝国的黄昏
《 索恩丛书·蛮族之王:狄奥多里克与罗马帝国的黄昏 》

售價:HK$ 174.9
世界银行营商环境成熟度方法论手册 2025年修订版 官方指导手册
《 世界银行营商环境成熟度方法论手册 2025年修订版 官方指导手册 》

售價:HK$ 327.8
人形机器人:产业变革商业机遇与未来趋势
《 人形机器人:产业变革商业机遇与未来趋势 》

售價:HK$ 96.8
没有人能让我不快乐
《 没有人能让我不快乐 》

售價:HK$ 46.2
汉匈战争三百年
《 汉匈战争三百年 》

售價:HK$ 97.9
成为作家:提升创造力、自律性、谦逊和毅力的专业指南(写作不是天赋,作家可以培养,人人都可以实现自己的作家梦)
《 成为作家:提升创造力、自律性、谦逊和毅力的专业指南(写作不是天赋,作家可以培养,人人都可以实现自己的作家梦) 》

售價:HK$ 64.9
中国中世西北民族关系研究
《 中国中世西北民族关系研究 》

售價:HK$ 129.8

內容簡介:
《深度强化学习控制:前沿理论与方法》系统梳理了深度强化学习的核心理论、关键算法及其在智能控制、机器人技术和多智能体系统中的应用。《深度强化学习控制:前沿理论与方法》涵盖强化学习的基本概念、深度强化学习的主要框架,以及多智能体强化学习的协同决策、任务分解与优化控制等前沿问题,并结合大量实验案例,深入探讨强化学习在飞行器控制、移动机器人导航与避障等领域的实践应用。
目錄
目录 前言 第1章 绪论 1 1.1 强化学习发展历程 1 1.2 深度强化学习基础算法 2 1.2.1 基于值函数的深度强化学习 2 1.2.2 基于策略的深度强化学习 5 1.2.3 深度强化学习的应用与挑战 8 1.3 多智能体强化学习 11 1.3.1 多智能体强化学习难点问题 11 1.3.2 多智能体强化学习常用算法与结构 12 1.3.3 多智能体强化学习应用与挑战 16 1.4 本章小结 17 参考文献 18 第2章 强化学习基本概念与理论 25 2.1 智能体–环境交互模型 25 2.2 策略与值函数 26 2.3 基于值函数的强化学习算法 28 2.4 基于策略的强化学习算法 30 2.5 本章小结 33 参考文献 33 第3章 面向输入受限系统的深度强化学习 34 3.1 引言 34 3.2 问题描述 36 3.3 解算器–评价器结构与离轨策略学习算法 37 3.3.1 基于平方和的策略评价器 37 3.3.2 动作解算器 38 3.3.3 离轨策略学习算法 39 3.3.4 算法收敛性和策略*优性分析 41 3.4 仿真实验 483.4.1 一般线性系统的控制仿真 48 3.4.2 非线性振荡器的控制仿真 51 3.4.3 平衡车系统的控制仿真 54 3.4.4 二自由度机械臂系统的控制仿真 55 3.5 本章小结 59 参考文献 59 第4章 状态依赖输入约束的强化学习优化控制 62 4.1 引言 62 4.2 问题描述 63 4.3 动作映射机制 65 4.4 基于动作映射的强化学习框架 72 4.4.1 执行器–评价器网络设计 79 4.4.2 异策略学习算法 80 4.5 值函数的连续性分析 82 4.6 仿真实验 84 4.6.1 线性系统的控制仿真 85 4.6.2 输入受限系统的控制仿真 87 4.6.3 二自由度机械臂系统的控制仿真 90 4.7 本章小结 91 参考文献 92 第5章 自治切换系统的强化学习优化控制 94 5.1 引言 94 5.2 问题描述 95 5.3 算法设计及实现 97 5.3.1 精确 Q 学习算法 97 5.3.2 近似 Q 学习算法 98 5.3.3 算法执行过程 99 5.4 算法理论分析 101 5.4.1 近似值函数迭代算法回顾 101 5.4.2 目标函数连续性分析 101 5.4.3 算法收敛性分析 102 5.4.4 切换策略稳定性分析 103 5.5 仿真实验 104 5.5.1 仿真实验一 105 5.5.2 仿真实验二 107 5.5.3 仿真实验三 111 5.6 本章小结 117 参考文献 117 第6章 受控切换系统的强化学习优化控制 119 6.1 引言 119 6.2 问题描述 120 6.3 算法设计 121 6.3.1 混合 Q 学习算法 121 6.3.2 混合归一化优势函数算法 122 6.4 算法理论分析 124 6.4.1 HQL 算法特性分析 124 6.4.2 HNAF 算法特性分析 128 6.5 仿真实验 130 6.5.1 仿真实验一 130 6.5.2 仿真实验二 133 6.5.3 仿真实验三 135 6.6 本章小结 137 参考文献 137 第7章 基于任务分解的多智能体强化学习协同控制 138 7.1 引言 138 7.2 问题描述 140 7.3 基于任务分解的学习算法 140 7.3.1 值函数分解 141 7.3.2 基于任务分解的多智能体 Q 学习算法 142 7.3.3 基于任务分解的多智能体确定性策略梯度算法 146 7.4 仿真实验 151 7.4.1 仿真实验一 151 7.4.2 仿真实验二 154 7.4.3 仿真实验三 157 7.5 本章小结 160 参考文献 161 第8章 基于后继特征的多智能体迁移强化学习 163 8.1 引言 163 8.2 问题描述 164 8.3 基于后继特征的多智能体强化学习及任务迁移 1658.3.1 基于后继特征的多智能体强化学习框架 166 8.3.2 基于后继特征的目标任务知识迁移方法 170 8.3.3 关于目标任务快速启动策略的理论分析 173 8.4 仿真实验 177 8.4.1 仿真实验环境介绍 177 8.4.2 奖励特征函数的设计 179 8.4.3 实验结果分析与讨论 180 8.5 本章小结 187 参考文献 188 第9章 基于邻居动作值函数的多智能体一致性控制 191 9.1 引言 191 9.2 问题描述 193 9.2.1 多智能体系统 193 9.2.2 *优控制 194 9.3 算法设计 196 9.3.1 基于邻居动作值函数的多智能体一致性算法 196 9.3.2 算法执行过程 198 9.4 收敛性分析 199 9.4.1 带领导者的多智能体系统:折扣因子γ∈ [0,1) 200 9.4.2 带领导者的多智能体系统:折扣因子γ= 1 202 9.4.3 无领导者的多智能体系统:折扣因子γ∈ [0,1] 204 9.4.4 稳定性分析 204 9.5 仿真实验 205 9.5.1 带领导者的多智能体系统控制仿真 206 9.5.2 无领导者的多智能体系统控制仿真 208 9.6 本章小结 210 参考文献 210 第10章 基于自学习通信多智能体强化学习的合作追捕 213 10.1 引言 213 10.2 合作追捕学习算法 215 10.2.1 环形拓扑网络结构下合作追捕学习算法 215 10.2.2 主从式线形拓扑网络结构下合作追捕学习算法 219 10.3 仿真实验 223 10.3.1 仿真环境描述 223 10.3.2 训练实施方式 225 10.3.3 实验结果与分析 227 10.4 本章小结 233 参考文献 233 第11章 强化学习在飞行器控制中的应用 236 11.1 引言 236 11.2 问题描述 238 11.3 积分补偿确定性策略梯度控制器 240 11.3.1 确定性策略梯度算法 241 11.3.2 带积分补偿的确定性策略梯度算法 243 11.3.3 四旋翼 DPG-IC 控制器设计 244 11.4 基于 DPG-IC 的两段式训练算法 247 11.4.1 离线训练阶段 247 11.4.2 在线训练阶段 249 11.5 仿真实验 249 11.5.1 训练和测试环境 250 11.5.2 离线训练过程与结果 251 11.5.3 离线控制策略实验和结果 254 11.5.4 在线训练实验和结果 260 11.6 本章小结 261 参考文献 261 第12章 强化学习在移动机器人导航与避障中的应用 264 12.1 引言 264 12.2 问题描述 266 12.3 模块化深度强化学习导航与避障算法 268 12.3.1 局部避障模块 269 12.3.2 全局导航模块 272 12.3.3 动作调度模块 273 12.4 仿真实验 275 12.4.1 深度双流 Q 网络局部避障训练与对比实验 276 12.4.2 导航模块离线训练与测试结果 280 12.4.3 模块化深度强化学习在线训练与对比测试结果 280 12.5 本章小结 285 参考文献 285 第13章 强化学习开源测试环境与算法库 288 13.1 引言 28813.2 强化学习开源测试环境 288 13.2.1 OpenAI Gym 289 13.2.2 Unity ML-Agents Toolkit 289 13.2.3 PyBullet 290 13.2.4 DeepMind Control Suite 290 13.3 玄策强化学习开源算法库 291 13.3.1 软件概述 291 13.3.2 软件主要功能详解 294 13.3.3 软件使用说明 302 13.4 本章小结 305 第14章 总结与展望 306

 

 

書城介紹  | 合作申請 | 索要書目  | 新手入門 | 聯絡方式  | 幫助中心 | 找書說明  | 送貨方式 | 付款方式 香港用户  | 台灣用户 | 海外用户
megBook.com.hk
Copyright © 2013 - 2025 (香港)大書城有限公司  All Rights Reserved.