新書推薦:
《
皇家宫廷中的保健秘方 中小学课外阅读
》
售價:HK$
63.8
《
《诗经》十五讲 十五堂《诗经》历史文化与文学课 丹曾人文通识丛书
》
售價:HK$
86.9
《
述异记汇笺及情节单元分类研究(上下册)
》
售價:HK$
104.5
《
环境、社会、治理(ESG)信息披露操作手册
》
售價:HK$
261.8
《
桑德拉销售原则 伍杰 [美]大卫·马特森
》
售價:HK$
96.8
《
理论的意义
》
售價:HK$
74.8
《
悬壶杂记:医林旧事
》
售價:HK$
52.8
《
谁之罪?(汉译世界文学5)
》
售價:HK$
52.8
|
編輯推薦: |
*本书以概率建模和推断为主线,系统阐述机器学习的基本原理、典型模型和算法,包括经典机器学习模型和算法、学习理论,也包括深度神经、概率图模型、深度生成模型、强化学习等前沿内容。通俗易懂,逻辑性强,可操作性好。
*简化复杂的数学证明和推导过程,并配套大量典型实例和示意图,理论与应用交错编排,图文并茂、深入浅出地阐述机器学习的基本原理、算法和应用,读者只需具备高等数学的基础知识即可阅读。
*本书是作者在二十年机器学习研究的成果上,总结讲授十余年“统计机器学习”课程的基础上编写而成的,通俗易懂,逻辑性强,可操作性好,特别适合作为机器学习的基础教材。
*本书可供理工科高等院校的高年级本科生、研究生、教师以及从事机器学习的研究人员和工程技术人员学习和参考。
|
內容簡介: |
随着深度学习、大规模预训练模型和生成式人工智能的进展,机器学习已成为解决很多工程和科学问题的**方案。《概率机器学习》一书从概率建模和统计推断的角度系统介绍机器学习的基本概念、经典算法及前沿进展。主要内容包括概率机器学习基础、学习理论、概率图模型、近似概率推断、高斯过程、深度生成模型、强化学习等。全书从实例出发,由浅入深,直观与严谨相结合,并提供了延伸阅读内容和丰富的参考文献。
|
關於作者: |
朱军,清华大学计算机系Bosch AI冠名教授,IEEE Fellow,清华大学人工智能研究院副院长,曾任卡内基-梅隆大学兼职教授。主要从事机器学习研究,担任国际著名期刊IEEE TPAMI副主编,担任ICML、NeurIPS、ICLR等(资深)领域主席二十余次。获中国科协求是杰出青年奖、科学探索奖、中国计算机学会自然科学一等奖、吴文俊人工智能自然科学一等奖、ICLR国际会议杰出论文奖等。入选万人计划领军人才、中国计算机学会青年科学家、MIT TR35中国先锋者等。
|
目錄:
|
基础篇
第1章 绪论第2章 概率统计基础第3章 线性回归模型第4章 朴素贝叶斯分类器.第5章 对数几率回归和广义线性模型第6章 深度神经网络第7章 支持向量机与核方法第8章 聚类第9章 降维第10章 集成学习第11章 学历理论 高级篇第12章 概率图模型第13章 变分推断第14章 蒙特卡洛方法第15章 高斯过程第16章 深度生成模型第17章 强化学习 参考文献
|
內容試閱:
|
机器学习在各个不同领域有着广泛的应用,已经成为广大读者普遍使用的工具,因此系统介绍机器学习的书籍有很大的需求。但对于初学者来讲,机器学习的模型和算法由于种类多,内容繁杂,造成入门和学习的困难。本书作者基于在清华大学已经开设十多年机器学习课程的教学经验,以及近二十年在机器学习领域的研究工作,从概率建模和推断的角度,有选择地介绍概率机器学习的核心内容,本着从基础入门、逐步深入的原则撰写这部书,在一定程度上克服了上述困难,便于读者学习与掌握。
本书在概率机器学习统一的理论框架下,使各章节的内容保持紧密的联系。大家知道,机器学习分为有监督学习、无监督学习和强化学习 3大类,彼此不尽相同。本书引入以下机器学习的定义,即“如果一个计算机程序在任务 T上的性能 P随着经验数据 D的增加不断提升,那么我们认为该计算机程序在任务 T和性能 P上从经验数据 D中进行了学习”,这个定义把以上 3类学习方法统一起来,体现了它们之间的共性。也就是说,它们都以“经验数据 D”为基础,构造计算机程序,以达到“在任务 T上的性能 P随着经验数据 D的增加不断提升”的目的,它们的差别只是完成的任务 T不同。其中,有监督学习如分类(第 4章),其任务是预测新特征数据下的标签。无监督学习如聚类(第 8章),其任务是预测数据的聚类结构。强化学习(第 17章)则是从与环境交互获取的数据中预测最佳的行动策略。机器学习通常由建模与推断两个阶段组成,这两个阶段都深受数据的有限性和不确定性的影响,造成推断结果的不确定性,同时也是导致机器学习模型和算法种类繁多的原因。数据的不确定性不可避免,是机器学习必须要面对的。它来自以下两个方面:一是客观的随机性,如传感器测量中的随机噪声;二是主观认知的局限性带来的不确定性,即认知不确定性,比如由于知识缺乏造成的信息缺失(不完整性),由于精力限制(懒惰)导致错误信息等。幸运的是,数据的有限性和不确定性都可以用“概率”这一数学工具加以刻画。因此,从概率建模和推断的角度出发,可以建立一个概率机器学习的统一理论框架,凭借这个框架可以深入理解机器学习的本质,厘清各种学习模型与算法之间的关系,便于读者阅读与理解。
下面以有监督机器学习中的分类为例,说明本书是如何通过概率机器学习这一理论框架把各种学习模型和算法联系起来的。给定训练数据 D = {(xi,yi)}Ni=1,其中, xi为特征向量, yi为标签。有监督学习最直接的建模方法是构建映射(预测)函数
f : x → y。为了构建这个函数,首先需要选取合适的损失函数作为优化的目标;然后依据给定的训练数据和损失函数,通过不同的优化算法寻找最优的函数 f E F,其中 F称为假设空间。如传统的线性回归模型(第 3章)、支持向量机(第 7章)、深度神经网络(第 6章)等均属于这一类。建模的目的是为测试数据做类别预测,因此在建模过程中,还需要根据模型泛化能力的要求选取合适的候选函数类型 f E F,本书
在机器学习理论(第 11章)中详细讨论了候选函数的复杂性与分类器泛化能力的关
系。如果映射函数采用参数化的表示,那么机器学习的建模就变为通过优化方法寻找
最优参数的参数估计问题。由于数据具有不确定性和存在噪声,映射函数模型都可以
做相应的等价概率描述,如基于最小二乘法的线性回归模型与最大似然法之间的某种
等价关系。此外,这些模型通过扩展可以构造新的概率学习方法,如支持向量机通过
Platt校准扩展为最大熵判别学习法等。由此可见,概率机器学习理论框架同样适用
于确定性的映射函数模型。
下面集中讨论概率建模和推断方法。给定数据集 D = {(xi,yi)}Ni=1,概率建模
分为生成式模型和判别式模型两种。生成式模型在建模阶段学习一个关于输入变量
x与类别标签 y的联合概率分布 p(x,y)。推断阶段对新输入数据进行分类时,利用
学习到的联合概率分布 p(x,y)计算出后验分布 p(y|x),并对 y做出预测,朴素贝
叶斯回归(第 4章)属于这一类。判别式模型对后验概率分布 p(y|x)直接建模,对
数几率回归模型(第 5章)属于这一类。生成式与判别式模型各有优缺点,判别式
模型对后验概率分布建模,对分类任务来讲直接而且简单。生成式模型先对联合概
率分布建模,然后从联合概率分布计算出后验概率分布,再对分类进行预测,多出
一个对 x的建模 p(x),对分类来讲有些多余。但生成式模型对数据的联合概率分布
做出细致的刻画,对于无监督学习、半监督学习以及复杂数据(如图像、文本)的
生成式建模却十分有用。本书分别通过降维、编解码(第 9章)等,从数据压缩与
重构的角度以及流模型讨论了复杂生成模型(第 16章)的原理与性质。如上所述,
在概率建模中,在经验数据的基础上,找到了模型参数的后验概率分布 p(w|D),但
在推断时并不直接使用这个带不确定性的模型,而是根据某种准则如最大后验估计
旷
(MAP),从中选择一个带最优参数 w的模型做预测。利用这种模型做预测,忽略了模型本身的不确定性,导致预测结果不够理想,比如对预测置信度的估计过于乐观等。第 15章讨论高斯过程——一种表示函数概率分布的模型。在贝叶斯神经网络中,阐述了直接利用带参数后验概率为 p(w|D)的不确定模型对分类 y进行预测,即
∫
p(y|D,x旷)= p(y|x旷,w)p(w|D)dw,其中 旷x为测试数据,可以获得更好的性能。此
外,建模中对模型参数后验分布的估计,特别是推断中对类别预测概率的估计,一般
都属于难计算的,即便在一定的假设与简化之下,通常也只能有近似解法。书中介绍
了多种常见的近似与快速算法,如随机梯度下降法、变分推断(第 13章)、蒙特卡洛
方法(第 14章)。更加准确、高效的近似推断算法有概率反向传播( PBP)、隐式变
分推断、函数空间粒子优化等。
本书从预备知识——概率统计基础(第 2章)出发,由浅入深地讲解机器学习的基本原理、主要模型和算法,兼顾经典与前沿,包括集成学习(第 10章)、概率图模型(第 12章)等,每章均配备了应用举例、延伸阅读和课后习题。本书适合高年级本科生、人工智能相关专业的研究生,以及机器学习相关从业人员自学,也可以随堂学习。
张钹 2023年 3月
序二
以深度学习为代表的机器学习算法推动人工智能实现从“不可用”到“可以用”
的重大突破,已经在科学技术、医疗健康等领域发挥着重要作用。除深度学习之外,
学者们提出了多种多样的机器学习算法,如线性回归、支持向量机、朴素贝叶斯、决
策树、概率图模型等;与此同时,机器学习的任务也是多种多样的,如有监督学习、
无监督学习、强化学习、半监督学习、迁移学习、元学习等。如何将这些丰富多彩的
内容进行有机融合,是编写机器学习教材的一个巨大挑战。本书作者进行了一次非常
有意义的尝试,很高兴看到《概率机器学习》这本教材的出版。
从本质上说,机器学习算法是一类特殊的计算机可实现的算法(计算机算法),它
可以使“在任务 T上的性能 P随着经验数据 D的增加不断提升”。而“算法”(即算
的法则)起源于数学,是指解决某些“类数学”问题规范而完整的方法。在社会信息
化、智能化程度不断提高的过程中,计算机算法扮演着越来越重要的角色,发挥着巨
大作用。本书作者基于在机器学习领域十多年的一线科研和教学经验,追根溯源,选
择从概率建模与统计推断的数学视角出发,抓住不确定性建模与推断的主线,有机地
组织了机器学习的核心内容。
首先,几乎所有的机器学习任务都可以描述成从观察数据中“推断”某种缺失信
息的问题。例如,人脸识别实质上是利用训练数据推断给定测试图像的未知标签信
息;聚类是通过分析经验数据的分布或相似度特性推断未知的分组结构;而强化学习
则是通过与环境交互中获得的经验数据推断未知的最优决策策略。
其次,对于机器学习算法来说,不论是数据、任务还是性能评价,每个环节都存
在普遍的不确定性。不确定性具体可分为偶然不确定性和认知不确定性两大类,前者
是环境和数据中客观存在、不可避免的;而后者是因为有限训练数据下的信息不完全
带来的认知局限。合理刻画不确定性是机器学习的一个重要问题,贯穿机器学习的各
个算法。例如,经典的最小二乘法可以等价地描述为对高斯噪声线性回归模型的最大
似然估计,后者显式地刻画了数据的不确定性;而深度神经网络虽然展示了良好的泛
化性,但在开放的实际使用场景中,往往对错误预测赋予过高的置信度,即过度自信(over-confident),为此,机器学习中发展了贝叶斯神经网络、高斯过程等方法,有效
刻画待拟合函数的不确定性。
本书的写作遵循由浅入深的原则,兼顾经典方法和前沿进展。第 3~11章,从机
器学习的基础任务——有监督学习和无监督学习出发,介绍机器学习的基础原理以及
经典模型和算法,包括如何对数据进行概率建模、如何考虑数据中未观测的隐含变
量、如何对模型进行贝叶斯推断、如何利用概率不等式刻画机器学习算法的性能等。
第 12~17章,介绍概率图模型、变分推断、蒙特卡洛方法、高斯过程、深度生成模型以及强化学习,其中,概率图模型、高斯过程和深度生成模型均利用了多个变量之间的结构信息(如图结构、多层次的深度结构等),属于结构化模型。近似概率推断为这类模型提供了一套通用的计算算法。
本书的写作视角独特,所选内容自成体系,逻辑性强,并配套大量典型实例和示意图,深入浅出地介绍机器学习的基本原理、算法和应用。相信本书的出版,可以为计算机、电子信息、自动控制、应用数学等相关专业提供有关机器学习的基础理论理解和实践案例指导,为从事人工智能相关领域的研究和开发人员提供有益参考。
徐宗本 2023年 3月
前言
随着信息化的进展,各个领域都在搜集大量数据。但数据不等于知识。数据量的增加给数据分析带来了前所未有的压力。机器学习是一门从经验数据中不断总结规律、提升任务性能的学科。随着深度学习的进展,机器学习技术已经广泛应用于工程和科学等领域,成为图像识别、语音识别、自然语言处理等任务的首选方案,同时,也在蛋白质结构预测、药物发现、疾病诊断等交叉学科中发挥越来越大的作用。
机器学习的任务多种多样,其中基本任务包括有监督学习(如图像分类)、无监督学习(如聚类、降维)和强化学习,变种任务包括半监督学习、弱监督学习、迁移学习、主动学习等。从根本上讲,机器学习任务都可以理解成从观察数据中“推断”一些缺失信息的问题,例如,图像分类实质上是利用训练数据的经验信息推断给定测试图像的未知标签信息;而聚类是通过分析经验数据的特性(如相似度、分布等)推断未知的聚类结构等。
除了数据之外,机器学习还需要对目标任务做合理的假设,例如,假设数据服从某种具有良好性质的分布或者假设要学习的目标函数具有某种参数化的形式;否则,不可能对数据进行有效的学习和泛化。我们将这种假设统称为模型。随着数据规模和计算算力的提升,构建大规模的预训练基础模型( foundation model)也成为一个研究热点,并在自然语言处理、图像分析、跨模态图像生成等任务上展示了良好的性能。
在推断未观察数据时,任何一个模型都是不确定的。因此,如何合理刻画和计算不确定性是机器学习的核心问题。概率论为刻画不确定性提供了一套严谨的数学工具,并作为主流方法已在工程、科学领域使用了上百年。本书采用概率论描述机器学习中各种形式的不确定性,在统一视角下讲述机器学习中的模型、算法及理论分析等核心内容。
无独有偶,在国际上,从概率的视角理解和看待机器学习正在成为一个重要的趋势。在本书写作过程中,有多本专著已经或即将出版,这些均凸显概率机器学习受到重视。笔者从事机器学习研究多年,觉得有责任把它系统地梳理,以飨国内读者。
本书分为基础篇和高级篇两部分。其中,基础篇包括第 1~11章,从概率的视角介绍机器学习的基础原理和方法。第 3~7、10章为有监督学习下的机器学习方法,包括线性回归模型、朴素贝叶斯分类器、对数几率回归及广义线性模型、深度神经网络、支持向量机与核方法、集成学习等内容;第 8、9章为无监督学习下的机器学习方法,包括聚类、降维等内容。第 11章介绍学习理论,主要以分类器为例,介绍如何刻画其性能,以及介绍 PAC(Probably Approximately Correct,概率近似正确)学习理论、最大间隔学习理论、 VC维、Rademacher复杂度、PAC贝叶斯学习理论等,同时,也简要讨论深度学习在理论上的独特现象(如双重下降、良性过拟合等)及最新的理论进展。基础篇是全书的基础,通过这部分的学习,读者能够充分了解和掌握机器学习的核心思想和主要方法,为后续内容做铺垫。
高级篇包括第 12~17章。第 12~16章分别介绍概率图模型、近似概率推断(包括变分推断和蒙特卡洛方法)、高斯过程和深度生成模型。这几章内容的共同点是均充分利用了多个变量之间的结构信息(如图结构、多层次的深度结构等),构建直观简洁的概率模型,并对其进行高效的概率推断。第 17章介绍决策任务中的机器学习,具体包括单步决策的多臂老虎机、序列决策的马尔可夫决策过程及强化学习等内容。高级篇将基本原理进行发展和应用。
本书的读者对象为相关专业的高年级本科生、研究生和从业人员。笔者选择机器学习的最核心内容,基于自己的科研体会组织编写,与国际上现有的专著相比,本书适合作为概率机器学习的入门教材。同时,本书也可以用于自学,书中不仅详细阐述了机器学习的基本原理,还简要介绍了各种应用实例,同时综述最新研究进展,并提供了丰富的参考文献以便读者进一步深入学习。在内容组织上,本书注重由浅入深,并将概念直观性与理论严谨性相结合,便于读者理解。
本书共 17章,适合一学期 48学时(每学时 45分钟)的课堂讲授,建议至少一半学时用于讲述基础原理、典型模型和算法。当读者掌握了前 10章的基本原理及学习理论相关知识之后,后面几章内容就相对容易掌握了,它们属于基本原理在结构化模型下的进一步发展。如果课时不足 48学时,可以在讲授完基本原理和方法之后,有选择地讲授结构化模型与推断或强化学习等内容,其中,近似概率推断的两章有部分内容依赖概率图模型,选择时需要适当考虑;而高斯过程、深度生成模型和强化学习是相对独立的章节,可以任意选择。
本书的筹划始于 2012年秋。笔者在清华大学开设了机器学习的研究生课程,备课时已为将来把讲稿扩充成书做了许多考虑;同时,多年的教学实践也让概率机器学习的框架更加清晰。本书的具体写作始于 2017年秋,初稿完成于 2021年秋。在这个过程中,笔者所带领的 TSAIL课题组的同学们如石佳欣、吴国强、李崇轩、陈键飞、鲍凡、路程、胡文波、周聿浩、应铖阳、王征翊、汪思为等提出了许多改进意见或参与了部分章节的写作,笔者表示衷心感谢。张钹院士是笔者的博士生导师,徐宗本院士是笔者回国后承担的首个国家 973计划课题的首席科学家,他们长期指导、关怀和支持笔者的工作,这次又拨冗为本书写序,在此特别感谢。笔者系统学习概率机器学习缘于 2005年在机器学习国际大会上与 Michael I. Jordan院士的交流, Jordan院士推荐了概率图模型的书籍,极大地激励了笔者深入专研;另外,从 2007年起,笔者在卡内基 –梅隆大学邢波( Eric Xing)教授组做访问学者及博士后研究,进一步加深了对概率机器学习的理解,并且有幸合作了多篇论文,在此特别感谢 Jordan院士和邢教授。同时,也感谢本书的支持者,包括编辑张玥及其同事。此外,还要衷心致谢家人,没有你们的鼎力支持,很难想象本书可以顺利完成。
本书所参考的文献已在书后列出,在此向这些文献的作者表示感谢。同时,对本书写作提供帮助的人员也深表谢意。限于作者水平,书中难免存在不妥之处,殷切期望读者批评指正。
朱军
2023年 3月
|
|