新書推薦:
《
RDI人际关系发展疗法:修复孤独症核心障碍,让干预回归生活
》
售價:HK$
99.7
《
金融科技监管的目标、原则和实践:全球视野下加密货币的监管
》
售價:HK$
110.9
《
城市轨道交通绿色低碳规划设计研究——深圳地铁6号线工程创新与实践
》
售價:HK$
221.8
《
艾尔米塔什国家博物馆 少年游学 人一生一定要看的博物馆
》
售價:HK$
38.1
《
世界四大博物馆4册套装 卢浮宫大英大都会艾尔米塔什博物馆 青少年游学艺术参观科普书
》
售價:HK$
152.3
《
艺术家之路 塑造插画风格
》
售價:HK$
166.8
《
古乐钩沉(中国音乐学院60周年校庆中青年学者文集)
》
售價:HK$
132.2
《
我和抑郁症的3000天
》
售價:HK$
66.1
|
內容簡介: |
本书着重介绍各种数据分析技术背后的原理,有利于实践者将技术具体应用到各种领域,或者在此基础上发展新的技术。全书共分三部分。*部分介绍统计学基本概念,包括蒙特卡罗方法和马尔科夫链。第二部分介绍统计学,并从频率派和贝叶斯派两种角度对比分析了各种数据建模的工具。第三部分重点介绍各种数据分析方法,比如关联函数、周期图、图像重建等。附录提供了相关的数学知识,以备读者查阅。本书可作为物理、工程相关专业研究生关于数据分析技术的标准教材,也可供科学家和工程师参考阅读。
|
目錄:
|
译者序
前言
第1章概率
11概率定律
12概率分布
121离散和连续概率分布
122累积概率分布函数
123变量变化
13概率分布的特征
131中位数、众数和半峰全宽
132矩、均值和方差
133矩母函数和特征函数
14多变量概率分布
141两个独立变量的分布
142协方差
143多个独立变量的分布
第2章一些有用的概率分布函数
21排列组合
22二项分布
23泊松分布
24高斯分布(正态分布)
241用中心极限定理推导高斯分布
242关于中心极限定理的摘要和评论
243高斯分布的均值、矩和方差
25多元高斯分布
26卡方分布
261卡方分布的推导
262卡方分布的均值、众数和方差
263n取极大值的卡方分布
264简化卡方
265相关变量的卡方
27贝塔分布
第3章随机数和蒙特卡罗方法
31引言
32不均匀随机偏差
321逆向累积分布函数
322多维偏差
323生成高斯偏差的BoxMüller方法
324接受拒绝算法
325均匀分布比例法
326从更复杂的概率分布中产生随机偏差
33蒙特卡罗积分
34马尔可夫链
341平稳有限的马尔可夫链
342不变概率分布
343连续参数和多参数马尔可夫链
35马尔可夫链蒙特卡罗采样
351马尔可夫链蒙特卡罗计算示例
352MetropolisHastings算法
353吉布斯采样器
第4章频率统计学基础
41频率统计学简介
42未加权数据的均值与方差
43含有不相关测量误差的数据
44有相关测量误差的数据
45方差的方差和学生t分布
451方差的方差
452学生t分布
453总结
46主成分分析及其相关系数
461相关系数
462主成分分析
47柯尔莫诺夫斯米尔诺夫检验
471单样本KS检验
472双样本KS检验
第5章线性最小二乘估计
51引言
52似然统计
521似然函数
522最大似然原理
523与最小二乘和χ2最小化的关系
53多项式对数据的拟合
531直线拟合
532任意多项式拟合
533方差、协方差和偏差
534蒙特卡罗误差分析
54协方差的需求和误差的传播
541协方差的需求
542误差的传播
543蒙特卡罗误差传播
55广义线性最小二乘法
551非多项式函数的线性最小二乘法
552测量误差之间的相关性拟合
553拟合优度的χ2检验
56多个因变量拟合
第6章非线性最小二乘估计
61引言
62非线性拟合的线性化
621数据含有不相关测量误差
622数据含有相关测量误差
623实际考量
63其他最小化S的方法
631网格映射法
632最速下降法、牛顿法以及马夸特法
633单纯形优化
634模拟退火法
64误差估计
641黑塞矩阵的逆阵
642直接计算协方差矩阵
643总结以及估计的协方差矩阵
65置信极限
66自变量和因变量都含有误差的拟合
661含有不相关误差的数据
662含有相关误差的数据
第7章贝叶斯统计
71贝叶斯统计简介
72单参数估计:均值、众数和方差
721引言
722高斯先验和似然函数
723二项分布和贝塔分布
724泊松分布和一致的先验
725关于先验概率分布的更多信息
73多参数估计
731问题的形式描述
732拉普拉斯近似
733高斯似然函数和先验:与最小二乘的联系
734困难的后验分布:马尔可夫链蒙特卡罗采样
735可信区间
74假设检验
75讨论
751先验概率分布
752似然函数
753后验分布函数
754概率的含义
755思考
第8章傅里叶分析导论
81引言
82完备的标准正交函数集合
83傅里叶级数
84傅里叶变换
841傅里叶变换对
842有用的傅里叶变换对的总结
85离散傅里叶变换
851从连续傅里叶变换推导
852从离散取样的正弦和余弦函数的正交关系推导
853帕塞瓦尔定理和功率谱
86卷积和卷积定理
861卷积
862卷积定理
第9章序列分析:功率谱和周期图
91引言
92连续序列:数据窗口、谱窗口以及混叠
921数据窗口和谱窗口
922混叠
923任意的数据窗口
93离散序列
931过量采样Fm的必要性
932奈奎斯特频率
933整合采样
94噪声的影响
941确定性的或随机性的过程
942白噪声的功率谱
943噪声环境下的确定性信号
944非白、非高斯噪声
95非一致间隔的序列
951最小二乘周期图
952LombScargle周期图
953一般化的LombScargle周期图
96有变化周期的信号:OC图
第10章序列分析:卷积和协方差
101卷积回顾
1011脉冲响应函数
1012频率响应函数
102反卷积和数据重建
1021噪声在反卷积中的效用
1022维纳反卷积
1023RichardsonLucy算法
103自协方差函数
1031自协方差函数的基本性质
1032与功率谱的关系
1033随机过程的应用
104互协方差函数
1041互协方差函数的基本性质
1042与χ2和互谱的关系
1043噪声中脉冲信号的检测
附录A一些有用定积分
附录B拉格朗日乘数法
附录C高斯概率分布的附加性质
附录Dn维球体
附录E线性代数和矩阵回顾
附录F当n值变大时[1+fxn]n的极限
附录G脉冲响应函数的格林函数解
附录H二阶自回归过程
|
內容試閱:
|
若推理不够,经验可以胜任。
数学是通向科学的大门和钥匙。
——罗杰·培根(约1214—1294年)
现代化计算机的发展深刻地改变了统计学的面貌。现在分析数据常规使用的技术在几年前都是不切实际,甚至是不可想象的。普通的笔记本电脑就能够轻松处理大数据并进行详尽的计算。曾经被认为深奥的技术现在已经成为常规工具:主成分分析、马尔可夫链蒙特卡罗抽样、非线性模型拟合、贝叶斯统计、LombScargle周期图等。科学家和工程师比以往任何时候都需要熟练掌握更多、更尖端的方法来分析数据。
多年来,我为天文系、物理系,偶尔也为工程系的研究生讲授数据分析的课程。课程的目的是培养实验者解释数据的必要能力,并为理论家提供足够的知识来理解(甚至有时是质疑)这些解释。我无法找到一本具体的书,或者一些相关的书籍,可以作为该课程的教材。课程中的大部分材料都不是初级的,而且通常不包括在许多关于数据分析的介绍性书籍范围内。而涵盖这些材料的书籍一般都高度专业,写作风格和语言对于大多数学生来说也都晦涩难懂。用特定计算机语言所写的书籍,大多涵盖特定算法,更合适作为补充资料。
鉴于教学需要,我为自己的课程编写了讲义,并将这些讲义整理成书。本书是一本关于数据分析的有一定深度的书,而不是统计学入门书籍。 诚然,人们可能会质疑是否需要对线性回归进行额外的基础性介绍。 但同时,本书涵盖了必要的基本概念和工具,内容自成体系,使各种背景的读者都易于理解。 虽然书中包括很多具体的例子,但它不是一本统计方法的“食谱”,也并不包含计算机代码。 相反,这门课程和这本书强调的是各种技术背后的原理,使从业者能够将技术应用于自己的问题,并能在必要时开发新的技术。本书的目标读者是研究生,也适用于高年级的本科生和在职的专业人士。
本书重点关注物理科学和工程领域工作人员的需求,因而尽可能少地描述那些在其他研究领域常用而在物理学中很少发挥重要作用的统计工具。所以,本书对假设检验没有太多介绍,甚至忽略了ANOVA技术, 尽管这些工具会在生命科学领域得到广泛应用。相反,数据的模型拟合和数据序列的分析在物理科学中是常见的,贝叶斯统计也越来越受到关注。本书将更加全面地讨论这些主题。
即使如此,这些主题也必须经过严格的筛选来满足一本书的篇幅要求,而我选择的标准是实用性。本书覆盖了物理科学家和工程师经常使用的数据分析工具,主要分为三个部分。
第一部分用3章介绍了概率的相关知识:第1章涵盖概率方面的基本概念,第2章介绍了一些实用的概率分布,最后第3章讨论了随机数和蒙特卡罗方法,包括马尔可夫链蒙特卡罗采样。
第二部分包括第4~7章,第4章介绍了统计学中的一些基本概念,第5章和第6章从频率论的角度(极大似然估计、线性和非线性的卡方最小化)介绍模型拟合,第7章从贝叶斯的角度介绍模型拟合。
最后一部分专门介绍数据序列。 先复习傅里叶分析(第8章),然后讨论功率谱和周期图(第9章),之后是卷积和图像重建,最后以自相关和互相关结束(第10章)。
本书重点强调了误差分析。这反映了我的一个坚定信念:数据分析不应该仅仅只是产生一个结果,而是还要评估这个结果的可靠性。这可能是一个数字加一个方差,也可能是置信区间,或者当处理似然函数或贝叶斯分析时,它可以是很多一维或者二维的边际分布图。
坚定的贝叶斯学派可能会对本书只花一章来介绍贝叶斯统计而感到不悦。事实上,虽然前两章是关于概率的,却提供了贝叶斯统计的必要基础;而第3章中对于马尔可夫链蒙特卡罗采样的漫长讨论,几乎完全是由贝叶斯统计所引导出来的。就像通常默认的,介绍最小二乘法估计的那两章里面很全面地讲述了似然函数。本书也可以作为一门只教授贝叶斯统计课程的教科书。因为书中讨论了数据分析的贝叶斯方法和频率论方法,可以直接比较两者。我发现这种比较可以大大提高学生对贝叶斯统计学的理解。
书中几乎所有的材料都已经公开发表或出版,但本书中的表述是我自己的。我的目标是以一种让我的学生和同事都容易理解的方式来撰写本书。本书的主要作用是将数学家的优雅且精确的语言翻译成数据科学家和工程师能够掌握的更宽松的工作语言。本书并不提及异方差数据,但会讨论变量数据,还会涉及相关的测量错误!
本书尽管在表述上是数学的,但写作风格是物理科学的。我的目的是让叙述清晰和准确,而不是严格,因此读者在书中找不到证明或引理。本书假设读者已经很熟悉多变量微积分,并且熟悉复数。书中也大量使用了线性代数。经验告诉我,大部分研究生至少上过一门线性代数课程,但他们很少使用线性代数知识,特别是涉及特征值和特征向量时。因此附录E提供了线性代数的详细回顾。一些会打乱本书主线的专题也被归入附录。由于序列分析的重要性,我们用一整章专门介绍了傅里叶分析。
最后,如果你打算阅读或教授本书,一个亘古不变的事实就是:“对于很多事情我们要先学习,才能去做,就像建筑工人在建造房子的过程中学习建筑技巧和七弦琴演奏者通过弹奏学习一样,我们要从实践中去学习”。为了学习如何分析数据,我们着手去分析数据——
|
|