新書推薦:

《
大白话讲透逻辑学
》
售價:HK$
57.2

《
魏晋南北朝史札记
》
售價:HK$
107.8

《
诗词格律概要:精装典藏纪念版(语言学大师王力写给古诗词初学者研习格律的进阶作)
》
售價:HK$
61.6

《
何以为证:在不确定的世界里寻找确定性
》
售價:HK$
75.9

《
俄国革命:彼得格勒,1917年2月
》
售價:HK$
140.8

《
战略性矿产:大国资源竞争与中国方略
》
售價:HK$
96.8

《
嘉礼大婚:走近清代帝王婚礼(在故宫)附光绪《大婚图》册全本
》
售價:HK$
140.8

《
对手(定位之父 女儿劳拉·里斯作品)
》
售價:HK$
75.9
|
| 內容簡介: |
|
随着科学技术的迅猛发展和生成式人工智能的崛起,高维数据已成为经济预测、精准医疗、智能制造等领域的核心挑战。高维统计学深度融合优化理论、数学科学、计算机科学及信息科学的理论与方法,从数据中提炼知识、辅助科学决策、发掘潜在规律并揭示新现象。《高维数据分析与统计推断》系统阐述高维数据分析与统计推断的理论体系与方法实践,深度解析维数灾难的内在机理,聚焦高维参数估计、置信区间构建与假设检验等统计学核心问题,突破传统统计模型维度限制。《高维数据分析与统计推断》配有模拟实验、跨学科案例与高效算法,理论推导严谨,算法设计精巧,应用场景广阔,为应对复杂现实问题提供系统的统计理论与可操作的方法体系。
|
| 目錄:
|
|
目录第1章 高维数据与维数祸根 11.1 高维数据的产生 11.2 维数祸根问题 41.3 高维统计建模 101.4 大数据的应用前景 10第2章 高维数据的建模与估计 112.1 高维数据建模 112.2 变量选择 162.3 正则化方法 212.4 变量筛选 38第3章 带网络的高维整合分析 593.1 高维整合分析综述 593.2 回顾高维网络结构 613.3 非渐近性质的理论结果 643.4 模拟数据分析 663.5 实际数据分析 723.6 总结 783.7 定理的证明 79第4章 非参转移模型的变量选择 834.1 非参转移模型综述 834.2 非参转移模型的变量选择方法 844.3 非渐近性质 884.4 模拟与实际数据分析 924.5 结论 964.6 定理的证明 97第5章 高维误差方差的估计 1045.1 回顾高维误差方差估计 1045.2 基于岭回归估计方法 1055.3 模拟数据分析 1085.4 定理的证明 115第6章 高维遗传率估计 1406.1 遗传率 1406.2 估计方法 1426.3 算法与数值模拟 1436.4 实例分析 1536.5 定理的证明 158第7章 分位数回归模型的置信区间 1737.1 回顾高维分位数回归 1737.2 回顾高维统计推断 1737.3 正则化投影得分估计 1747.4 渐近性质 1777.5 再拟合wild bootstrap 1797.6 模拟和实际数据分析 1827.7 结论 1857.8 定理的证明 186第8章 带网络结构的回归系数统计推断 2068.1 带网络结构的高维回归问题 2068.2 带网络结构的高维回归方法 2088.3 提出置信区间构造方法 2108.4 模拟和实际数据分析 2138.5 结论 2198.6 定理的证明 220参考文献 236后记 255
|
| 內容試閱:
|
|
第1章高维数据与维数祸根 1.1髙维数据的产生 自21世纪起,互联网步入迅猛发展期,数据量也随之呈指数级增长.近年来,借助设定程序自动收集数据的手段,信息获取越来越便捷髙效.信息技术的发展与海量数据的收集,已然从根本上改变了我们的研究范式.数以百万计的监控摄像头、数十亿的互联网搜索记录以及社交媒体上的聊天和推文,产生了海量数据,涵盖安全、公共卫生、消费者偏好、商业情绪、经济健康等关键领域的重要信息.随着大数据时代的来临,数据维度也在快速膨胀.科学研究的前沿领域在很大程度上倚赖大规模复杂数据的收集与处理.大数据的髙维度特征已经成为许多现代统计问题的显著标志,这些问题广泛分布于科学、工程、社会科学、人文学科等众多领域.例如,在运用微阵列或蛋白质组学数据进行疾病分类时,成千上万的分子或蛋白质表达水平可作为潜在的预测变量;在全基因组关联研究中,成百上千的单核苷酸多态性(single nucleotide polymorphism,SNP)可作为潜在的协变量;在机器学习领域,从文档、图像等对象中提取的特征数量可达数百万甚至数十亿;在经济学和地球科学的时空问题中,收集的数据可能涉及数百或数千个区域的时间序列.当涉及交互作用时,维度数量会急剧增加,无论理解基因间的相互作用,还是探究词语的含义,交互项都至关重要.这些数据的收集与分析,既为统计学带来了前所未有的机遇,也提出了全新的挑战.亟须开发新的统计方法与模型,以提取有价值的信息并做出可靠的推断.这不仅需要扎实的统计学理论功底,还要求熟练掌握先进的计算技术以及数据分析工具. 1.1.1生物科学 得益于现代技术的不断进步,在多种实验条件下,同步监测成千上万个基因或蛋白质的表达动态成为可能.微阵列技术能够通过单次杂交实验测定基因表达谱,涵盖的基因数量往往成千上万.对于定制化微阵列,芯片承载的基因种类相对较少,这使得对特定基因的测量更为精准.样本量的确定取决于研究的具体问题,其范围可从几个到几十个,甚至几百个不等.在细胞系研究中,个体差异较小,因此样本量可相对较少;然而,对于取自不同人类受试者的组织样本,个体差异显著,样本量则通常需要多达几百个. RNA-seq(Ribonucleic acid-sequencing)(Nagalakshmi et al.,2008)作为一种基于第二代测序技术(new-generation sequencing,NGS)(Shendure and Ji,2008)的RNA分析方法,已经逐渐取代微阵列,成为基因表达研究的主要手段.第二代测序技术是指一系列现代测序技术,这些技术使我们能够以更快的速度、更低的成本对DNA(deoxyribonucleic acid,脱氧核糖核酸)和RNA进行测序.基于对30~400个碱基对的测序,RNA-seq技术相较于微阵列技术而言,在表达水平范围、噪声控制、通量等方面展现出诸多优势,并且能够提供更详尽的等位基因特异性表达信息.关于检测不同治疗条件下差异表达基因的统计方法,已有诸多相关文献;可参见Kvam等(2012)的综述.在对RNA表达测量进行适当标准化(无论通过RNA-seq还是微阵列技术)之后,我们能够筛选出在不同实验条件或者在处理后不同时间点表达存在差异的基因.这引发了大量有关在大规模假设检验中控制假发现率(false discovery rate,FDR)的统计分析研究,包括Barber和Cand合s(2015)、Candes等(2018)和Fan等(2012b)的研究.此外,Efron(2012)对此进行了全面介绍. RNA表达数据分析的另一个重要方面是将RNA表达谱与临床结果关联起来.在这种情况下,基因表达被视为协变量,即使经过预处理和筛选,变量数量通常仍维持较高水平.通常认为,只有少量基因对特定的临床结果产生影响,换句话说,大多数回归系数为零.这进而引发了高维稀疏回归和分类问题的研究. 在生物医学研究中,除了基因表达研究,还有许多其他高通量测量手段.在蛋白质组学领域,研究人员能够同时测定成千上万的蛋白质表达谱,这些表达谱直接与生物功能相关.与基因组学研究类似,蛋白质研究重点在于将蛋白质表达与临床结果和生物功能关联起来.在全基因组关联研究中,检查不同个体中的常见遗传变异(通常是单核苷酸多态性),以探究这些变异是否与性状(如身高、体重、眼睛颜色、产量等)或疾病相关.这些遗传变异称为数量性状位点(quantitative trait loci,QTL),可供检查的SNP数量可达数十万或数百万.对病理生理学的理解需求也催生了对研究SNP与附近基因表达之间的关联.在这种情况下,基因表达被视为响应变量,而单个SNP被视为协变量,这同样导致了高维回归问题. 高通量测量技术不仅在生物医学领域广泛应用,在神经科学、天文学以及运用卫星和其他成像技术的农业与资源调查领域也十分常见.就神经科学而言,功能磁共振成像(functional magnetic resonance imaging,FMRI)技术常用于测量血氧水平依赖(blood oxygen level dependent,BLOD)反应,以此评估大脑对刺激的响应情况.这使研究人员得以精准定位参与认知任务的脑区,进而更深入地探究大脑功能.然而,FMRI数据包含了数十万乃至数百万个体素的时间序列测量,数据维度极高,由此引出了诸多高维统计问题,给数据处理和分析带来了巨大挑战. 1.1.2计算机与信息科学 随着信息技术的迅猛发展,计算机与信息科学领域产生了海量数据.例如,互联网上存在数十亿个网页,搜索引擎需要借助统计学习技术来预测用户查询的*可能结果,并依据新的数据持续优化算法.由于查询涉及的内容极为广泛,输入的维度可能非常庞大.在谷歌、Facebook等社交网络平台以及亚马逊等电商网站中,算法被设计用于预测个人对特定服务或产品的潜在兴趣.以亚马逊网站为例,它会根据用户的浏览和购买历史等信息,在线**相关书籍.这种**系统同样适用于音乐、电影等其他类型的服务.这些例子充分说明了在统计学习中,数据集往往具有规模庞大、复杂度高以及变量数量众多的特点. 机器学习算法已在众多领域得到广泛应用,包括模式识别、搜索引擎、计算机视觉、文档与图像分类、生物信息学、医疗诊断、自然语言处理、知识图谱、自动驾驶以及互联网医疗等.这些算法的发展基于髙维统计回归与分类技术,涉及大量的变量.以文本和文档分类为例,文档数据通常通过词-文档信息矩阵进行总结,即计算文档中单词和短语的频率.特征提取在这一步骤中对分类准确性起着至关重要的作用.一个具体的文档分类实例是电子邮件分类,其中电子邮件仅分为两类:垃圾邮件和非垃圾邮件.显然,为了准确分类,需要从大量特征中筛选出重要特征,这导致了高维分类问题的出现. 如图1.1所示,图像分类同样面临类似的问题,特征提取在其中发挥着关键作用.一种特征提取的方法是**的矢量量化技术,其中图像由许多小子图像或小波系数表示,这些系数进一步通过汇总统计量进行降维处理.这也同样导致了高维预测变量的问题. 1.1.3经济与金融 得益于信息技术的迅猛发展,从股票、债券、商品价格到外汇汇率和金融衍生品等一系列金融资产的高频数据已被大量收集.例如,标准普尔500指数中500只股票的资产相关性就涉及超过十万参数.这给准确衡量投资组合的金融风险、金融系统的系统性风险、泡沫迁移以及风险传染带来了巨大挑战,投资组合的分配和管理也面临难题(Brownlees and Engle,2017).关于高维经济学和金融学的概述,可以参考Fan等(2011)的相关研究. 为了深入理解金融资产的动态特性,大型面板时间序列数据在资产类别内(如罗素3000指数的成分股丨和资产类别之间丨如股票、债券、期权、商品和其他金融衍生品)广泛可得.这些数据对于把握价格协同变动的动态特性、资产收益的时变波动率矩阵、系统性风险以及泡沫迁移至关重要. 在经济学研究中,大型面板数据也频繁出现.为分析宏观经济时间序列的联合演变,研究人员编制了数百个宏观经济变量,以深入探究政府政策的影响,并借助向量自回归(vector autoregression,VAR)模型提升统计精度(Sims,1980).由于参数数量随着预测变量的增加呈二次增长,所以参数规模往往极为庞大.为丰富模型信息,Bernanke等(2005)提议通过估计因子来增强标准VAR模型,以精准衡量货币政策效应.因子分析在利用大型数据集预测时也发挥着关键作用,详情可参见Bai等(2008)、Stock和Watson(2006)的相关研究.一个包含131个宏观经济时间序列的综合数据集可在以下网站获取,该网站每月更新一次:https://research.stlouisfed.org/econ/mccracken/fred-databases/. 在经济学领域,时空数据也产生了大数据.失业率、房价指数和销售数据通常在许多地区被收集,详细程度可达到邮政编码级别,并且会持续一段时间.利用空间相关性,能够更好地对数据的联合动态进行建模,并预测未来的结果.此外,探索同质性使我们能够将许多同质区域聚合在一起,从而降低维度,减少统计不确定性,并更好地理解不同空间位置的异质性. 1.2维数祸根问题 高维统计推断与传统统计有何不同?下面将围绕计算、噪声累积、虚假相关性和理论研究分别进行探讨. 1.2.1数值计算 在应对高维统计问题的数值优化挑战时,计算复杂度呈指数级增长,成为核心障碍.当变量维度扩展至百万乃至十亿量级,尤其是在考虑交互效应时,计算成本爆炸式增长,收敛速度急剧下降,数值不稳定性加剧,算法更易陷入局部极小值陷阱.与 此同时,频繁求解矩阵的逆将引发诸多问题:内存存储压力呈几何级数增长,计算稳定性系统性恶化,时间复杂度增加.面对动态数据流的实时更新需求(如市场营销与机器学习场景),理想的统计框架需建立增量更新机制,通过部分统计量的递推式修正规避全量数据重计算,从而实现存储资源的渐近式优化.这要求统计学习算法必须在可扩展性(scalability)与数值稳定性(皿merical stability)之间达成平衡_ 海量观测数据(规模常达百万至十亿量级)进一步加剧了计算挑战.变量间相关性分析等基础统计量的计算成本居高不下,而基于损失函数求和的迭代评估机制更使运算负荷雪上加霜.在此背景下,统计方法的演进轨迹已发生根本性转向:降维技术与特征提取成为破解高维困境的核心工具,其价值不仅体现在计算成本的压缩,更体现在统计精度提升与科学可解释性增强的双重收益.数据科学家在实践中主动构建新的权衡准则——在可接受的统计效能损失范围内,优先保障计算效率与算法稳健性(鲁棒性).这驱动了方法论层面的创新突破:随机梯度下降算法、分布式计算框架与矩阵低秩近似技术等简化方法应运而生,配合优化技术的快速稳定实现,共同构筑起面向大数据时代的统计计算新范式. 1.2.2噪声累积 噪声累积是指由于每个参数的估计都带有随机误差,这些估计误差会累积.对于高维数据,由于变量数量更多,因此,噪声累积更为严重.例如,一个线性分类规则,如果>0,那么将a:分为第1类.如果(3已知,很容易区分a:的类别.然而,当使用估计量卢代替/3时,由于髙维向量/3的估计误差累积,使用>0分类效果可能与随机猜测一样差. 取p=4000,=0,而仏从一个混合分布0.995知+0.005xDE中生成,即0.995的概率为0,0.005的概率为标准双指数(double exponential,DE)分布.实际的h如图1.2所示,应该有大约20个非零分量,与零显著不同的分量数量在11个左右. 下面将探讨髙维分类问题中的噪声累积,并将X分类为类别1,如果 其中.类别1错误分类为类别o的概率是.
|
|