新書推薦:
《
(棱镜精装人文译丛)蔑视大众:现代社会文化斗争的实验
》
售價:HK$
60.5
《
皇家宫廷中的保健秘方 中小学课外阅读
》
售價:HK$
63.8
《
《诗经》十五讲 十五堂《诗经》历史文化与文学课 丹曾人文通识丛书
》
售價:HK$
86.9
《
述异记汇笺及情节单元分类研究(上下册)
》
售價:HK$
104.5
《
环境、社会、治理(ESG)信息披露操作手册
》
售價:HK$
261.8
《
桑德拉销售原则 伍杰 [美]大卫·马特森
》
售價:HK$
96.8
《
理论的意义
》
售價:HK$
74.8
《
悬壶杂记:医林旧事
》
售價:HK$
52.8
編輯推薦:
★大数据,不仅改变了人们生活的方方面面,更被上升为国家战略,让孩子了解何为数据科学,如何利用数据科学已经刻不容缓,最前沿的科学普及不可不知!
★本书主编为数据科学的资深观察家和实践者,在本书中分享了数据收集、分析的实用方法及其局限性,着重介绍了数据大爆炸对科学、社会、商业、娱乐、未来的影响,最前线的一手分析,不可不看!
★本书以大众耳熟能详的知名人物为线索,增加阅读趣味。内有数据科学领域知名人物的传记和重要贡献,了解科学家的奇闻轶事,让阅读更有趣,让记忆更深刻。
★本书体例新颖,层次清晰,让阅读更轻松。每个主题,都分为3秒击破概念,30秒探简明解析,3分钟认知拓展,可充分利用碎片化时间一览概念,也可沉浸式阅读深入研究探索。
★图书为全彩印刷,图文结合,文字简略凝练,信息量大,图片炫酷、有创意,激发孩子好奇心和求知欲,让孩子主动思考,培养孩子的科学思维!
在这个节奏越来越快的世界里,科学家是最受瞩目的明星,期待遇见热爱科学的你!
內容簡介:
数据科学是一门全新的学科,涵盖了从发现罪犯到预测流行病的信息时代。但这不仅仅是我们的电脑、智能手机和信用卡收集的大量信息。本书为全彩印刷,图文并茂地探讨了数据科学如何在科学、社会、商业、娱乐和我们的世界的未来各个方面影响我们。在本书中,数据科学领域的专家解释了该领域的50个发人深省的主题,每个主题,无论多复杂,作者都会用一幅图、两页纸、三四百字,在30秒内向读者进行讲解。我们将一起踏上科学探秘之旅,解开隐藏在科学术语背后的神秘科学。
本书是由数据科学领域的权威科学家精心编撰而成,涵盖了驱动算法的基本统计原理,数据如何影响我们的科学、社会、商业、娱乐、道德困境及其对未来更美好世界的承诺。长期以来,我们一直都是用我们的本能、思想、观点和经验来驱动我们的决定。然而,现在我们正进入数据主义时代,让数据驱动我们做出每一个决定。从气候变化到难民危机,再到医疗保健,数据是一种驱动力,不仅在这些包罗万象的问题上,也在我们的日常生活中。比如,亚马逊等网上书店可以告诉你你想读什么,而不是去书店;交友软件也会根据收集到的无数数据,告诉你谁适合你。
關於作者:
利伯蒂·维特尔特(Liberty Vittert),现为圣路易斯华盛顿大学奥林商学院数据科学实践教授。她经常为众多新闻机构撰稿,并且在福克斯商业频道(Fox Business)开设了一个名为“统计学家生活指南”(A Statistician’s Guide to Life)的每周专栏。作为英国皇家统计学会大使、英国广播公司杰出女性专家和国际统计学会当选会士,利伯蒂不遗余力地向公众传播统计学与统计数据。同时,她也是《哈佛数据科学评论》副主编,以及联合国难民署美国委员会成员。
目錄 :
6 前言
8 引言
12 基础知识
14 术语
16 数据收集
18 数据可视化如何实现
20 从数据中学习
22 工具
24 回归
26 弗朗西斯·高尔顿
28 聚类
30 统计学与建模
32 机器学习
34 神经网络与深度学习
36 不确定性
38 术语
40 抽样
42 相关性
44 趋均数回归
46 置信区间
48 抽样偏倚
50 算法偏差
52 乔治·博克斯
54 统计显著性
56 过拟合
58 科学
60 术语
62 欧洲核子研究中心与希格斯玻色子
64 天体物理学
66 CRISPR基因编辑工具与数据
68 百万基因组计划
70 格特鲁德·考克斯
72 气候变化
74 治愈癌症
76 流行病学
78 社会
80 术语
82 监控
84 安全
86 隐私
88 弗洛伦斯·南丁格尔
90 投票科学
92 健康
94 IBM沃森与谷歌阿尔法围棋
96 商业
98 术语
100 工业4.0
102 能源供应与分配
104 物流
106 赫尔曼·何乐礼
108 营销
110 金融建模
112 新产品开发
114 娱乐
116 术语
118 购物
120 交友
122 音乐
124 埃达·洛夫莱斯
126 体育运动
128 社交媒体
130 游戏
132 博彩
134 未来
136 术语
138 个性化医疗
140 心理健康
142 智能家居
144 约翰·W. 图基
146 社会信用评分
148 人工智能
150 监管
152 伦理
154 附录
156 参考资源
158 编者简介
160 致谢
內容試閱 :
前言
孟晓犁
“如果你想解决世间一切问题,主修计算机科学吧。”在一次人工智能会议上,当一位演讲嘉宾在屏幕上亮出这行字时,我的统计之魂瞬间被激发,几乎达到了六西格玛水平。谢天谢地,不到3秒钟,屏幕上又亮出了一行字:“如果你想解决计算机科学带来的一切问题,去文理学院攻读研究生学位吧。”
凡是能够运用这种巧妙的搭配组合来逗乐我们的人,必定对我们所处的这个辉煌灿烂而又令人困惑的时代有着深刻的理解。计算机科学与技术突飞猛进,缔造了数字时代,而数字时代又催生了数据科学。当我们拥有了足够多的数据,多到足以揭开大自然及其中最先进的物种——人类——的神秘面纱时,似乎没有什么是遥不可及的。
然而,“天下没有免费的午餐”——这是数据科学(以及人生)的普遍规律。这里还有另外一些组合供你思考,听完前半句,你可能宛若置身天堂,听完后半句,你便发觉其中的矛盾之处。个性化医疗听起来确实像是天赐之物,可究竟上哪儿才能找到足够多的小白鼠呢?毋庸置疑,为了推进人工智能技术的发展,我们需要收集尽可能多的人类数据,但是,请研究其他人就好 ——你敢侵犯一下我的隐私试试!
对于那些还有机会读研究生,还花得起31536000秒的人,就当作你们只能再活不到30秒,马不停蹄地去读吧。对于那些读不了研又没时间的人,读完这本书只需要50 x 30秒,看或不看就全凭你们自己了。读完这本书之后,你成不了30秒数据科学家。但如果你不了解本书的内容,你99%无法成为一个合格的数字时代公民。当然,不信的话,你大可一试。
引言
利伯蒂·维特尔特
长久以来,我们都是人文主义者:做决定全凭直觉,全凭经验,怎么想、怎么看就怎么决定。然而,如今我们正在步入数据主义(Dataism)时代——数据成了一切决定的驱动力。从气候变化、难民危机到医疗保健等,一切的一切都离不开数据的驱动。且不论这些包罗万象的议题,日常生活也概莫能外。你根本用不着去书店,想看什么书,亚马逊就能告诉你。同样,交友软件也能凭借收集到的海量数据,告诉你你和谁最投缘。
现如今,人文主义和数据主义可谓水火不容。有些人想把一切统统甩给数据,有些人则不愿舍弃最后那一丁半点的人情味。数据科学是一门综合了人文主义和数据主义的学科。它集二者于一体,既囊括了庞大的数据库、强大的统计工具(计算过程全都靠它们驱动)分析,也包括我们人类在过去数千年的发展进程中形成的常识与定量推理能力。数据科学并不是单纯的数据驱动或人为驱动:它是集二者于一体的艺术。
在详细介绍本书之前,让我们先穿越时空,回到17世纪,认识一下布莱士·帕斯卡(Blaise Pascal)——.一位遭遇信仰危机的法国修士吧。他决定凭借自己掌握的信息(你也不妨称其为“数据”),思考未来之路:
如果上帝不存在,作为有神论者,我可能会因为错误的信仰而浪费生命,但一切如旧。
如果上帝不存在,作为无神论者,我就不会因为错误的信仰而浪费生命,但一切同样如旧。
如果上帝确实存在,作为有神论者,我将进入天堂,乐享永恒。
但如果上帝确实存在,作为一个无神论者,我将面临永不熄灭的地狱之火。
帕斯卡利用自己掌握的数据做出决定,为的是提升未来幸福感,降低潜在风险。事实上,这便是数据科学:利用过去和现在的信息预测未来,或者更确切地说,数据科学是用于预卜这个世界的最佳手段(数据科学是我们这个世界上像极了水晶球的东西)。我们和帕斯卡之间的唯一区别是:帕斯卡只有4条数据需要分析,而在我们所生活的这个世界,我们要分析的数据要比这多得多——我们拥有无穷无尽的数据。
据估计,我们每天产生的数据超过2.5艾字节。粗略一算,这个数据量相当于把纸质版《哈利·波特》从地球堆到月球,再从月球堆回地球,最后再绕地球550圈,而这还仅仅是每天产生的数据量而已。
本书框架
前两章堪称数据科学基本要素,第一章对数据科学涉及的基础知识进行了条分缕析,第二章探讨的是数据科学中最为重要但鲜有人论及的内容,即其自身亦无法解释的部分。后五章探讨的是数据科学对我们生活的方方面面所产生的影响,它关乎科学、社会、商业、娱乐以及世界的未来。每个主题都包含以下内容:3秒钟样本,言简意赅;接着是更为详细的30秒数据解析;最后是3分钟分析,旨在让读者深入了解相关话题的复杂之处与微妙之处。
本书由业内专家精心编撰而成,旨在指引我们理解数据是如何以我们未曾想象过的方式改变着每个行业以及我们生活的方方面面的。同时,本书也清晰地展现了随着新时代而来的定量推理和道德困境。
数据收集
现代计算技术的发展使我们一时间获取了大量信息,因此,数据科学这一学科应运而生。从前,收集和分析数据仅限于手工操作,而现代技术的进步意味着我们生活中方方面面的信息都会被收集起来:从购买日用品到使用智能手表记录每一次运动。现在收集到的海量数据将使我们的生活发生翻天覆地的变化。许多公司如雨后春笋般出现,它们收集的数据之多超乎想象。仅以脸书(Facebook)和谷歌为例,它们收集了大量的个人信息,也就是说,它们对我们知之甚多,甚至掌握着某些连我们最亲密的朋友和家人都不得而知的信息。每一次,只要我们点击谷歌上的链接或是在脸书上给某个帖子点赞,相关数据就会被收集起来,而后这些公司对我们的了解便增加一分。在将这些信息与它们收集到的与我们有相同特点的人的信息结合后,它们就可以有针对性地向我们投放广告,并预测我们无论如何都料想不到的事情,比如我们的政治忠诚度。
数据可视化如何实现
“90%的政客都会撒谎”,这句话从何而来?更重要的是,这是事实吗?在日常生活中,我们可以看到形形色色的数据概括:饼状图会告诉我们美国人最喜欢的巧克力棒是什么,新闻报道会告知我们一生中罹患癌症的概率有多大。所有这些概括都来自或基于收集到的信息,但它们似乎总是相互矛盾。为什么会这样呢?因为数据并不简单,概括也不简单。我可以这样概括,你可以那样概括,但孰对孰错呢?这就是问题的症结所在:我们很可能会被自己所看到的数据概括“牵着鼻子走”。即便数据概括是正确的,也可能无法合理地、精准地反映其所代表的数据。例如,你知道在20岁及以上的女性中,青少年怀孕现象将会大幅减少吗?从技术层面上来说,确实如此,但就事实而言,这一数据概括毫无用处。所以,今后再看到数据概括时,你不妨思考一下它是否被曲解,然后再相应地考虑其结果。
从数据中学习
收集数据确实大有裨益,但是在我们收集到数据之后,除了进行概括,还可以做些什么呢?有了模型,我们就能采用比以往更复杂、更有效的方式从数据中获取信息。有了模型,数据科学家就能行之有效地用一条或多条数据预测他们感兴趣的结果(这便又增添了一条数据)。例如,年龄和性别数据可用于预测一个人在未来5年内是否会患上关节炎。在掌握一些人是否患有关节炎的数据后,我们可以用他们的年龄与性别信息建模,这一模型可以帮助我们预测其他人是否会患关节炎。除了预测新数据以外,数据还可以用于确定某一特定结果的原因。这一过程被称作“因果推断”,它通常用于研究疾病,比如,通过分析DNA(脱氧核糖核酸)来确定病因。然而,尽管在上述两例中,预测关节炎病例都是最终目的,但它们所代表的建模问题却有着细微的不同,甚至有着截然不同的建模过程。根据与特定项目相关的数据与目标选择最佳模型是所有数据科学家必备的主要技能之一。
机器学习
机器学习的理念是让计算机在无须人工辅助的前提下,学会以一种自动化的方式不断学习与提升。算法可以在系统中运行并自动做出决策,这通常有助于加快决策过程,减少人为错误。在这个系统中,机器学习算法利用接收到的数据预测未来,帮助系统在不同的选项之间运行、选择。随后,算法根据从接收到的信息中学到的内容进行自我更新,确保未来继续做出最佳决策。声田(Spotify)是机器学习在日常生活中得到运用的一个实例。这款音乐软件拥有数百万用户,能够根据用户听过的歌曲得知他们喜欢哪种类型的音乐。声田对刚开始使用这款软件的新用户知之甚少,因此只能随机推荐歌曲。但用户一旦开始听歌,算法就会不断了解他们的音乐偏好以及他们与其他用户的偏好之间的联系。用户听过的歌曲越多,算法就越准确,为他们推荐的歌曲也会更加精准。
神经网络与深度学习
神经网络是最常见的机器学习方法之一,最初它是科学家从人脑中得到启发提出的。与人脑一样,神经网络由相互连接的(人造)神经元组成,这些神经元能够解释图像以及其他类型的数据。神经网络在日常生活中起到了很大作用,能够识别智能手机照片中的人脸,还能读取信封上的地址,确保它们能够送达正确的地址。深度学习是一组基于神经网络展开的机器学习方法的统称,其中有着大量的相互连接的人造神经元层。深度学习的用途之一是分析和回应信息,这些信息可能是以文本的形式(例如智能客服机器人)出现的,也可能是以语音的形式(例如亚马逊语音助手Alexa和苹果智能语音助手Siri)出现的。然而,深度学习最大的用途是图像处理。深度学习可用于分析无人驾驶汽车捕捉的图像,解释结果,并建议汽车根据需要调整行驶路线。目前,深度学习也开始被应用于医学领域,用以分析利用磁共振成像(MRI)或X射线等技术形成的图像,成了识别肿瘤病变等的有效方法。
抽样
“垃圾进,垃圾出”:数据科学家都知道,数据质量决定结果质量,因此大多数数据科学家都明白要密切关注测量值的收集。当数据分析师掌握了整个总体的数据(比如奈飞会记录其订阅用户的观影习惯)时,他们只需通过计算数字便可得出结论。但掌握整个总体的数据其实是不切实际的。在医疗诈骗犯罪调查中,“完整的总体”是数以万亿计的医疗索赔记录,但律师可能会让数据科学家有策略地选择记录中的一个子集,并从中得出结论。其他时候,如在政治民调中,只有样本可供使用。如果样本是随机选择而得,此时就需要统计学理论来告诉我们,从样本到对总体的概括有多大的可信度。数据科学家越来越依赖所谓的“非概率抽样”,即非随机地选择样本。因此,使用推特(Twitter)数据来跟踪某位候选人或某个品牌的人气并非选择了一个具有代表性的随机样本,但这一方法仍有其意义。
算法偏差
人类在执行同一项任务时会有不同的表现,算法正是通过处理这些不同的例子来学习如何做出决策的。量刑算法的训练基于成千上万条法官所做出的历史性判决与有关罪犯及其罪行的信息。有些法官对某类人的判决更为严厉,如果这些法官被当作这些训练数据的来源,那么他们的偏见就会被复制到模型之中。2018年,麻省理工学院媒体实验室(MIT Media Lab)称,美国微软公司及美国IBM公司(International Business Machines Corporation,国际商业机器公司)所开发的面部识别系统在识别女性面孔时效果欠佳,在识别肤色较深的女性时频频出错。由于英美警察已经开始测试用于预防犯罪的自动面部识别系统,此类系统若是不够精确,总是发出虚假警报,公民自由将大大受限。2018年,亚马逊停用了简历自动筛选工具,因为该工具持有性别偏见。其系统的运行以此前应聘成功者的数据为基础,而由于技术行业从业人员中男女比例失衡,这些应聘成功者大多为男性。因此,求职申请中若是含有更可能出现在女性简历中的字眼(如“女足”),应聘者就会处于劣势。通过学习,该算法将男性简历等同于成功,而将女性简历等同于失败。
气候变化
要对气候趋势进行预测,我们首先要收集和处理大量数据(如历年全球平均气温)。刻画全球平均气温变化情况的函数是多变量函数。大气中的温室气体以高于平均水平的速度增加,捕获高于平均水平的热量,这会阻碍热量的及时发散。海平面上升、沥青铺设面积增加、冰量减少等因素也会降低散热速度。在理想状态下,如果吸热速度等于散热速度,那么全球平均气温将保持不变,而散热延迟破坏了这种平衡。尽管不平衡的状态只是暂时存在,但在这段时间内,热量会持续存留。此外,平衡恢复之后,温度并非回到之前的水平,而是进入新常态。我们可能会进入不同的新常态:有些会令人轻微不适,有些则可致命。为了知道我们可能会进入哪种新常态,我们必须收集足量的数据来避免会误导预测的小幅波动。研究人员正在收集全球气温、海冰厚度等数据,这些数据共同体现了温室气体水平的危险极限。
治愈癌症
基础科学发现有助于解释癌症机制,催生了靶向治疗和对患者预后的研究,让我们更加了解成功的疗法,使我们离治愈癌症又近了一步。数据科学让我们能够检验介入治疗的价值。具体来说,统计思维在随机试验中发挥了基础作用。1954年,美国国家癌症研究所(National Cancer Institute)首次采用随机试验测试治疗急性白血病的方法。早在40年前,癌症研究就已经开始依赖现今数据科学中的内容了,如研究设计、数据分析和数据库管理等。如今,分子生物学技术为每位患者都提供了成千上万种检测手段,能够检测癌细胞中的突变、染色体结构变化、基因表达异常、表观遗传变异和免疫应答等。这一技术的主要目的是利用这些信息提高诊断水平,定制治疗方法。分子生物学技术带来了庞大而复杂的数据集,丰富的统计知识和高超的计算技巧有助于高效处理这些数据集,并避免偶然事件的干扰。
流行病学
流行病学是收集数据,研究疾病的人群分布、模式和成因等的科学。这门科学融合了多个学科(如统计学、社会科学、生物学和工程学)来进行相关运算,以防控传染病和非传染病在人群中的传播。流行病学影响公共卫生,并为当前的预防性手段(如疫苗接种)、非预防性手段(如糖尿病筛查)以及今后会采用的一些方法(如基于微生物组的诊断方式)提供依据。流行病学证据推动政府制定健康政策和指导方针(如儿童疫苗接种),以保护公民健康。该领域因遏制流行病和传染病暴发而闻名。1854年,约翰·斯诺博士首次定义了流行病学的概念,当时,他查明了伦敦的霍乱病例起源于一处被污染的水源。此外,2013年,西非出现了由埃博拉病毒引起的死亡病例,随着疾病不断蔓延,人们开始调查埃博拉病毒如何以及为何传播得如此迅速。这项调查为该地区的卫生防疫计划提供了信息支撑,控制了病毒的传播。