新書推薦:
《
农为邦本——农业历史与传统中国
》
售價:HK$
74.8
《
郊庙之外:隋唐国家祭祀与宗教 增订版 (三联·哈佛燕京学术丛书)
》
售價:HK$
105.6
《
小麦文明:“黄金石油”争夺战
》
售價:HK$
97.9
《
悬壶杂记全集:老中医多年临证经验总结(套装3册) 中医医案诊疗思路和处方药应用
》
售價:HK$
135.1
《
无法忍受谎言的人:一个调查记者的三十年
》
售價:HK$
63.8
《
战争社会学专论
》
售價:HK$
118.8
《
剑桥意大利戏剧史(剑桥世界戏剧史译丛)
》
售價:HK$
162.8
《
教育何用:重估教育的价值
》
售價:HK$
65.8
|
編輯推薦: |
1.全球知名复杂网络科学与计算流行病学专家,面向大众读者介绍大数据和算法如何预测和改变我们的未来,深入浅出,是一本优秀的预测科学普及性作品。
2.一本横跨复杂系统科学与人工智能领域的前沿作品,介绍了早期科学家如何打破数学、物理学、生物学、计算机科学、政治学、经济学的学科壁垒,推动社会科学的范式转移。
3.通过数据建模,推演事物的发展趋势,总结复杂世界背后的简明法则,从而预测疫情的蔓延、自然灾害、经济和政治体制的崩溃等潜在危机,缓解人们对未知的天然焦虑,帮助人们更好地进行危机管理与科学决策。
|
內容簡介: |
纵观人类历史,从古希腊的德尔菲神谕到中国古代的易经占卜,出于对未知事物的恐惧,人类总是痴迷于预测未来,也正是这种恐惧为预测科学的发展提供了不竭动力。而今,打开智能手机,除了我们习以为常的气象预报,各种平台越来越精准地推送我们可能感兴趣的新闻、图书、电影、音乐……,预测科学已经在不知不觉中全方位地渗透了我们的日常生活。在本书中,作者基于在复杂网络科学与传染病预测领域的学术研究经历,带领我们一览预测科学发展史上的重要节点和突破——复杂科学的诞生,打破了自然科学、生命科学与社会科学之间的壁垒,使得基于模型描述社会行为成为可能;数字革命带来的海量数据与算法,则大幅提升了模型的准确性。从此,人变成了“可预测”的社会原子。
基于这些模型,我们不仅能预测一场足球比赛的结果、一本书的销量或一位艺术家职业生涯的成功与否,还能预测一场流行病的蔓延、一种社会思潮的传播、金融市场的波动,甚至一个人的感情生活。我们不光能够清晰地模拟并分析未来的图景,还能针对各种危局制定行之有效的应对策略。
但本书的目的不仅在于展示预测科学的巨大威力,还在于唤起人们对其局限性与伦理界限的认知,比如,大数据和算法会习得人类社会固有的歧视与不公,甚至会被用来操纵和影响人类行为。只有了解数据、算法和预测背后的运行机制,人们才能避免陷入夜郎自大或盲目崇拜的陷阱,更好地掌握我们的未来。
|
關於作者: |
意大利籍物理学家、复杂网络科学家、计算流行病学家,现任美国东北大学生物与社会技术系统建模实验室主任;美国物理学会会士,欧洲科学院院士,哈佛大学定量社会科学研究所研究员。
多年来专注于研究复杂网络的特征与建模,目前主要研究方向为流行病空间传播建模、复杂网络的韧性,以及技术-社会系统的集体行为。因曾带领科研团队通过数据建模预测埃博拉病毒、寨卡病毒、新冠病毒的传播趋势而得名,为美国美国疾病控制与预防中心和世界卫生组织的疫情防控政策提供了科学依据。
意大利籍记者,自由撰稿人,为意大利全国性大报《共和报》(La Repubblica)和《连线》杂志意大利版撰稿,因在报道科学新闻方面的出色工作而被授予2014年托马塞蒂奖(Tomassetti Award)。
|
目錄:
|
目录
前言?我是占卜师 / Ⅴ
第一章? 预测科学
登陆新世界:预测的历史 / 001
关于未来的力学 / 006
概率与未来 / 008
一种新的预测类型 / 012
第二章? 鸟群与人群
简化而不简单 / 015
行人动力学 / 023
隔离与数学 / 027
网络 / 030
第三章? 数据、算法与预测
数据化 / 035
数据与预测 / 044
机器学习 / 051
模拟大脑 / 055
隐性知识的新神谕 / 059
第四章? 预测新书能卖多少册
预测一切,就是现在! / 065
“美丽的运动”:算法当教练 / 072
成功可以预测 / 081
算法无边界 / 091
第五章? 人工智能的陷阱
算法的偏见 / 095
不公正的算法 / 099
谷歌流感趋势 / 102
理论死了,理论万岁! / 110
第六章? 人工世界
下次大流行病何时暴发? / 113
钟摆与核爆炸 / 128
社会传染 / 134
可能的世界 / 141
第七章? 管理我们的未来
谢顿博士是谁? / 145
失败还是凯歌高奏? / 152
光明与阴暗 / 157
第八章? 尾声
揭开数字预言家的面纱 / 167
致谢 / 175
注释 / 181
|
內容試閱:
|
预测一切,就是现在!
我还是没养成按照严格的日程清单有条不紊工作的好习惯。 不过,了解我的人都知道,我们团队没有固定碰头会的工作机制,因为没必要把工作安排得那么僵化。我们的工作环境是大型开放空间,有着透明玻璃墙,每天想不碰面都难。要是哪天我给大家发邮件,正式通知要开会,大家就都知道肯定有什么重大突发事件。在日常工作中,我们的信息和思想交流总是自发的,咖啡机前就是大家工作台的自然延伸。
2012 年 2 月,一个周四的下午,大家又聚在一起喝咖啡。我们早有了共同关注的话题。别误会,这次我们不是在聊学术热点,而是在讨论正热播的大众选秀节目《美国偶像》(American Idol)。当时欧洲正在热播《X 音素》(The X Foutor),而《美国偶像》则在美国收视长虹,每季节目的冠军都成了家喻户晓的明星,凯莉·克莱森(Kelly Clarkson)、 詹妮弗·哈德森(Jennifer Hudson)和凯莉·安德伍德(Carrie Underwood)都是从这个节目开始进军娱乐界的。节目每周三晚上播出,观众投票时间截至周四,届时宣布晋级选手。还有什么话题更适合在喝咖啡时聊?自打节目开播,我们每周四上午都会边喝咖啡边讨论前一晚选手的表现。有的同事还会加点儿赌注,让讨论更刺激。那天,大家正热火朝天讨论时,不知道是谁突然来了一句:“与其在这闲聊,不如正儿八经地预测!这不是我们的老本行吗?”这么一句玩笑话,大家可都当了真。到了下午,大家已经鼓捣出各种图表和数据,琢磨起具体的预测模型了。物理学家较起真来,娱乐新闻也能有学术的面孔。我们以推特的数据为基础,预测了下一集谁会被淘汰。到了第二周周三,我们已经有了初步的思路。我们通过推特筛取数据,截取带选手名字以及其他与“美国偶像”相关的实时推文,并对 50 万条推文展开分析;针对每场演出都选出一群支持者,在地图上对他们进行定位;处理完数据后,再加上统计学的算法,就大功告成了。
周四早上,我们的确预测出将遭淘汰的选手,但由于时间仓促,统计学偏差过大,起初几次预测并不精准。不过,在我们预测的排名最末的两三名选手中,总有一位最终是被淘汰的。这一结果让大家备受鼓舞。我们决定优化算法,精确识别每位选手支持者的地理信息。经过几轮实验,预测已达到了百分百的准确率。
决赛前几天,我刚到办公室,就发现同事们都在等我。大家告诉我,是时候在总冠军出炉前公布我们的预测了。可是,这不就是一帮科学家喝咖啡时临时起意的玩笑吗?看着大家严肃的表情,我意识到大家已不再把这事当作一种消遣。我们立刻着手撰写论文,准备发布预测模型。5 月 23 日,《美国偶像》这一季最后一集播出。3 天前,即 5 月 20 日,我们的论文通过了专家审核,发表在 arXiv.com 网站这一学术论文公共平台上。在这之后,《美国偶像》还将播出两集,5 月 22 日进行最后的演出,第二天就将迎来总冠军决赛之夜。我们搜集了5 月 22 日纽约时间晚上 8 点节目开播到洛杉矶时间翌日凌晨1 点投票结束这一时间段的大量数据,完成了总决赛预测,并将结果更新到 arXiv.com 网站上 1 。提交预测后,大家并未如释重负,而是带着不安和兴奋入睡。第二天,一觉醒来,我们发现自己已经身处媒体风暴的旋涡中。雪片般的邮件塞满了我们的邮箱:有人认为自己支持的选手被我们低估了,写信来骂我们;有人则激动地表示我们才是慧眼识才的伯乐;甚至还有来自地下赌场的恐吓信,说我们坏了它们的生意。其实,失望、高兴、愤怒,这些情绪都是多余的(恐吓信当然还是违法的),因为当我们发布预测结果时,投票已结束了,预测无论如何不可能改变结果。可你又能跟赌红眼的人争论什么呢? 5 月 22 日晚上,大家都围在电视机前观看直播,气氛如同观看世界杯决赛般热烈。纽约时间晚上 10 点,第 11 季《美国偶像》冠军揭晓:菲利普·菲利普斯(Phillip Phillips)。
正是我们预测夺冠的歌手!
第二年,《美国偶像》宣布改变比赛机制,节目组会在投票当晚就公布被淘汰的选手,这么一来,我们就没时间预测了。我们甚至怀疑,这项改变是为我们量身定制的。
当然,根据推特数据来预测选秀比赛的结果,只是科学家们心血来潮的一场游戏,不必太认真。不过,大家在兴奋之余很快意识到,这次成功的经验打开了通向新世界的大门。选秀节目的冠军得主能被精准预测,这意味着我们身处一个可被算法预测的世界。许多年来,我们的预测对象总是天气、流行病和其他严肃的社会现象。如今只要数据到位,加上掌握正确算法,我们就能在短时间内实施定量分析,预测此前根本想不到能被预测的事件。时至今日,预测科学已经“看透”了我们的生活。当你去应聘时,你的简历有可能会经过某个软件的筛查,雇主根据分析结果决定是否录取你。工作几年后,你准备安家置业,去银行申请贷款,银行会通过算法分析你的收入情况,评估你的还款能力,从而决定是否放贷。一言以蔽之,预测已经全方位地渗透了我们的日常生活。我们越是预测,就越想预测,似乎走不出“越喝越渴”的怪圈。观看体育比赛时,没等比赛结束,我们就想知道谁会赢。 新人闯进娱乐圈,刚发布第一首新曲时,我们就想知道他会不会红。在去投票的路上,我们就在猜谁会当选。股市刚开盘,我们就想知道收盘时是涨是跌。究其原因,预测让我们“安心”,它让未来变得不再是未知的,这降低了我们面对未来时内心的不安与恐惧。预测不仅适用于外部世界,还适用于我们自己,比如预测我们的音乐品味。截至 2018 年,音乐流媒体平台声田(Spotify)已经有 2 亿多活跃用户,其中8 000 多万属于付费用户。如果你是其中之一,就一定收到过它推送的歌曲。亚马逊网站似乎总能知道我们喜欢读什么书,网飞(Netflflix)流媒体平台似乎总能猜对我们热衷追什么剧集。当然,它们的预测有时也会失准。不过,你一定注意到了,这几年来,它们推送的信息似乎越来越精准了。我们往往来不及细想,就下意识点击了“收听”或者“购买”。这意味着,平台的算法已经实现了预期功能。你一定还听过针对亚马逊公司的批评,有人指责这个商业巨头正在吞噬中小企业的生存空间。在我看来,这种观点有些偏颇和流于表面了。从专业角度来看,亚马逊公司实际上是通过成功预测,在我们打开商店网页前,就提前找到我们想要的。诚然,建立在成功预测基础上的商业模式正在掌控市场本身,不断推陈出新的各种应用程序(App)挤满了我们的手机屏幕。我们在看手机,手机上的它们也在“看”我们,识别我们的品味与消费习惯,甚至比我们还要了解我们,跨过手机屏幕来“指挥”我们的行为。
让我们回到声田这家公司,一起领教算法已经达到何种水平。这家公司诞生于 2008 年,如今是全球最大的流媒体音乐服务平台,市值达到 240 亿美元。2 它成功的秘诀正是协同过滤算法(collaborative filtering),这种算法的关键就是“他人”。听音乐时,我们经常会将自己喜欢的歌曲保存到歌单中,这么一来,用户的音乐偏好就隐藏在 20 多亿份歌单中。当两个用户的歌单存在大量相似歌曲时,就意味着他们的音乐品味相近。一般来说,每个人大概率会喜欢与自己品味接近的其他人收藏的歌曲。这就是协同过滤算法的运算机制。用户的习惯操作被转化为可供算法分析的数据,形成巨型矩阵,矩阵的每一行为用户,每一列则为平台可推荐的 3 000 万首歌曲。这时,一种叫作矩阵分解(Matrix Factoring)的数学方法便派上用场了。通过矩阵分解,我们可以得到两类向量 U 和 C。其中,U 为用户向量,代表每个用户的音乐品味,C 为歌曲向量,代表每首歌曲的具体特征。这些向量本质上只是无意义的数字串,可协同过滤算法能将每个用户向量与其他用户向量做比较,得出哪些用户向量最为相似,同样的处理方式也适用于歌曲。如此一来,我们便能确定,哪些用户趣味相投,哪些歌曲曲风相近。我们将“相似性”这一抽象的概念转化为可测量的数据后,就能将这些数据用于定量预测。
协同过滤算法的巨大优势在于,它能精准地推荐复杂的内容,如音乐、电影,而不必真的理解推荐的内容究竟是什么。显然,要运用协同过滤算法,需要大量的用户和数据,而这恰恰解释了为什么许多平台运营商会提供免费服务。不花钱的用户在享受免费服务的同时,提供算法所需的数据,而系统则能够利用这些数据为付费用户提供更完整和优质的服务。声田公司还运用了自然语言处理(Natural Language Processing)这一机器学习技术,对歌曲展开进一步识别与分析,同样的技术也可以运用到新闻报道、网站文章的分析上。如此一来,每位艺术家、每首歌曲都有数千条术语进行描述,而这些术语又能生成一个新的向量,以表征两首歌曲是否相似。此外,声田公司甚至使用神经网络算法(Neural Network)分析一首歌曲的音轨,对新发行的歌曲进行相似性分析和分类,确保在相关信息缺乏的情况下,这些歌曲也会被推荐。
当然,不同算法究竟如何相互融合、彼此支持,从而得出最优方案,这恐怕不是本文能够说清的。说到底,这是商业机密。大量的流动数据似乎并不具备商业价值,可当人工智能与商业模式相结合时,点石成金的魔法便应运而生了。它形成了一个巨大的水晶球,容纳并预测着我们生活的方方面面。算法不会唱歌,却知道你爱听什么歌;算法不会踢球,却能预测一 场比赛的输赢,甚至能当教练—这是怎么回事?
|
|