新書推薦:
《
人生是旷野啊
》
售價:HK$
72.8
《
甲骨文丛书· “安国之道”:英国的殖民情报系统及其在亚洲的扩张
》
售價:HK$
88.5
《
台北人(2024版)
》
售價:HK$
87.4
《
让孩子更有力量:赋权型家庭教育指南
》
售價:HK$
67.0
《
白夜追凶(上下)
》
售價:HK$
109.8
《
财富、战争与智慧——二战股市风云录
》
售價:HK$
132.2
《
低空经济:中国经济发展新引擎
》
售價:HK$
88.5
《
汉字学理与小学汉字教学
》
售價:HK$
89.6
編輯推薦:
诺贝尔经济学奖得主、行为经济学之父丹尼尔卡尼曼,继《思考,快与慢》后酝酿10年思考的全球瞩目里程碑式巨作,行为科学领域又一重大发现。
几十年来,大家都认为,偏差是导致人类判断出错的关键。但是今天,卡尼曼系统性地指出:噪声,才是影响人类判断的黑洞。卡尼曼指出:“噪声就像漏水的地下室,它之所以能被容忍,不是因为人们认为它是可接受的,而是因为它一直未被人们注意到。”
哪里有判断,哪里就有噪声。《噪声》是关于人类判断的又一颠覆性著作,两个公式揭开了“判断出错”的本质,并且通过对三种噪声的系统性分析带你直击噪声。判断错误(Error)= 偏差(bias) 噪声(noise)系统噪声= 水平噪声2 稳定模式噪声2 情境噪声2噪声遍布投资、管理、医疗、法律、教育、职场等各个领域,噪声是隐形的,但却是致命的。
远离噪声,提升决策,将影响你未来10年的思考与决策。
如果你是投资人,认识噪声,可以让你避开未曾留意的投资陷阱。如果你是管理者,减少噪声,可以让你提升决策品质和管理水平。如果你是职场人,远离噪声,可以让你拥有一个更更成功的工作方法论。
內容簡介:
想象一下,两名医生对相同的病人给出了不同的诊断;两名法官对犯了同罪的嫌疑人给出了不同的判决。再想象一下,同样的医生、法官或决策者做出了不同的决策,而这种决策仅仅取决于决策是在什么时间做出的。这些不同决策背后的罪魁祸首,就是“噪声”。
《噪声》是诺贝尔经济学奖得主、“行为经济学之父”丹尼尔·卡尼曼携手决策领域专家奥利维耶·西博尼和卡斯·桑斯坦共同推出的重磅新作,也是卡尼曼继畅销书《思考,快与慢》之后酝酿10年思考的全球瞩目里程碑式巨作,行为科学领域又一重大发现。几十年来,大家都认为,偏差是导致人类判断出错的关键。但是今天,卡尼曼系统性地指出:噪声,才是影响人类判断的黑洞。
《噪声》一书通过系统性研究,通过两个公式揭开了“判断出错”的本质,并且通过对三种噪声的系统性分析带你直击噪声。并且,从六大部分阐述了“噪声”:从寻获噪声到探究人类判断的本质,从预测噪声到阐释噪声的主要原因,从探讨如何改进判断和防止错误的的实际问题,一直延伸到什么才是合适的噪声水平。”“噪声”是随机的,但却是致命的。卡尼曼在书中提出了6大原则,帮你重塑决策框架,做聪明的决策者。同时,卡尼曼更是精妙地附上了“审查噪声”的使用指南,以及写给决策者的“观察者清单”。
如果说《思考,快与慢》击退的是人类判断过程中面对的敌人“偏差”,那么《噪声》要绝杀的就是其中的另一大隐形敌人——噪声。阅读本书可以助你重塑自己的决策框架,远离噪声,做聪明的决策者。
關於作者:
丹尼尔·卡尼曼(Daniel Kahneman)
诺贝尔经济学奖得主,美国总统自由勋章获得者,全球畅销书《思考,快与慢》作者,普林斯顿大学尤金·希金斯心理学(Eugene Higgins Professor of Psychology, Princeton University)荣誉退休教授,公共和国际事务学院(School of Public and International Affairs)教授,曾荣获多项奖章,包括美国心理学学会颁赠的心理学终身贡献奖。卡尼曼在心理学上的成就是挑战判断与决策的理性模式,被公认为“继弗洛伊德之后,当代伟大的心理学家”。他的跨领域研究对经济学、医学、政治学、社会学、社会心理学、认知科学等领域都产生了深远的影响,被誉为“行为经济学之父”。
奥利维耶·西博尼(Olivier Sibony)
巴黎高等商学院(HEC Paris)教授,牛津大学赛德商学院(Sa?d Business School, University of Oxford)外籍教授,曾在全球的战略咨询公司——麦肯锡咨询公司(McKinsey & Company)担任资深合伙人长达25年时间。西博尼的研究领域为策略、决策、问题解决,力图提升决策的品质,论文发表在众多优秀刊物之上,包括《哈佛商业评论》(Harvard Business Review)与《麻省理工学院斯隆管理评论》(MIT Sloan Management Review)。其中2011年6月,与卡尼曼合著的文章Before You Make That Big Decision曾登上《哈佛商业评论》选集封面。著有You Are About to Make a Terrible Mistake一书,致力于揭示:偏差是如何影响我们的决策的,而我们又应该如何应对偏差。
卡斯·R. 桑斯坦(Cass R. Sunstein)
哈佛大学法学院教授,行为经济学与公共政策研究项目创始人兼主任,主要研究领域为政策制定方面。2009—2012年任美国白宫信息与监管事务办公室(White House Office of Information and Regulatory Affairs)主任;2013—2014年加入白宫情报与通信技术审查小组(Review Group on Intelligence and Communications Technologies);2016—2017年加入美国国防部国防创新委员会(Defense Innovation Board)。著有多本《纽约时报》畅销书,包括与理查德·泰勒合著的《助推》(Nudge)、基于电影《星球大战》(Star Wars)的法学著作《星球大战的世界》(The World According to Star Wars),以及《助推2.0》(How Change Happens)等其他多本著作。
目錄 :
引言 偏差与噪声,人类判断的两种错误
第一部分 寻找噪声
第1章 犯罪和充满噪声的判罚
减少判决中的噪声
判断是一件困难的事
第2章 系统噪声,给人达成一致的假象
抽奖会引发噪声
噪声检测,系统噪声无处不在
不必要的变异性与有利的多样性
达成一致的假象
第3章 单一决策,仅发生一次的重复决策
单次 vs 重复,是持续性差异而非类别差异
单次决策中的噪声
单次决策中的噪声控制
第二部分 你的大脑就是一种测量工具
第4章 见仁见智的判断
判断体验:什么在影响你确定CEO的人选
判断的目的:内部信号 判断目的:只是响应“做出判断的内部信号”
判断评估:结果和过程
预测性判断vs评估性判断,边界模糊的两种判断
“任意残酷行为”,噪声的问题
不受欢迎, 但可测量
第5章 测量误差,噪声与偏差的代价一样大
GoodSell应该减少噪声吗
均方,衡量整体误差的精确规则
误差方程:无论偏差大小如何,减少噪声都有益处
噪声的代价:被混淆了的个人价值与事实
第6章 噪声分析,所有判断都存在3类噪声
判决中的噪声检测
平均刑期, 每一个案子的判决都存在大量噪声
判刑就像抽奖
水平噪声:为什么一些法官更严格
模式噪声:同一法官不同判断的源头
情境噪声,噪声中被忽略的成分
第7章 情境噪声,无时无刻不在影响着我们的判断
第二次抽奖
测量情境噪声
一个是一群
心境,情境噪声的源头
衡量情境噪声的大小
我们仍然不知道是什么导致了情境噪声
第8章 群体是如何放大噪声的
音乐中的噪声
不仅仅是音乐下载,所有情况都一样
信息串联,极易放大群体判断的噪声
群体极化,讨论往往会滋生更的结论
第三部分 预测性判断中的噪声
第9章 判断与模型,简单的模型普遍优于人类判断
选择自己判断,还是借助公式
梅尔:模型击败了你
戈德堡:你的模型击败了你
第10章 无噪声的规则
更简捷:稳定之美
简捷更进一步:简单法则
更复杂:机器学习
758027个保释决策种的智慧
为什么我们不多采用规则
第11章 哪里有预测,哪里就有客观无知
哪里有预测,哪里就会有无知
异常自信的权威:准确性和黑猩猩扔飞镖差不多
糟糕的判断与差强人意的模型
否认无知是无知的另一种诱导
第12章 常态谷:事情虽无法预测,却可以被理解?
预测生活轨迹:海量信息不足以预测生活中的简单事件
客观无知,理解和预测的上限
因果性思维:一旦发生就会被解释
理解常态谷
内部视角和外部视角
第四部分 噪声是如何产生的
第13章 启发式、偏差与噪声
诊断偏差:三种类型的偏差
结论偏差,我们常常以结论寻找证据
过度一致性,我们常常受到信息顺序的影响
心理偏差导致噪声
第14章 匹配:找到与你的预测契合的共识
匹配与一致性
匹配强度:人类非凡的直觉力
匹配性预测的偏差
匹配噪声:判断的局限性
第15章 量表,模糊沟通产生的巨大噪声
愤怒让我们快速启动快思考系统
充满噪声的量表
美元和锚定
一个不幸的结论
第16章 模式噪声的构成
朱莉2.0问题:难与易
模式噪声:稳定的还是变化的
用人格进行类比
第17章 噪声源:偏差是引人注目的图形,而噪声是不受我们关注的背景
噪声成分:影响判断的3种噪声
成分的大小:稳定的模式噪声几乎是水平噪声的4倍之多
对误差的解释
从统计学上来说,噪声无处不在
第五部分 决策卫生,提升人类判断力
第18章 卓越的判断者,卓越的判断力
专家和尊重型专家
如果你必须选人做判断,那挑选智商高的人
认知风格,终确定你应该选谁做判断
第19章 消除偏差与决策卫生
干预:事后及事前消除偏差
消除偏差的局限
决策观察者,必须发起与支持决策观察
决策卫生学,降低噪声的关键方法
第20章 司法科学,信息排序是的噪声
指纹识别,身份识别中备受重视的技术
指纹分析中的偶然噪声
缺乏独立性,司法科学的证实性偏差
有效性需要可靠性:少许噪声,但多少误差呢
倾听噪声,减少噪声的步
序列信息,一个好的决策者应该努力“保持怀疑”
第21章 甄选与汇总,超级预测的两大策略
改进预测的两种方法
良好判断计划的4个步骤
永久测试版:一个特殊的思维循环
预测中的噪声和偏差
甄选及汇总的有效之处
22医学决策,做出精确医学诊断的降噪机制
医疗诊断中的噪声
诊断指南的价值
伤脑筋的精神病学诊断
23 绩效评估,用基于外部视角的共识框架做出量化判断
绩效评估本质上是一种判断工作
25%是信号,75%是噪声
一个早就发现却没有解决的问题
相对判断的优点
排序,但不强制
接下来:确保有一个达成共识的参考框架
24 人员招募,以结构化指标衡量人才
面试的风险:你并不能依次“找到合适的人”
面试中的噪声:面试官更倾向于与自己相似的求职者
面试官心理学:我们总是太相信“印象”
通过结构化流程提升人事筛选品质
25中介评估法,做出明智决策的核心方法
次会议:协议方法
第二次会议:定义中介评估法
引入外部交易团队,尽可能独立地应用自己的客观观点
决策会议:评估-讨论-评估
重复决策中的中介评估法
6个步骤,用中介评估法改善决策流程
第六部分 的噪声水平
第26章 减少噪声的成本
噪声越少,错误越多
算法无噪声,但会导致偏差
第27章 尊严,人之为人的重要价值观
不断变化的新的价值观
钻空子,逃避规则
增加罚金和消除噪声,好的威慑
创造力,士气和新鲜创意
第28章 规则还是标准
分裂与无知:标准引发噪声,而规则不会
老板,控制下属
修改规则,压抑者的反抗
降噪框架,只要确保规则“足够”准确
每一个领域都要“禁止噪声”
回顾与总结 正视噪声问题
判断不是计算,也无须遵循精确的规则
误差:偏差和噪声
测量偏差和噪声
噪声是个问题,远超我们的想象
水平 模式 情境,噪声的3种类型
判断与噪声的心理机制
不易觉察的噪声
6个原则减少噪声,以及偏差
噪声是隐形的敌人,而我们应该知道敌人到底是谁
结语 一个噪声很少的世界
附录1 如何进行噪声审查
附录2 决策观察者检查清单
附录3对抗噪声,修正预测
致谢
注释
內容試閱 :
偏差与噪声,人类判断的两种错误
试想一下,由朋友组成的四支队伍去了一个射击场,每队由五人组成,他们共用一把步枪,且每人只能开一枪。图0-1显示了他们的射击结果。
理想情况下,每一枪都能击中靶心。
图0-1 四支队伍
A队近乎达到了理想目标,A队的射击点紧紧围绕在靶心周围,接近于完美模式。而B队的每一次射击都系统偏离了目标,我们称B队为偏差队。如图0-1所示,偏差的一致性能够提供预测,如果队伍中的其中一位成员再开一枪,我们敢打赌击中点会落在与前五次射击相同的位置。偏差的一致性还会引发因果关系的解释:造成目前现象的原因或许是队伍中步枪的瞄准镜弯曲了。
C队的射击点很分散。射击点大致分布在靶心周围,因而没有明显的偏差。我们称C队为噪声队。如果队伍中的某位成员再开一枪,我们很难准确预测其可能击中的位置,而且我们也没有想到任何有趣的假设来解释C队的结果。我们知道,C队中的成员不太擅长射击,但确实不知道为什么会有如此多的噪声。
D队是偏差与噪声共存队。与B队类似,其击中点系统地偏离了目标;也类似C队,其击中点很分散。
但这不是一本有关打靶的书,我们的主题是人类误差。偏差和噪声——系统偏差和随机离散——是误差的不同组成成分,打靶问题只是为了阐明两者的差异。
射击场只是一种隐喻,用来说明人们的判断会出错,在代表组织做出各种决策时尤其容易出错。在这些情景中,我们会发现如图1中所示存在两类误差。有些判断存在偏差,它们系统地偏离了目标;有些判断存在噪声,人们期待能够在特定目标上达成一致,但却存在各种差异。不幸的是,一些组织同时受到了偏差和噪声的困扰。
图2说明了偏差和噪声之间的一个重要区别。如果只显示各队击中点的背面,而没有任何线索表明他们瞄准的靶心在哪里,就会呈现如图2的结果。
仅从靶子的背面看,你无法分辨是A队还是B队更接近靶心,但你能一眼看出,相比A队和B队,C队和D队具有更多的噪声。事实上,你对各射击队离散程度的了解与在图1中一样多。噪声的一个一般特性是,你可以在不了解目标或偏差的情况下对其进行识别和测量。
图0-2 靶子的背面
方才提到的噪声的一般特性,对本书意义重大,因为我们很多的结论都来自于“真实值”未知的判断,有一些判断的“真实值”可能永远无法得知。当不同医生为同一患者做出了不同的诊断时,我们可以研究他们的分歧点而无需知道患者的病情;当电影公司主管评估电影市场时,我们可以研究他们答案的变异性,而不必知道电影终拍摄了多少,抑或有没有开始拍摄。我们无需知晓谁对谁错,即可衡量对同一事件不同判断之间的差异。要测量噪声,我们所需要做的仅仅是看目标的背面的结果。
要理解判断中的误差,我们必须同时理解偏差和噪声。正如我们将看到的,噪声有时甚至是更为重要的问题。然而,在有关人类误差的公开讨论,以及在世界各地的组织中,很少有人认识到噪声的重要性。偏差是主角,而噪声只是台下的一个小角色。在成千上万的科学文章和数十本畅销书中已经讨论了偏差的话题,但很少提及噪声问题。本书试图纠正这一不平衡状态。
在现实生活决策中,噪声数量往往高得吓人。以下几个例子说明了,在力图做出准确判断的条件下,所出现的数量惊人的噪声:
医学诊断中的噪声。面对同一患者,不同医生对患者是否患有皮肤癌、乳腺癌、心脏病、肺结核、肺炎、抑郁症和其他许多疾病可能会做出不同的判断。精神病学上的噪声尤其高,因为该领域中的主观判断显然更为重要。然而,还有一些领域中存在的大量噪声是我们没有想到的,例如对X射线报告的解读。儿童抚养权决策中的噪声。儿童保护机构中的案件负责人需要评估儿童是否存在受虐待的风险,如果存在,进而评估是否需要将儿童送去寄养。鉴于有些负责人比其他负责人更有可能将孩子送去寄养,所以该系统存在噪声。多年后,被这些严格的负责人送去寄养的不幸儿童,他们的生活大多都很糟糕:犯罪率更高、少女怀孕率更高,收入更低。预测中的噪声。专业的预测员对新产品的销售额、失业率的增长、陷入困境公司的破产可能性,以及其他几乎所有方面,都可能做出非常不同的预测。他们不仅彼此意见不一,而且自己的预测也存在差异。例如,当要求同一软件开发人员在两个不同的日子里评估完成同一任务的时间时,他们预计的时间平均相差71%。庇护权决策中的噪声。寻求庇护者能否被允许进入美国,取决于类似买彩票一样的偶然因素。一项对随机分配给不同法官的案件的研究发现,一位法官批准了5%的申请者,而另一位法官批准了88%的申请者。该研究的标题说明了一切:“难民轮盘赌”。(我们将会看到许多轮盘赌。)人事决策中的噪声。面试官对同一求职者的评估大相径庭。对同一员工的绩效评估也存在很大差异,它更多地取决于评估者,而非被评估者的绩效。保释决策中的噪声。被告人是获准保释,还是送交监狱等待审判,部分取决于审理该案件的法官。有些法官要比其他法官更宽容、更倾向于网开一面。法官们对于哪些被告可能逃逸或再犯的评估,也存在显著的差异。法医学中的噪声。生活经验让我们觉得,指纹鉴定是可靠的。然而,在判定犯罪现场的指纹与犯罪嫌疑人的指纹是否匹配时,指纹鉴定师有时也会不一致。不仅不同专家会不一致,同一专家在不同场合遇到相同的指纹时,有时也会不一致。类似的变异性,在其他法医学学科,甚至是DNA分析中,也同样存在。专利权决策中的噪声。关于专利申请的一项先导研究的作者,强调了专利申请中所涉及的噪声:“专利局是授予还是拒绝一项专利,很大程度上取决于该专利被分配给哪一位审查员”。从公平的角度来看,这种变异性显然是有问题的。
所有这些噪声情景不过是冰山一角。无论你从哪里看待人类的判断,都有可能从中发现噪声。为了提高判断质量,我们需要克服决策中的噪声和偏差。
本书共六部分。第1部分中,我们探讨了噪声和偏差的区别,并展示了不论是公共部门,还是私人组织中,都可能存在噪声,噪声的数量甚至大的惊人。为理解这个问题,我们从两个领域的判断着手,个领域涉及刑事判决(公共部门),第二个领域涉及保险(私营部门)。乍一看,这两个领域差异巨大,但在噪声上却有很多共同点。为确定这一点,我们引入了噪声检测的概念,旨在衡量一个组织中,关于同一案件不同专业人员之间的分歧程度。
第2部分中,我们研究了人类判断的本质,并探索了如何测量准确性和误差。判断容易受偏差和噪声的影响,我们介绍了两类误差在其所起作用上的惊人相似性。偶然噪声是指同一个人或群体在不同场合下对同一案件的判断的变异性。由于群体讨论中存在很多看似无关的因素(例如,谁先发言),因而存在很多偶然噪声。
第3部分对一种被广泛研究的判断类型——预测性判断——进行了更深入的探讨。我们探索了规则、公式和算法在人类做出预测时的关键优势:与大众看法相反,与其说,规则具有卓越的洞察力,还不如说规则是没有噪声的。我们讨论了影响预测性判断质量的终极局限——对未来的客观忽视——以及它是如何与噪声一起影响了预测的质量。后,我们解决了一个,你到时几乎肯定会问自己的问题:如果噪声如此普遍,那为什么你之前没有注意到它呢?
第4部分转向人类心理学。我们解释了噪声出现的根本原因。这些原因包括由各种因素引起的人际之间的差异,包括个性和认知风格;对不同因素进行加权时的差异;以及人们使用相同量尺时出现的差异。我们探究了为什么人们会对噪声视而不见,以及对突然发生的,超出他们预测之外的事件,见怪不怪。
第5部分探索了如何在实际问题中改进判断,并防止误差(主要对如何在实践中降低噪声感兴趣的读者可以跳过第3部分和第4部分——这两个部分对预测所面临的挑战和判断中的心理过程进行了讨论——直接进入本部分)。我们调查了为解决医学、商业、教育、政府和其他领域的噪声所做出的努力。我们介绍了在决策卫生学标签下收集的几种降噪技术。我们展示了五个领域的案例研究,在这些领域中已经发现有很多噪声,人们为了降低噪声做出了很多努力,并取得了一定的成功。这些案例中包括不太可靠的医学诊断、绩效评估、法医科学、招聘决策,以及一般性预测。后,我们提供了一个称为调节评估协议的系统:一种用于评估选项的通用方法,该方法整合了决策卫生学的几种关键实践做法,旨在产生更少的噪声,得到更可靠的判断。
正常的噪声水平是多少?第6部分转而回答该问题。正常的噪声水平并不是零,这或许违反直觉。在一些领域中,消除噪声很困难;在其他领域中,消除噪声的成本太高了;还有一些领域中,减少噪声的努力也会损害重要的竞争价值。例如,消除噪声的努力可能会破坏士气,会让人觉得自己被看成了机器的齿轮。当试图用算法解决问题时会引起各种各样的反对,我们会对其中一些反对意见做出回应。尽管如此,当前的噪声水平还是难以接受的。我们敦促私人和公共组织进行噪声检测,并以前所未有的严肃态度,采取更大的努力来减少噪声。如果真这样做了,可以减少各种不公平,并降低诸多领域的成本。
考虑到这一愿景,我们在每一章结尾都以引文的形式提出一些简短的建议。你可以原封不动地使用这些建议,也可以针对任何与你有关的问题对其进行改编,无论这些问题是涉及健康、安全、教育、金钱、就业、娱乐,还是其他。了解噪声存在的问题,并试图解决这些问题,是一项正在进行中的工作,也是一项需要集体努力的工作。我们所有人都有机会为这项工作做出贡献,写这本书就是希望我们能抓住这些机会。
第17章 噪声源:
偏差是引人注目的图形,而噪声是不受我们关注的背景
哪里有判断,哪里就有噪声,希望你现在也同意这一观点。我们也希望,对你而言,这已不再是一件超乎想象的事。也正是这一目的激励我们着手研究该项目。经过多年的努力,我们对这个问题的思考已经逐渐深入和完善。现在,让我们来回顾一下,我们已经学习过的噪声成分、这些成分对噪声的重要影响以及它们各自在判断中所起的作用。
噪声成分
图16是我们在第5、第6和第16章中介绍的三个方程的一个组合图。该图展示了对误差的三个连续的分解:
将误差分解为偏差和系统噪声,将系统噪声分解为水平噪声和模式噪声,将模式噪声分解为稳定模式噪声和情境噪声。
现在,你可以看到MSE如何被分解为偏差,以及(我们曾讨论过的)三种噪声成分的平方。
图16:误差,偏差和噪声成分
当我们开始着手这一研究项目时,我们关注偏差和噪声在总误差中所占的相对权重。我们很快得出结论:在误差中,噪声通常比偏差更多,因此,噪声非常值得我们进一步去探索。
我们早期对噪声成分的思考是基于复杂的噪声检测的框架。在该框架中,多个人对多个案例做出判断;联邦法官的研究,以及惩罚性赔偿的研究,都是这样的例子。从这些研究中获得的数据,能够对水平噪声进行可靠的估计。另一方面,虽然每个参与者都对每个案例进行判断,但只进行了一次判断,因此无法判断残差——我们将其称之为模式误差——是变化的还是稳定的。依据统计分析的保守性原则,通常将残视为随机误差。换句话说,模式噪声被完全默认为情境噪声。
很长一段时间以来,这种将模式噪声解释为随机误差的传统做法,限制了我们的思维。专注于水平噪声(严厉和宽容的判断者之间、或乐观和悲观的预测者之间的稳定性差异)似乎是自然而然的事。但是,有证据表明,那些无关的、变化的环境也会影响判断,从而产生情境噪声,这引起了我们的研究兴趣。
这些证据让我们逐渐认识到,不同人做出的判断充满噪声,很大程度既不是因为普遍性的偏差,也并非是由于变化的或随机的因素所致:特定个体对多重特征的稳定的、个性化的反应,决定了他们对特定案例的反应。我们终得出结论,我们应该摈弃将模式噪声视作随机变化的观点。
虽然我们很想谨慎一点,尽量避免基于有限的案例做出过度性概括。然而,整合我们研究后发现,稳定的模式噪声实际上比系统噪声的其他成分都更为重要。由于我们很少在同一研究中全面地探究误差的各个组成部分,因此需要进行精确的分析才能得出这样一个暂时性的结论。简而言之,以下就是我们所知道的和所不知道的。
成分的大小
首先,我们对水平噪声和模式噪声的相对权重进行了几种估算。总体而言,模式噪声似乎比水平噪声对系统噪声的贡献更大。例如,在第2章提到的保险公司的例子中,不同核保人在平均保费上的差异仅占总体系统噪声的20%,剩余的80%都是模式噪声。在第6章提到的联邦法官的例子中,水平噪声(平均严厉程度的差异)仅占总体系统噪声的一半以下,而模式噪声则占一半以上。在惩罚性赔偿的实验中,系统噪声的总量在不同量尺(惩罚倾向、愤怒程度或美元罚款金额)上有所不同,但模式噪声的占比却基本恒定:三种量尺下,模式噪声分别约占总体系统噪声的63%、62%和61%。在本书第5部分中,我们将介绍的其他一些研究,特别是有关人事决策的研究,其研究的结果都与这一暂时性的结论相一致。
在这些研究中,水平噪声通常都不是系统噪声的主要成分;这一事实已经传递了一个非常重要的信息,因为水平噪声是一种(有时)无需组织进行噪声检测就可以监测到的噪声。当案例或多或少地被随机分配给各个专业人员时,他们决策的平均差异就是水平噪声。例如,针对专利局的研究发现,审查员授予专利的平均倾向性存在很大差异,进而影响了专利的诉讼发生率。同样,儿童保护部门的官员决定将儿童安置在寄养机构的倾向性也有所不同,这会对儿童的福祉产生长期影响。这些观测都仅仅是基于水平噪声的评估。这些研究所揭示的噪声问题已经令人震惊了,但是,如果模式噪声多于水平噪声,那么噪声问题的严重性至少被低估了两倍。(这一暂时性结论也有例外。法官在是否给予政治庇护的裁决中出现的巨大变异,几乎可以肯定更多地源于水平噪声,而非模式噪声;但我们怀疑这里的模式噪声也很大。)
下一步我们通过对模式噪声的两种成分进行分解,来对其进行分析。我们有充分的理由认为,模式噪声的主要成分是稳定的模式噪声而非情境噪声。对联邦法官判决的噪声检测展示了我们的推理过程。我们首先假设了一种情况,即所有的模式噪声都是完全随机变化的。在这一假设前提下,法官们的量刑会随着时间的推移变得十分不稳定和不一致,乃至达到不可能的程度:我们不得不预期,同一法官在不同情境中对同一案件量刑的平均差异达到2.8年左右。法官之间在平均量刑上的差异已经令人震惊了,要是同一名法官在不同情境下的量刑也存在这么大的差异,那就实在是太荒唐了。因此,得出以下结论似乎更为合理:法官们会对不同的被告和不同的罪行做出有差异的反应;这种差异虽极具个性化,但却是稳定的。
为了更准确地对模式噪声中有多少是稳定的,有多少是情境噪声进行量化,我们需要让同一名法官对每个案例进行两次独立评估。我们发现,在判断研究中通常不可能获得两个独立的判断,因为很难保证对案例的第二次判断完全独立于次判断。尤其当判断很复杂时,个体很可能会辨认出是同一个问题,从而重复初的判断。
由亚历山大·托多罗夫(Alexander Todorov)带领的普林斯顿大学的一组研究人员设计了一个巧妙的实验范式,从而克服了这一难题。他们从亚马逊土耳其机器人(Amazon Mechanical Turk;一个网站,人们可以通过在上面提供一些短期服务,如填答问卷,来获取报酬)上招募了参与者。在他们的一个实验中,参与者观看了一些面孔图片(由计算机程序生成,但与真人面孔无异),并对这些面孔的各项属性进行了评分,比如喜爱程度、信赖程度等。一周后,该实验用相同的面孔和相同的受访者重复了该实验。
我们有理由认为,本实验中判断的连贯性程度会低于专业人士的判断(如法官量刑)。虽然差不多每个人都会同意,有些人极具吸引力,而有一些人则令人反感;但在很大范围内,我们可以预期,对面孔的反应存在很大的个体差异。确实,观察者之间几乎没有共识:例如,在信赖程度的评分上,由于面孔图片之间的差异所导致的变异仅占判断变异的18%,剩余的82%的变异都是噪声。
我们也有理由预期,这些判断的稳定性较差,因为实验参与者只是为了赚钱而参与在线答题,其判断质量会远低于专业判断。然而,实验结果发现,噪声的组成部分还是稳定的模式噪声。第二大成分才是水平噪声,即不同的观察者在面孔信赖度的平均评分上的差异。情境噪声虽然也很大,却占比小。
要求参与者做出其他判断时,例如,有关汽车或食物的偏好,或者回答一些接近专业判断的问题,研究人员也得出了相同的结论。比如,在第15章中讨论的惩罚性赔偿的重复性研究中,参与者针对十个人身伤害案件评定了他们的惩罚倾向,两次评分之间间隔一周。同样的,稳定的模式噪声是的组成部分。在所有这些研究中,判断者之间彼此不一致,但他们自身的判断仍保持稳定。这种“缺乏共识的稳定性”,用研究人员的话说,为稳定的模式噪声提供了清晰的证据。
关于稳定的模式噪声的有力证据,来自于我们在第10章中提到的对保释法官的大规模研究。在这项杰出研究的一部分内容中,作者创建了一个统计模型,该模型可以模拟每位法官如何使用手头的线索来决定,是否批准被告人被保释。他们建立了173名法官的个性化模型。然后,他们运用模型来模拟法官对141833个案例进行的判决,每个案例产生了173个判决——总计判决超过2400万个。应我们的要求,作者慷慨地进行了特定分析,他们将判断的变异分为三部分:每个案例平均决策的“真实”变异、在保释倾向上由于法官们的差异所导致的水平噪声,以及剩下的模式噪声。
这一分析的结果与我们的观点相符,因为该研究中所测得的模式噪声是完全稳定的。由于这是对预测法官决策的模型进行的分析,因而无法体现情境噪声的随机变异性。数据中仅包括可检验的、稳定的个体预测规则。
结论非常明确:稳定的模式噪声几乎是水平噪声的四倍之多(稳定的模式噪声占总变异的26%,而水平噪声占总变异的7%)。这种可识别的、稳定的、特异性的个体模式,要比法官之间审判严格程度的差异大得多。
所有这些证据与我们在第7章中讨论的有关情境噪声的研究结果是一致的:尽管情境噪声的存在让人惊讶,甚至不安,但没有迹象表明个体内部的变异大于个体间的变异。系统噪声中主要的成分,恰恰是开始被我们忽略的成分:稳定的模式噪声,即法官们对特定案例所做判决的变异性。
考虑到相关研究较为匮乏,我们的结论只是暂时性的;但它们反映了我们对噪声态度(以及如何应对)的改变。从原则上说,水平噪声——即法官之间简单的、全面的个体差异——应该是一个相对容易测量和解决的问题。如果有异常“严格”的评分者,或异常“谨慎”的儿童监护权法官,或异常“风险规避”的贷款人,雇用他们的机构可以试图使他们判断维持在平均水平。例如,大学会要求教授们在评分时遵守事先确定好的成绩分布来进行评分。
不幸的是,我们发现,专注于水平噪声会使得我们遗漏掉很大一部分个体差异。大多数噪声都不是水平差异的产物,而是交互的产物:不同的法官如何对待特定的被告,不同的老师如何对待特定的学生,不同的社会工作者如何对待特定的家庭,不同的领导如何对待特定的公司愿景。噪声主要是我们的独特性或“判断人格”所产生的副产品。降低水平噪声依旧是一个有价值的目标,但仅达到此目标仍然未能解决大部分系统噪声的问题。