你有没有这样的经历:同一个人的简历,上午看觉得值得面试,下午再看觉得不过如此?同一个法官,对相似的案件,饭前判决偏严厉,饭后判决偏宽松?同一个医生,对同样的X光片,早上和下午给出不同的诊断?
我们习惯把判断失误归咎于"偏见"——系统性偏差让我们偏离正确答案。但丹尼尔·卡尼曼、奥利维耶·西博尼和卡斯·桑斯坦在2021年合著的《噪声》中,揭示了一个被忽视已久的真相:判断中的随机变异——即"噪声"——造成的误差,往往和偏见一样大,甚至更大。只是从来没人注意过。
三位作者,三种视角
卡尼曼不必多介绍——《思考,快与慢》的作者,行为经济学奠基人,诺贝尔经济学奖得主。西博尼是麦肯锡资深合伙人,长年帮助企业做决策。桑斯坦是法学家,行为科学在公共政策领域最积极的应用者,曾任职白宫信息与监管事务办公室。
三个人凑在一起写这本书,不是偶然。卡尼曼提供了认知心理学的根基,西博尼带来了组织决策的实战视角,桑斯坦贡献了法律和制度设计的维度。他们共同指向一个被学术界和实践界双重忽视的问题:判断中不必要的变异。
这本书的缘起,是卡尼曼在研究司法判决时发现的一个惊人事实:面对类似的案件,不同法官给出的刑期差异之大,远超常人想象。一项经典研究发现,相同的虚构案件,法官们给出的量刑从短期监禁到终身监禁不等。这不是偏见,这是噪声。
核心思想一:噪声和偏见是两种完全不同的误差
书里最精妙的类比是打靶。偏见是所有子弹系统性地偏向靶心右侧——偏了,但偏得一致。噪声是子弹散布在靶心四周——没有系统性偏向,但互相之间差得远。两种情况的"平均成绩"可能一样,但噪声大的靶手完全不可靠。
这个区分看似简单,实际极其深刻。因为人类几乎所有的纠偏努力——反歧视培训、决策清单、偏见认知——都在对付偏见,没人管噪声。结果是:我们精心消除了系统偏差,但判断仍然不可靠,因为每次判断本身就不稳定。
书中把噪声分为三种。水平噪声(level noise):不同人之间的系统性差异,比如某法官整体偏严、某法官整体偏宽。模式噪声(pattern noise):同一个人对不同类型案件的反应差异,比如某法官对金融犯罪特别严但对毒品犯罪特别宽。还有情境噪声(occasion noise):同一个人在不同时间、不同状态下对同类案件的不同判断——这就是"饭前严饭后宽"的现象。
三种噪声叠加,总量惊人。书中的保险公司案例:公司请多位核保员对同一批保单独立定价,发现定价差异的均方根高达保费的55%。换句话说,同一张保单,张三报价一万,李四可能报两万。而公司高层此前对此一无所知。
核心思想二:噪声的根源是"判断"本身
为什么会有噪声?书中的诊断直指判断活动的本质:只要判断涉及主观解读,噪声就不可避免。
我们做判断时,大脑并不是在执行一个确定性算法。它在做模式匹配、线索加权、情境联想——每一步都引入了随机性。你看到一份简历上的"毕业于某大学",这条线索的权重取决于你此时此刻的心情、你上一份看过的简历、甚至你午饭吃了什么。这些因素你意识不到,但它们在悄悄拨动天平。
更深层的原因是:复杂判断往往没有唯一正确答案。什么是"公平的量刑"?什么是"合理的估值"?这些概念本身就有模糊性,不同人合理地给出不同判断。但问题是,差异的幅度远超"合理分歧"的范畴——这就变成了噪声。
现实映照:噪声无处不在
AI时代的人类判断噪声。 这本书出版时AI还没像今天这样渗透决策,但它的洞见反而更切题了。当企业用AI做招聘筛选、信贷审批、医疗诊断时,人们最担心的是AI的偏见——算法歧视。但很少有人问:被AI替代的人类判断本身有多大的噪声?一个真实的数据:同一份胸片,放射科医生之间的一致率只有70%左右。如果你担心AI诊断不够准,你更应该担心的是:人类诊断之间本身就差了30%。
绩效考核的噪声陷阱。 几乎所有大公司都有绩效考核制度,但书中揭示:管理者对同一员工在不同时间的评分差异,常常大于不同员工之间的差异。这意味着绩效评分更多反映了评分者当下的状态,而非被评分者的实际表现。那些"末位淘汰"制度,淘汰的可能不是最差的人,而是被"情境噪声"随机击中的人。
预测的噪声。 书中引用了菲利普·泰特洛克的研究:专家对政治经济事件的预测,准确度经常不如扔飞镖的黑猩猩。问题不全在于专家偏见,而在于噪声——同一专家在不同时间的预测就不稳定,更不用说不同专家之间。当下各种"趋势预测""行业展望",听听就好,别当真。
降噪:从意识到制度
书中最有实操价值的部分是"决策卫生"(decision hygiene)的概念。就像洗手不能让你看到细菌,但能显著减少感染,决策卫生的措施看不见效果,但能大幅降噪。
核心方法包括:独立判断再汇总(而非讨论后统一意见,因为讨论会制造虚假共识);将复杂判断拆解为多个子判断(子判断的噪声更小);使用算法和规则替代自由裁量(算法零噪声);以及最简单却最常被忽视的一条——在判断之前,先想清楚自己在判断什么。
最后一条听起来平淡无奇,但效果惊人。书中引用的研究表明:面试官在使用结构化面试(提前确定评分维度和标准)后,面试判断的预测效度从0.2提升到0.6以上。不是面试官变得更聪明了,而是他们变得更有纪律了。
批判思考:噪声被低估,但也不能高估
这本书不是没有争议。最核心的批评是:书中对噪声的测量依赖于一个假设——存在一个"真实值"可以用来计算变异。但很多判断场景根本没有客观标准。艺术品的估值、量刑的"公正"、员工潜力的评估——这些本质上都是主观建构,你无法定义一个"正确答案"来衡量噪声。
其次,降噪有代价。算法零噪声,但算法也有偏见,而且算法的偏见更难被发现和纠正。独立判断能降噪,但独立判断的汇总需要更多时间和资源。规则替代裁量能消除噪声,但也消灭了裁量带来的弹性和人情味。书中对此着墨不多,留下了不少未回答的问题。
最后,这本书面临一个自我指涉的悖论:如果人类判断充满噪声,那三位作者对噪声问题的判断是否也充满噪声?当然,他们用大量实证研究来支撑论点,但"实证研究本身是否受噪声影响"这个问题,书中并没有充分回应。
结语
《噪声》的真正价值不在于给出了答案,而在于提出了一个被系统性忽视的问题。我们花了半个世纪研究和对抗偏见,但几乎没人注意过,判断中的随机变异可能和系统性偏差一样致命。
在一个越来越依赖判断的时代——招聘、投资、医疗、司法、AI训练——理解噪声,可能比理解偏见更紧迫。因为偏见至少被看到了,而噪声一直在暗处,安静地扭曲着我们的每一个决定。
下次你对自己的判断信心满满时,不妨问自己一个问题:如果我明天再做一次同样的判断,结果会一样吗?
如果答案是不确定,那你面对的可能不是偏见,而是噪声。