「一本书」《噪声》：你以为是判断，其实是掷骰子

你有没有这样的经历：同一个人的简历，上午看觉得值得面试，下午再看觉得不过如此？同一个法官，对相似的案件，饭前判决偏严厉，饭后判决偏宽松？同一个医生，对同样的X光片，早上和下午给出不同的诊断？

我们习惯把判断失误归咎于"偏见"——系统性偏差让我们偏离正确答案。但丹尼尔·卡尼曼、奥利维耶·西博尼和卡斯·桑斯坦在2021年合著的《噪声》中，揭示了一个被忽视已久的真相：判断中的随机变异——即"噪声"——造成的误差，往往和偏见一样大，甚至更大。只是从来没人注意过。

三位作者，三种视角

卡尼曼不必多介绍——《思考，快与慢》的作者，行为经济学奠基人，诺贝尔经济学奖得主。西博尼是麦肯锡资深合伙人，长年帮助企业做决策。桑斯坦是法学家，行为科学在公共政策领域最积极的应用者，曾任职白宫信息与监管事务办公室。

三个人凑在一起写这本书，不是偶然。卡尼曼提供了认知心理学的根基，西博尼带来了组织决策的实战视角，桑斯坦贡献了法律和制度设计的维度。他们共同指向一个被学术界和实践界双重忽视的问题：判断中不必要的变异。

这本书的缘起，是卡尼曼在研究司法判决时发现的一个惊人事实：面对类似的案件，不同法官给出的刑期差异之大，远超常人想象。一项经典研究发现，相同的虚构案件，法官们给出的量刑从短期监禁到终身监禁不等。这不是偏见，这是噪声。

核心思想一：噪声和偏见是两种完全不同的误差

书里最精妙的类比是打靶。偏见是所有子弹系统性地偏向靶心右侧——偏了，但偏得一致。噪声是子弹散布在靶心四周——没有系统性偏向，但互相之间差得远。两种情况的"平均成绩"可能一样，但噪声大的靶手完全不可靠。

这个区分看似简单，实际极其深刻。因为人类几乎所有的纠偏努力——反歧视培训、决策清单、偏见认知——都在对付偏见，没人管噪声。结果是：我们精心消除了系统偏差，但判断仍然不可靠，因为每次判断本身就不稳定。

书中把噪声分为三种。水平噪声（level noise）：不同人之间的系统性差异，比如某法官整体偏严、某法官整体偏宽。模式噪声（pattern noise）：同一个人对不同类型案件的反应差异，比如某法官对金融犯罪特别严但对毒品犯罪特别宽。还有情境噪声（occasion noise）：同一个人在不同时间、不同状态下对同类案件的不同判断——这就是"饭前严饭后宽"的现象。

三种噪声叠加，总量惊人。书中的保险公司案例：公司请多位核保员对同一批保单独立定价，发现定价差异的均方根高达保费的55%。换句话说，同一张保单，张三报价一万，李四可能报两万。而公司高层此前对此一无所知。

核心思想二：噪声的根源是"判断"本身

为什么会有噪声？书中的诊断直指判断活动的本质：只要判断涉及主观解读，噪声就不可避免。

我们做判断时，大脑并不是在执行一个确定性算法。它在做模式匹配、线索加权、情境联想——每一步都引入了随机性。你看到一份简历上的"毕业于某大学"，这条线索的权重取决于你此时此刻的心情、你上一份看过的简历、甚至你午饭吃了什么。这些因素你意识不到，但它们在悄悄拨动天平。

更深层的原因是：复杂判断往往没有唯一正确答案。什么是"公平的量刑"？什么是"合理的估值"？这些概念本身就有模糊性，不同人合理地给出不同判断。但问题是，差异的幅度远超"合理分歧"的范畴——这就变成了噪声。

现实映照：噪声无处不在

AI时代的人类判断噪声。 这本书出版时AI还没像今天这样渗透决策，但它的洞见反而更切题了。当企业用AI做招聘筛选、信贷审批、医疗诊断时，人们最担心的是AI的偏见——算法歧视。但很少有人问：被AI替代的人类判断本身有多大的噪声？一个真实的数据：同一份胸片，放射科医生之间的一致率只有70%左右。如果你担心AI诊断不够准，你更应该担心的是：人类诊断之间本身就差了30%。

绩效考核的噪声陷阱。 几乎所有大公司都有绩效考核制度，但书中揭示：管理者对同一员工在不同时间的评分差异，常常大于不同员工之间的差异。这意味着绩效评分更多反映了评分者当下的状态，而非被评分者的实际表现。那些"末位淘汰"制度，淘汰的可能不是最差的人，而是被"情境噪声"随机击中的人。

预测的噪声。 书中引用了菲利普·泰特洛克的研究：专家对政治经济事件的预测，准确度经常不如扔飞镖的黑猩猩。问题不全在于专家偏见，而在于噪声——同一专家在不同时间的预测就不稳定，更不用说不同专家之间。当下各种"趋势预测""行业展望"，听听就好，别当真。

降噪：从意识到制度

书中最有实操价值的部分是"决策卫生"（decision hygiene）的概念。就像洗手不能让你看到细菌，但能显著减少感染，决策卫生的措施看不见效果，但能大幅降噪。

核心方法包括：独立判断再汇总（而非讨论后统一意见，因为讨论会制造虚假共识）；将复杂判断拆解为多个子判断（子判断的噪声更小）；使用算法和规则替代自由裁量（算法零噪声）；以及最简单却最常被忽视的一条——在判断之前，先想清楚自己在判断什么。

最后一条听起来平淡无奇，但效果惊人。书中引用的研究表明：面试官在使用结构化面试（提前确定评分维度和标准）后，面试判断的预测效度从0.2提升到0.6以上。不是面试官变得更聪明了，而是他们变得更有纪律了。

批判思考：噪声被低估，但也不能高估

这本书不是没有争议。最核心的批评是：书中对噪声的测量依赖于一个假设——存在一个"真实值"可以用来计算变异。但很多判断场景根本没有客观标准。艺术品的估值、量刑的"公正"、员工潜力的评估——这些本质上都是主观建构，你无法定义一个"正确答案"来衡量噪声。

其次，降噪有代价。算法零噪声，但算法也有偏见，而且算法的偏见更难被发现和纠正。独立判断能降噪，但独立判断的汇总需要更多时间和资源。规则替代裁量能消除噪声，但也消灭了裁量带来的弹性和人情味。书中对此着墨不多，留下了不少未回答的问题。

最后，这本书面临一个自我指涉的悖论：如果人类判断充满噪声，那三位作者对噪声问题的判断是否也充满噪声？当然，他们用大量实证研究来支撑论点，但"实证研究本身是否受噪声影响"这个问题，书中并没有充分回应。

结语

《噪声》的真正价值不在于给出了答案，而在于提出了一个被系统性忽视的问题。我们花了半个世纪研究和对抗偏见，但几乎没人注意过，判断中的随机变异可能和系统性偏差一样致命。

在一个越来越依赖判断的时代——招聘、投资、医疗、司法、AI训练——理解噪声，可能比理解偏见更紧迫。因为偏见至少被看到了，而噪声一直在暗处，安静地扭曲着我们的每一个决定。

下次你对自己的判断信心满满时，不妨问自己一个问题：如果我明天再做一次同样的判断，结果会一样吗？

如果答案是不确定，那你面对的可能不是偏见，而是噪声。

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

{{userData.name}}已认证