今天和大家分享的文章標(biāo)題是《噪音:如何克服決策不一致所帶來的高額隱性成本》(《Noise: How to Overcome the High, Hidden Cost of Inconsistent Decision Making》)。
這篇文章由四位作者共同完成,首先簡(jiǎn)單介紹下作者:
Daniel Kahneman,是普林斯頓大學(xué)榮休的心理學(xué)教授。2002年,他因在認(rèn)知偏差方面的工作(與阿莫斯·特沃斯基合作)獲得了諾貝爾經(jīng)濟(jì)科學(xué)獎(jiǎng)。
Andrew M. Rosenfield,是咨詢公司TGG集團(tuán)的首席執(zhí)行官和管理合伙人
Linnea Gandhi,是芝加哥布斯大學(xué)行為科學(xué)副教授,經(jīng)營(yíng)著一家致力于將學(xué)術(shù)研究應(yīng)用于商業(yè)的公司BehavioralSight。
Tom Blaser,是咨詢公司TGG集團(tuán)的常務(wù)董事。
文章主要介紹了在專業(yè)人員在判斷中受到噪音的影響而產(chǎn)生決策的不一致問題,接著解釋了噪聲和偏差之間的區(qū)別,說明如何審計(jì)組織中的噪聲水平和影響。然后,向我們描述了一種低成本且有效的方法來構(gòu)建修正噪聲的算法,并概述了當(dāng)算法不可行時(shí),可以提高判斷一致性的步驟。
首先什么是噪音呢?
作者向我們舉了一個(gè)例子,在他們所服務(wù)的一家金融服務(wù)公司,對(duì)于相同的金融服務(wù)申請(qǐng)資料,審核人員給出了完全不同的報(bào)價(jià)。許多組織的專業(yè)人員,例如信用評(píng)級(jí)機(jī)構(gòu)的評(píng)估人員、急診室的醫(yī)生、貸款和保險(xiǎn)的保險(xiǎn)商等,他們的判斷受到不相關(guān)因素的強(qiáng)烈影響,例如他們當(dāng)前的情緒、距離上一頓飯后的時(shí)間和天氣。這種決策的隨機(jī)變異被稱為噪音。噪音不僅廣泛存在,而且往往是隱蔽的。即使是成功的公司在沒有意識(shí)到的情況下都會(huì)由于噪音損失大量的金錢。
噪音和偏見有什么區(qū)別呢?
作者用四幅圖為我們做出了直觀的解答:

A組是準(zhǔn)確的:射擊是正中靶心的,而且相互靠近。
B組是噪音:以靶心為中心,但分散得很廣。
C組是偏見:都沒射中靶心,但都聚集在一起。
D組既有噪音,也有偏見。
另外,與偏見不同,噪聲可以在不知道正確響應(yīng)的情況下測(cè)量。B組和D組的分散的射擊是有問題的:不管靶心在哪里,他們都沒有向集中的方向射擊。所以可以通過設(shè)計(jì)實(shí)驗(yàn),即使在不知道正確答案的情況下,可以觀察到判斷的分散。這種實(shí)驗(yàn)稱為噪聲審計(jì)。噪聲審計(jì)的重點(diǎn)不是要出具報(bào)告。最終目標(biāo)是提高決策質(zhì)量,并且需要得到高層的支持,噪音審計(jì)才能得以成功實(shí)施。
而如何能降低噪音呢?
對(duì)噪音問題最根本的解決辦法是用被稱為算法的正式規(guī)則來代替人類的判斷。不需要特別復(fù)雜精細(xì)的計(jì)算,只要在條件允許的情況下,我們可以基于常識(shí)推理選擇一些(可能是6到8個(gè))明確與結(jié)果相關(guān)的變量,通過簡(jiǎn)單的加減運(yùn)算來構(gòu)建算法。并且這種方法和精細(xì)構(gòu)建的算法有同等的作用。
而在許多情況下,運(yùn)行算法是不實(shí)用的或者是不被公眾接受的。那么我們需要為判斷提供一套程序(流程和工具),加強(qiáng)流程規(guī)范的培訓(xùn),提供檢查清單,問題列表等工具。
下面是全文,有興趣的同學(xué)可以繼續(xù)閱讀:
在我們合作的一家全球金融服務(wù)公司,一位長(zhǎng)期客戶意外地向兩個(gè)辦事處提交了同一份申請(qǐng)文件。雖然審查該文件的員工應(yīng)該遵循相同的指導(dǎo)方針,從而得出類似的結(jié)果,但不同的辦公室返回的報(bào)價(jià)卻截然不同。后來客戶就把業(yè)務(wù)交給了公司的一個(gè)競(jìng)爭(zhēng)對(duì)手。從公司的角度來看,同一角色的員工應(yīng)該是可以互換的,但在這個(gè)案例中,他們不是。不幸的是,這是一個(gè)常見的問題。
許多組織的專業(yè)人員,信用評(píng)級(jí)機(jī)構(gòu)的評(píng)估人員、急診室的醫(yī)生、貸款和保險(xiǎn)的保險(xiǎn)商等,被隨意分配到案例中。組織期望這些專業(yè)人員的一致性:相同的案例應(yīng)該被同樣地對(duì)待。問題是,人類是不可靠的決策者;他們的判斷受到不相關(guān)因素的強(qiáng)烈影響,例如他們當(dāng)前的情緒、距離上一頓飯后的時(shí)間和天氣。我們將決策的隨機(jī)變異稱為噪音。這是許多公司的一種無形成本。
有些工作沒有噪音。銀行或郵局的職員執(zhí)行復(fù)雜的任務(wù),但他們必須遵守經(jīng)過設(shè)計(jì)的嚴(yán)格的規(guī)則,用來限制主觀判斷和保證相同的案例將被同等對(duì)待。相比之下,醫(yī)療專業(yè)人員、貸款官員、項(xiàng)目經(jīng)理、法官和高管都會(huì)做出判斷,這些判斷是由非標(biāo)準(zhǔn)化的經(jīng)驗(yàn)和一般原則指導(dǎo)的,而不是嚴(yán)格的規(guī)則。如果他們的回答與其他人的回答不完全一致,那是可以接受的;這就是我們所說的決策是“判斷問題”的意思。一個(gè)員工進(jìn)行判斷的公司并不希望決策完全沒有噪音。但通常情況下,噪音遠(yuǎn)高于高管們認(rèn)為可以容忍的水平,而且他們完全沒有意識(shí)到這一點(diǎn)。
噪聲的廣泛存在已經(jīng)在一些研究中得到證實(shí)。學(xué)術(shù)研究人員反復(fù)證實(shí),專業(yè)人士在不同場(chǎng)景下對(duì)于相同的數(shù)據(jù),往往會(huì)做出與自己先前的判斷相矛盾的判斷。例如,當(dāng)軟件開發(fā)人員被要求在分割的兩天里分別估計(jì)某個(gè)給定任務(wù)的完成時(shí)間時(shí),他們預(yù)測(cè)的小時(shí)數(shù)平均相差71%。當(dāng)病理學(xué)家對(duì)活檢結(jié)果的嚴(yán)重程度進(jìn)行兩次評(píng)估時(shí),他們的評(píng)分之間的相關(guān)性僅為.61(完美的1.0),這表明他們經(jīng)常做出不一致的診斷。不同的人做出的判斷更有可能產(chǎn)生分歧。研究證實(shí),在許多任務(wù)中,專家的決定是高度可變的:評(píng)估股票、評(píng)估房地產(chǎn)、判決罪犯、評(píng)估工作表現(xiàn)、審計(jì)財(cái)務(wù)報(bào)表等。直觀的結(jié)論是,專業(yè)人士的決策往往與同齡人的決策、自己先前的決策以及自己聲稱遵守的規(guī)則有很大的偏差。
噪音往往是隱蔽的:它甚至導(dǎo)致成功的公司在沒有意識(shí)到的情況下?lián)p失了大量的金錢。有多大?為了得到一個(gè)估計(jì)值,我們?cè)儐柫宋覀冄芯窟^的其中一個(gè)組織的高管:“假設(shè)一個(gè)案例的最佳評(píng)估值是100000美元。如果負(fù)責(zé)此案的專業(yè)人員評(píng)估了11.5萬美元的價(jià)值,該組織的成本是多少?評(píng)估它的費(fèi)用是多少?85000美元?“成本估計(jì)很高。在每年的評(píng)估中,噪音成本以數(shù)十億計(jì),即使是對(duì)于一家大型的全球公司,也是一個(gè)不可接受的數(shù)字。即使只降低幾個(gè)百分點(diǎn)的噪音,其價(jià)值也將達(dá)到數(shù)千萬美元。值得注意的是,在那之前,該組織完全忽略了一致性的問題。
長(zhǎng)期以來,人們都知道,簡(jiǎn)單統(tǒng)計(jì)算法產(chǎn)生的預(yù)測(cè)和決策往往比專家作出的預(yù)測(cè)和決策更準(zhǔn)確,即使專家獲得的信息比公式使用的信息更多。眾所周知,算法的主要優(yōu)點(diǎn)是無噪音:與人類不同的是,對(duì)于任何給定的輸入,公式總是返回相同的輸出。卓越的一致性甚至允許簡(jiǎn)單和不完美的算法實(shí)現(xiàn)比人類專業(yè)人員更高的精度。(當(dāng)然,有時(shí)算法在操作上或政治上是不可行的,正如我們將要討論的那樣。)
在本文中,我們將解釋噪聲和偏差之間的區(qū)別,并研究主管如何審計(jì)其組織中的噪聲水平和影響。然后,我們描述了一種低成本、未被充分利用的方法來構(gòu)建修正噪聲的算法,并概述了當(dāng)算法不是一個(gè)選項(xiàng)時(shí)可以提高判斷一致性的步驟。
噪音與偏見
當(dāng)人們考慮到判斷和決策的錯(cuò)誤時(shí),他們很可能會(huì)想到社會(huì)偏見,如對(duì)少數(shù)群體的成見或認(rèn)知偏見,如過度自信和毫無根據(jù)的樂觀主義。我們稱之為噪聲的無用的易變性是一種不同類型的錯(cuò)誤。想一想你的浴室磅秤,就知道這一區(qū)別了。我們可以說,如果標(biāo)度的讀數(shù)通常過高或過低,則標(biāo)度是有偏差的。如果你的體重似乎取決于你將腳放在哪里,那么天平就會(huì)發(fā)出噪音。一直低估實(shí)際重量4磅的天平是有嚴(yán)重偏差的,但沒有噪音。當(dāng)你踩兩次刻度盤時(shí),它會(huì)給出兩個(gè)不同的 讀數(shù),這是噪音。許多測(cè)量誤差都是由偏壓和噪聲共同引起的。大多數(shù)廉價(jià)的浴室磅秤都有些偏頗和相當(dāng)?shù)脑胍簟?/p>
為了直觀地說明這一區(qū)別,請(qǐng)考慮附圖“噪音和偏差如何影響準(zhǔn)確性”中的標(biāo)靶。這些標(biāo)靶顯示了四人小組的標(biāo)靶練習(xí)結(jié)果,其中每個(gè)人射擊一次。

A組是準(zhǔn)確的:射擊是正中靶心的,而且相互靠近。
其他三個(gè)組不準(zhǔn)確,但有著各自的不同方式:
B組是噪音:以靶心為中心,但分散得很廣。
C組是偏見:都沒射中靶心,但都聚集在一起。
D組既有噪音,也有偏見。
正如A組和B組的比較所表明的那樣,噪聲的增加總是會(huì)在沒有偏見的情況下降低準(zhǔn)確度。當(dāng)存在偏見時(shí),不斷增加的噪音實(shí)際上可能會(huì)造成幸運(yùn)的擊中,就像D組所發(fā)生的那樣。當(dāng)然,沒有任何組織會(huì)相信運(yùn)氣。噪音總是不受歡迎的,有時(shí)是災(zāi)難性的。
對(duì)于一個(gè)組織來說,了解員工決策中的偏見和噪音顯然是有用的,但是收集這些信息并不簡(jiǎn)單。測(cè)量這些誤差時(shí)冒出了不同的問題。一個(gè)主要的問題是,決策的結(jié)果往往直到遙遠(yuǎn)的將來才知道,如果有的話。例如,貸款官員經(jīng)常要等上幾年才能看到他們批準(zhǔn)的貸款產(chǎn)生的結(jié)果,而且他們幾乎無法知道他們拒絕的申請(qǐng)人會(huì)發(fā)生什么。
凡決策必有噪音——通常比你想象的要多。
與偏見不同,噪聲可以在不知道正確響應(yīng)的情況下測(cè)量。為了說明這一點(diǎn),假設(shè)射擊者瞄準(zhǔn)的目標(biāo)被從展覽中抹去。你可能對(duì)整體的精準(zhǔn)度一無所知,但你可以肯定的是,B組和D組的分散的射擊是有問題的:不管靶心在哪里,他們都沒有向集中的方向射擊。測(cè)量判斷中的噪聲所需要的只是一個(gè)簡(jiǎn)單的實(shí)驗(yàn),在這個(gè)實(shí)驗(yàn)中,由一些專業(yè)人員對(duì)一些實(shí)際案例進(jìn)行獨(dú)立評(píng)估。同樣,在不知道正確答案的情況下,可以觀察到判斷的分散。我們稱這種實(shí)驗(yàn)為噪聲審計(jì)。
執(zhí)行噪音審計(jì)
噪聲審計(jì)的重點(diǎn)不是要出具報(bào)告。最終目標(biāo)是提高決策質(zhì)量,只有當(dāng)部門領(lǐng)導(dǎo)準(zhǔn)備接受不愉快的結(jié)果并采取行動(dòng)時(shí),審計(jì)才能成功。如果高管們把對(duì)于噪音的審計(jì)視為自己的創(chuàng)造,那么就更容易實(shí)現(xiàn)。為此,案例應(yīng)該由受尊敬的團(tuán)隊(duì)成員編寫,并且應(yīng)該涵蓋通常遇到的問題范圍。為了使結(jié)果與每個(gè)人都相關(guān),所有單位成員都應(yīng)參加審核。一個(gè)有嚴(yán)格的行為實(shí)驗(yàn)經(jīng)驗(yàn)的社會(huì)科學(xué)家應(yīng)該監(jiān)督審計(jì)的技術(shù)方面,但審核的過程必須由專業(yè)單位完成。
最近,我們幫助兩個(gè)金融服務(wù)機(jī)構(gòu)進(jìn)行噪音審計(jì)。我們所研究的兩個(gè)小組的職責(zé)和專業(yè)知識(shí)是完全不同的,但兩者都需要對(duì)中等復(fù)雜的材料進(jìn)行評(píng)估,通常涉及數(shù)十萬美元的決策。我們?cè)趦蓚€(gè)組織中都遵循相同的協(xié)議。首先,我們要求相關(guān)專業(yè)團(tuán)隊(duì)的管理人員構(gòu)建幾個(gè)實(shí)際的案例文件進(jìn)行評(píng)估。為了防止實(shí)驗(yàn)信息泄露,當(dāng)天進(jìn)行了整個(gè)練習(xí)。員工被要求花大約半天的時(shí)間分析兩到四個(gè)案例。按照正常的工作例程,他們?yōu)槊總€(gè)案例以美元為單位進(jìn)行評(píng)估。為了避免合謀,參與者沒有被告知該研究與可靠性有關(guān)。例如,在一個(gè)組織中,目標(biāo)被描述為理解員工的專業(yè)思維,提高工具的實(shí)用性,以及改善同事之間的溝通。A組織約有70名專業(yè)人員參加,B組織約有50名。
我們?yōu)槊恳粋€(gè)案例構(gòu)建了一個(gè)噪聲指數(shù),它回答了以下問題:“兩個(gè)隨機(jī)選擇的員工的判斷有多大差異?”我們將此指數(shù)值表示為其平均值的百分比。假設(shè)兩名員工對(duì)一個(gè)案例的評(píng)估是600美元和1000美元。他們?cè)u(píng)估的平均值是800美元,他們之間的差額是400美元,所以這對(duì)人的噪音指數(shù)是50%。我們對(duì)所有員工對(duì)進(jìn)行了相同的計(jì)算,然后計(jì)算出每種情況下的總體平均噪聲指數(shù)。
對(duì)這兩個(gè)組織的高管進(jìn)行的審計(jì)前訪談表明,他們預(yù)計(jì)他們的專業(yè)人員決策之間的差異在5%到10%之間——這是他們認(rèn)為“判斷事項(xiàng)”可以接受的水平。結(jié)果令人震驚。A組6個(gè)案例的噪聲指數(shù)為34%-62%,總體平均為48%。在B組的4個(gè)案例中,噪聲指數(shù)在46%到70%之間,平均為60%。也許最令人失望的是,工作經(jīng)驗(yàn)似乎并沒有減少噪音。在工作五年或五年以上的專業(yè)人員中,A組的平均不一致率為46%,B組的平均不一致率為62%。
沒人預(yù)料到這樣的結(jié)果。但由于他們?nèi)虆⑴c這項(xiàng)研究,兩個(gè)組織的高管都接受了這樣一個(gè)結(jié)論:他們的專業(yè)人士的判斷的不可靠程度是不可容忍的。所有人都很快同意必須采取措施來控制這個(gè)問題。
因?yàn)檫@些發(fā)現(xiàn)與之前關(guān)于專業(yè)判斷可靠性低的研究是一致的,所以我們并不感到驚訝。對(duì)我們來說,最大的困惑是兩個(gè)組織都沒有將可靠性視為一個(gè)問題。
在商業(yè)世界中,噪音問題實(shí)際上是不可見的;我們觀察到,當(dāng)專業(yè)判斷的可靠性被作為一個(gè)問題提出時(shí),人們會(huì)非常驚訝。是什么阻止了公司認(rèn)識(shí)到員工的判斷是有噪音的呢?答案在于兩種常見的現(xiàn)象:經(jīng)驗(yàn)豐富的專業(yè)人士往往對(duì)自己判斷的準(zhǔn)確性有很高的信心,他們也對(duì)同事的智力有很高的評(píng)價(jià)。這種結(jié)合必然導(dǎo)致對(duì)一致性的高估。當(dāng)被問到同事會(huì)說什么時(shí),專業(yè)人士預(yù)期別人的判斷比實(shí)際情況更接近自己的判斷。當(dāng)然,大多數(shù)時(shí)候,經(jīng)驗(yàn)豐富的專業(yè)人士完全不關(guān)心別人的想法,只是假設(shè)他們的想法是最好的答案。噪音問題的不可見的一個(gè)原因是,人們不會(huì)在生活中想象他們做出的每一個(gè)判斷的合理的替代品。
別人與你的預(yù)期相符有時(shí)是合理的,尤其是在判斷已熟練得用直覺就能做出的情況下。高水平的象棋和駕駛是練習(xí)到近乎完美的任務(wù)的標(biāo)準(zhǔn)示例。觀察棋盤上情況的大師級(jí)玩家對(duì)游戲狀態(tài)的評(píng)估都非常相似,比如說,白皇后處于危險(xiǎn)之中,或者黑國(guó)王的防守薄弱。司機(jī)也是如此。如果我們不能假定我們周圍的司機(jī)在交叉口和環(huán)形交叉口共享我們對(duì)通行順序的理解,那么交通通行將極其危險(xiǎn)。在高水平的技能上很少或沒有噪音。
國(guó)際象棋和開車的技能水平在一個(gè)可預(yù)測(cè)的環(huán)境中通過多年的實(shí)踐不斷提升。在這種環(huán)境中,行動(dòng)之后會(huì)立即得到明確的反饋。不幸的是,很少有專業(yè)人士處在在這樣一個(gè)的環(huán)境中。在大多數(shù)工作中,人們通過聽經(jīng)理和同事的解釋和批評(píng)來學(xué)習(xí)判斷——這是一種比從錯(cuò)誤中學(xué)習(xí)更不可靠的知識(shí)來源。長(zhǎng)期的工作經(jīng)驗(yàn)總是增加人們對(duì)自己判斷的信心,但在缺乏快速反饋的情況下,信心既不能保證準(zhǔn)確性,也不能保證共識(shí)。
我們總結(jié)成一句格言:凡判斷必有噪音,通常比你想象的要多。一般來說,我們認(rèn)為,無論是專業(yè)人士還是他們的管理者,都不能對(duì)他們的判斷的可靠性做出很好的猜測(cè)。獲得準(zhǔn)確評(píng)估的唯一方法是進(jìn)行噪音審計(jì)。并且至少在某些情況下,這個(gè)問題會(huì)嚴(yán)重到需要采取行動(dòng)。
調(diào)低噪音
對(duì)噪音問題最根本的解決辦法是用被稱為算法的正式規(guī)則來代替人類的判斷,這些規(guī)則使用有關(guān)案例的數(shù)據(jù)來生成預(yù)測(cè)或決策。在過去的60年里,人們?cè)跀?shù)百次精確性競(jìng)賽中與算法展開了競(jìng)爭(zhēng),從預(yù)測(cè)癌癥患者的預(yù)期壽命到預(yù)測(cè)畢業(yè)生的成功率。在大約一半的研究中,算法比人類專業(yè)人員更精確,而在其他研究中,算法與人類有著大致相當(dāng)?shù)木_性。這種大致相當(dāng)?shù)木_性也應(yīng)該算作算法的勝利,因?yàn)樗叱杀拘б妗?/p>
當(dāng)然,在許多情況下,算法是不實(shí)用的。當(dāng)輸入具有特殊性或難以以一致格式編碼時(shí),規(guī)則的應(yīng)用是不可行的。對(duì)于涉及多個(gè)維度或依賴于與另一方談判的判斷或決策,算法也不太可能有用。即使在原則上有可用的算法解決方案,組織上的考慮有時(shí)也會(huì)阻止實(shí)現(xiàn)。用軟件替換現(xiàn)有員工是一個(gè)痛苦的過程,除非它能讓這些員工獲得更愉快的任務(wù),否則會(huì)遇到阻力。
但是如果條件是正確的,那么開發(fā)和實(shí)現(xiàn)算法就非常容易。通常的假設(shè)是,算法需要對(duì)大量數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析。例如,與我們交談的大多數(shù)人都認(rèn)為,要建立一個(gè)預(yù)測(cè)商業(yè)貸款違約的方程,就需要數(shù)千份貸款申請(qǐng)及其結(jié)果的數(shù)據(jù)。很少有人知道,在沒有任何結(jié)果數(shù)據(jù)的情況下,僅在少數(shù)情況下輸入信息,就可以開發(fā)出適當(dāng)?shù)乃惴?。我們稱無需結(jié)果數(shù)據(jù)的預(yù)測(cè)公式為“推理規(guī)則”,因?yàn)樗鼈兪腔诔WR(shí)推理。
推理規(guī)則的構(gòu)建從選擇一些(可能是6到8個(gè))變量開始,這些變量與所預(yù)測(cè)的結(jié)果是非常明確的相關(guān)。例如,如果結(jié)果是貸款違約,資產(chǎn)和負(fù)債肯定會(huì)包括在清單中。下一步是在預(yù)測(cè)公式中為這些變量分配相等的權(quán)重,將它們的符號(hào)設(shè)置在明顯的方向上(資產(chǎn)為正,負(fù)債為負(fù))。然后可以通過幾個(gè)簡(jiǎn)單的計(jì)算來構(gòu)造規(guī)則。
許多研究的令人驚訝的結(jié)果是,在許多情況下,推理規(guī)則與用結(jié)果數(shù)據(jù)建立的統(tǒng)計(jì)模型一樣準(zhǔn)確。標(biāo)準(zhǔn)統(tǒng)計(jì)模型結(jié)合了一組預(yù)測(cè)變量,這些預(yù)測(cè)變量根據(jù)它們與預(yù)測(cè)結(jié)果的關(guān)系以及彼此之間的關(guān)系來分配權(quán)重。然而,在許多情況下,這些權(quán)重在統(tǒng)計(jì)上都不穩(wěn)定,實(shí)際上并不重要。為所選變量分配相等權(quán)重的簡(jiǎn)單規(guī)則可能同樣有效。在人員選擇、選舉預(yù)測(cè)、足球比賽預(yù)測(cè)和其他應(yīng)用中,相等權(quán)重的變量和不依賴結(jié)果數(shù)據(jù)的算法已經(jīng)證明是成功的。
這里的底線是,如果您計(jì)劃使用一種算法來減少噪聲,那么您不需要等待結(jié)果數(shù)據(jù)。您可以通過使用常識(shí)來選擇變量和最簡(jiǎn)單的規(guī)則來獲得大部分好處。
研究表明,在決策者的角色中,算法比人類做得更好。
當(dāng)然,無論采用哪種算法,人們都必須保持最終控制。必須對(duì)算法進(jìn)行監(jiān)控和調(diào)整,以應(yīng)對(duì)各種案例的變化。管理者還必須關(guān)注個(gè)人決策,并有權(quán)在明確的情況下推翻算法。例如,如果公司發(fā)現(xiàn)申請(qǐng)人已被逮捕,批準(zhǔn)貸款的決定應(yīng)暫時(shí)撤銷。最重要的是,管理人員應(yīng)該決定如何將算法的輸出轉(zhuǎn)化為實(shí)際操作。該算法可以告訴您哪些預(yù)期貸款在所有貸款申請(qǐng)的前5%或后10%中,但必須有人決定如何處理這些信息。
算法有時(shí)被用作專業(yè)人員做出最終決定的中間信息源。一個(gè)例子是公共安全評(píng)估,一個(gè)公式——旨在幫助美國(guó)法官?zèng)Q定是否可以安全釋放被告讓他等待審判。在肯塔基州使用的前六個(gè)月,被告在審前釋放中的犯罪率下降了約15%,而已釋放的審前釋放的人所占比例有所上升。很明顯,在這種情況下,人類法官必須保留最終決定權(quán):公眾會(huì)震驚地看到一個(gè)公式的公正性。
盡管人們可能對(duì)這個(gè)想法感到不安,但研究表明,雖然人類可以為公式提供有用的輸入,但算法在最終決策者的角色中做得更好。如果避免錯(cuò)誤是唯一的標(biāo)準(zhǔn),應(yīng)強(qiáng)烈建議管理者僅在特殊情況下否決算法。
把紀(jì)律帶到判斷上來
當(dāng)專業(yè)判斷充滿噪音時(shí),應(yīng)該考慮用算法代替人工決策,但在大多數(shù)情況下,這種解決方案過于激進(jìn)或根本不切實(shí)際。另一種方法是采用程序,通過確保同一職位的員工使用類似的方法來尋求信息,將其納入案例的觀點(diǎn),并將該觀點(diǎn)轉(zhuǎn)化為決策,從而促進(jìn)一致性。對(duì)所有需要做的事情進(jìn)行全面的檢查超出了本文的范圍,但是我們可以提供一些基本的建議,重要的警告是,在判斷中逐漸灌輸紀(jì)律一點(diǎn)也不容易。
當(dāng)然,培訓(xùn)是至關(guān)重要的,但即使是在一起接受培訓(xùn)的專業(yè)人員,也傾向于以自己的方式做事。公司有時(shí)會(huì)組織圓桌會(huì)議,讓決策者聚集在圓桌會(huì)議上審查案例,以此來應(yīng)對(duì)噪音。不幸的是,大多數(shù)圓桌會(huì)議的運(yùn)行方式使得達(dá)成協(xié)議過于容易,因?yàn)閰⑴c者很快就會(huì)集中在第一個(gè)或最自信地陳述的觀點(diǎn)上。為防止這種不可靠的一致,圓桌會(huì)議的參與者應(yīng)獨(dú)立研究案例,形成他們準(zhǔn)備為之辯護(hù)的意見,并在會(huì)議前將這些意見發(fā)送給組長(zhǎng)。這樣的圓桌會(huì)議將有效地提供對(duì)噪音的審計(jì),并增加小組討論的步驟,探討意見分歧。
作為圓桌會(huì)議的替代方案或補(bǔ)充,應(yīng)向?qū)I(yè)人員提供用戶友好的工具,如清單和精心制定的問題,以指導(dǎo)他們收集有關(guān)案例的信息、進(jìn)行中間判斷和制定最終決定。在這些階段中的每一個(gè)階段都會(huì)發(fā)生不期望的變化,公司可以并且應(yīng)該測(cè)試這些工具減少了多少不期望的變化。理想情況下,使用這些工具的人會(huì)將它們視為幫助他們有效和經(jīng)濟(jì)地完成工作的輔助工具。不幸的是,我們的經(jīng)驗(yàn)表明,構(gòu)建既有效又便于用戶使用的判斷工具的任務(wù)比許多高管認(rèn)為的要困難得多??刂圃胍羰呛芾щy的,但是我們期望一個(gè)以美元進(jìn)行審計(jì)和評(píng)估噪音成本的組織會(huì)得出結(jié)論,減少隨機(jī)變化是值得的努力。
我們?cè)诒疚闹械闹饕繕?biāo)是向管理者介紹噪聲作為一個(gè)錯(cuò)誤源的概念,并解釋它是如何區(qū)別于偏見的。“偏見”一詞已經(jīng)進(jìn)入公眾意識(shí),以至于“錯(cuò)誤”和“偏見”兩個(gè)詞經(jīng)??梢曰Q使用。事實(shí)上,更好的決策不僅僅是通過減少普遍偏見(如樂觀主義)或特定的社會(huì)和認(rèn)知偏見(如對(duì)婦女的歧視或錨定效應(yīng))來實(shí)現(xiàn)的。關(guān)注準(zhǔn)確度的高管也應(yīng)該面對(duì)專業(yè)判斷中不一致的普遍存在。噪音比偏見更難被意識(shí)到,但它真實(shí)存在且會(huì)帶來不小的損失。