人類并非可靠的決策者;他們的判斷受到不相關因素嚴重影響,比如當時的情緒。我們將這種隨機變量稱為“判斷噪聲”。對很多公司的利潤而言,噪聲都是一筆隱形成本。
研究表明,在股票估價、鑒定房地產、審判罪犯、評估工作表現以及審計財務報表等很多任務中,專家的決策十分不穩定。不可避免的結論是,專業人士經常做出與自己、同事以及他們聲稱所遵循的規則大相徑庭的決策。
人們早已知道,簡單統計學算法做出的預測和決策往往比專家更準確,哪怕專家能獲得比算法更多的信息。但鮮有人知的是,算法的關鍵優勢在于沒有噪聲:與人類不同,輸入相同信息,公式得出的結果也相同。因為穩定,哪怕是簡單甚至有瑕疵的算法,也比人類專家的準確性高。
噪聲VS.偏見
當人們考慮判斷和決策中的差錯時,想到的總是社會性偏見,比如對少數族裔的成見、自負等認知偏差以及盲目樂觀。而被我們稱作“噪聲”的無用變量屬于一種不同的差錯。
為了理解兩者區別,你可以想想浴室的體重秤。如果讀數太高或太低,我們可以說,體重秤出現了偏差。如果你的體重取決于腳的位置,那么可以說體重秤有噪聲。如果體重秤的顯示總是比準確體重少4磅,那么就存在嚴重偏差,但沒有噪聲。如果兩次稱重時顯示不同的重量,那么體重秤存在噪聲。很多計量差錯既包括偏差也包括噪聲。
為了能更直觀地展示這種區別,請看下圖。圖中展示了4人團隊,每人射擊一次的打靶訓練結果。
A隊很準確:所有隊員都打中靶心,彈孔離得很近。而另3支隊伍都各有各的不準。
B隊有噪聲:彈孔在靶心四周,但彼此很分散。
C隊有偏差:彈孔都沒有擊中靶心,但彼此離得很近。
D隊既有偏差也有噪聲。
正如A隊和B隊所示,在沒有偏差時,噪聲增多常會影響準確性。當偏差存在時,噪聲增多反而可能歪打正著,比如D隊的情況。當然沒有組織愿意靠運氣取勝。噪聲通常不受歡迎,有時甚至具有災難性。
顯然,弄清員工決策時的偏差和噪聲情況,對組織幫助很大,但很難直接收集相關信息。在評估這些差錯時會出現不同問題。其中一大問題是,決策帶來的結果只有在未來才能看到(如果產生了結果的話)。比如信貸員往往要在數年后才能發現他們批準的貸款結果如何。他們幾乎從不知道自己拒絕申請者的后續情況。
“噪聲”審查
噪聲審查的意義不在于出報告,目的是提高決策質量。只有部門leader能夠接受不理想的結果,并有所行動時,審查才能成功。如果高管能將這種調查看作自己的分內事,目標更易達成。
近期,我們幫助兩家金融服務機構進行了噪聲審查。我們研究的兩個團隊擁有非常不同的職責和專業知識,但它們都需要評估較為復雜的材料,決定往往涉及數十萬美元。我們在兩家機構中都遵循了同樣規則。
首先,我們讓相關專業團隊的負責人整理出若干個現實項目的文件以供評估。為防止實驗信息外泄,整個過程在同天完成。員工被要求用半天時間分析2到4個項目。他們將按常規估算出每個項目的錢數。為防止串通,參與者不知道本調查與可靠性有關。。
我們為每個項目設計了噪聲指數,對下面這個問題做出了解答:“兩個隨機選擇的員工做出的判斷相差多大?”我們將該差異量化為他們平均值的百分比。比如兩個員工對同一項目的估值為600美元和1000美元,他們估算的平均值就是800美元,他們估值的差距是400美元,所以兩人的噪聲指數就是50%。我們用同樣方法計算了所有員工配對的估值,然后計算出了每個項目的平均噪聲指數。
審查前的訪問中,兩家機構的高管表示他們預計專業員工決策的差異在5%到10%左右——關乎判斷力,他們認為這個范圍可以接受。但結果令人震驚。A機構6個項目的噪聲指數從34%到62%不等,平均為48%。機構B的4個項目噪聲指數為46%到70%,平均為60%??赡芰钊耸氖?,工作經驗并沒有降噪的作用。在具有5年或以上工作經驗的專業員工中,平均差異為:A機構46%,B機構62%。
沒有人想到結果如此。但因為他們對該審查負責,兩個機構的高管都接受了結論:專業員工的判斷不可靠,且無法容忍其嚴重程度。所有高管很快同意,采取措施控制局面。因為審查結果與之前對專業判斷不可靠的研究結果一致,我們并未感到驚訝。我們主要困惑的是,兩個機構之前都沒有意識到可靠性的問題。
在商業世界其實幾乎沒人關注噪聲問題;我們發現,專業判斷力被作為問題提出,讓受眾很驚訝。是什么讓公司沒有意識到員工的判斷力有噪聲呢?答案能從兩個常見現象中找到:富有經驗的專業員工對自己的判斷信心足;對同事的專業水平評價也很高。這兩點加起來,導致對共識估計過高。
當被問及同事的想法時,專業員工預計,其他人的判斷和自己差不多,實際遠非如此。當然多數情況下,有經驗的專業員工不關心其他人的想法,默認自己給出的是答案。噪聲隱于無形的一個原因是,人們在生活中不會去思考他們做出每個決策的可行替換選項。
期待他人同意你的意見有時是合理的,尤其是當判斷力十分老練,成為一種本能的時候。比如,高段位的象棋手和司機經過練習,判斷可近乎。大師級棋手評判棋局,會對當前形勢給出類似的判斷,比如白方皇后有危險,或者黑方國王防守薄弱。駕駛也同理,如果我們不默認周圍的司機和我們在路口和環島做出的判斷一致,無法想象交通會有多么危險。達到高度的技術鮮有或沒有噪聲。達到象棋和駕駛的高水平技術須在可預測的環境中練習多年,做出的行動須及時和清晰的回應。
可遺憾的是,專業人士很難有這樣的行動環境。多數工作中,人們學習判斷的渠道來自上級和同事的解釋和評論——與從自己的錯誤中學習相比,可靠度大打折扣。長期工作經驗總會增加人們對判斷的自信,但如果沒有迅速反饋,自信不能保證準確或達成共識。
一言以蔽之,只要做出判斷,就會產生噪聲,而且噪聲往往比你想象得嚴重。一般來說,專業員工和他們的leader都無法準確估測出他們判斷力的可靠性。獲得準確評估的辦法是進行噪聲審查。至少在有些情況下,噪聲嚴重到了需要采取行動的地步。
降低噪音
解決噪聲根本的辦法是,以正式規則“算法”,來取代人工判斷。算法利用項目相關數據進行預測或決策。
過去60年間,人們在數百場競賽中比拼算法的準確性,競賽題目從預測癌癥病人壽命到畢業生成功率。在大約一半的研究中,算法比人類專家更準確,而在另一半研究中與人類平手。即便是平手,實際上也說明算法勝出,因為它性價比更高。
當然很多情況下,算法并不實際。當輸入數據異常,或很難形成統一形式的編碼時,規則就很難應用。如果判斷或決策涉及多層面或者需要與另一方談判,也不太適合應用算法。即使當原則上可以應用算法時,組織出于種種考慮,有時也不愿實施算法。以軟件取代現有員工的過程十分痛苦,除非被取代的員工有更享受的工作可做,不然他們會抵制算法。
但在條件合適時,開發和實施算法驚人的簡單。常見的看法是,算法需要對大量數據進行統計分析。例如,我們訪問的大多數人認為,開發預測商業貸款違約的公式,需要數千份貸款申請及其結果的數據。但很少有人知道,不需要任何結果數據,只需少量項目的輸入信息,就能開發出足夠的算法。因為基于常識性論證,我們將這種不需要結果數據的預測性公式稱為“論證規則”(reasoned rules)。
制定論證規則首先要選擇若干(約6到8個)肯定與預測結果相關的變量。如果得出結果是貸款違約,資產和負債要包括在變量中。下一步是直接在預測公式中賦予這些變量同樣權重,確定它們明顯的方向(比如資產是有利的,負債是不利的)。然后就可以通過幾種簡單計算,制定規則。
大量研究得出了驚人結論:很多情景下,論證規則與利用結果數據形成的統計模型準確性相當。標準統計模型集合預測性變量,這些變量的權重由它們與所預測結果的關系,以及變量彼此間的關系決定。然而很多情況下,這些權重統計上既不穩定,現實中也不重要。將權重平均分給所選變量的簡單規則依舊有效。為各變量平均分配權重,而且不依靠結果數據的算法在很多應用領域都被證實成功,例如人員選拔、大選預測、足球賽預測等等。
總之,如果你計劃利用算法降噪,那么不需要等待結果數據出來。利用常識選擇變量,并遵照可能的簡單規則組合變量,就能大有收獲。
當然,無論應用哪種算法,人需要掌握控制權。算法需要隨項目數量進行監督和調整。管理者還要留意個人決定,并在局勢很清晰時具有否決算法。重要的是,高管應該決定如何把算法的結果轉化為行動。算法能告訴你,所有申請中,哪些候選貸款是前5%,哪些是末10%,但需要有人決定怎么處理這些信息。
對拍板的專業員工而言,算法有時是一種信息的中間來源。例如,public safety assessment公式被開發用來幫助美法官決定在等待審判期間被告能否被保釋。在肯塔基州使用該公式的6個月內,審前釋放被告的犯罪率降低了15%,而審前釋放的人數百分比增加了。這里顯然人類法官要有決定權:如果公正交由公式決定,輿論肯定嘩然。
盡管這個建議可能令人不適,但研究顯示,人類雖然能為公式提供有用信息,但算法在決策上表現更佳。如果避免差錯是評判標準,應強烈建議管理者,只有在極其特殊情況下,才能否決算法的結論。
建立判斷規則
任何專業判斷產生噪聲時,都應考慮以算法取代人工決策。但在多數情況下,這種辦法太極端,或者不現實。替代方法之一是,采取改善一致性的流程,其手段是:保證職責相同的員工使用類似方法尋找信息,將信息整合到項目概念中,并將概念轉化為決策。
培訓無疑至關重要,但經過集體培訓的專業員工可能放任自己,自說自話。為避免類似放任,公司有時組織圓桌會議,把決策者聚在一起審查項目。遺憾的是,多數圓桌會議的組織方式過于簡單,以至于很難達成一致,因為與會者很快會一邊倒向首先提出的意見或自信發言者的意見。為防止這種“偽共識”,每名圓桌與會者都應該獨立研究項目,形成他們要辯護的意見,然后在會議前就把意見提交給團隊leader。這樣的圓桌會議才能有效提供噪聲審查,還可以增添小組討論環節,讓大家探討不同意見。
作為圓桌會議的替代或補充選項,應該給專業員工提供方便使用的工具,比如清單和仔細設計的問題,以便指導他們收集項目信息,做出中間判斷,并做出決定。每一階段中都會發生的變數,公司能夠也應該測試出工具能降噪的程度。
如今,公眾對“偏差”這個術語的了解程度,還停留在認為它和“差錯”能夠互換。而“噪聲”比偏差還要難理解得多,但并不鮮見,企業為之付出的代價也不會更少。(劉錚箏 |譯 王晨 |校 鈕鍵軍 |編輯)
丹尼爾 ·卡內曼是普林斯頓大學尤金 ·希金斯心理學榮譽退休教授。他因與阿莫斯 ·特沃斯基(Amos Tversky)合著關于認知偏差的研究,在2002 年獲得諾貝爾經濟學獎。安德魯 ·羅森菲爾德是The Greatest Good Group(TGG集團)CEO 和執行合伙人。琳娜 ·甘迪和湯姆 ·布萊澤是TGG 集團董事總經理。