作者:丹尼爾.康納曼(Daniel Kahneman)、奧利維.席波尼(Olivier Sibony)、凱斯.桑思汀(Cass R. Sunstein)
譯者:廖月娟、周宜芳
出版社:遠見天下文化
「在充滿雜訊的系統裡,錯誤不會互相抵消,只會相加。」
◆◆◆
「雜訊就像地下室漏水一樣。我們會容忍這個問題不是因為這是可以接受的,而是因為一直沒有注意到這個問題的存在。」
◆◆◆
「意見分歧讓人不安。大多數的組織偏好共識與和諧,討厭異議和衝突。」
「對錯誤判斷輕易達成共識,可能會強化意見一致的錯覺。」
📝 為了不要彼此對立,可能會互相妥協意見不同之處。
◆◆◆
「從減少雜訊的角度來看,單一決策就像是只發生一次的重複決策。不管你的決策只做一次,或是做一百次,都該以減少偏誤和雜訊為目標。減少錯誤的做法,對獨一無二的決策及重複決策應該同樣有效。」
◆◆◆
「造就你今天的個人經驗與你現在的決定沒有什麼關係。」
◆◆◆
「判斷可以被描述為由人的頭腦作為儀器的一種測量。測量的概念隱含追求準確的目的:盡可能接近真實數值,而且把錯誤降到最低。判斷的目的不是為了給人留下印象、不是為了表態,也不是為了說服別人。請注意,這裡提到的判斷,概念是源於專業心理學的文獻,概念是源於專業心理學的文獻,意義要比日常語言中的判斷來得狹隘。判斷也不是思維的同義詞,做出準確的判斷不等於擁有良好的判斷力。」
◆◆◆
「請注意:本書所用的預測一詞並不是指預測未來,我們認為,醫師對某種病症的診斷就是一種預測。」
📝 推測?
◆◆◆
「為重刑犯量刑不是預測,而是一種評估性判斷(evaluative judgment),目的在使刑罰與罪行的嚴重程度相符。」
📝 評估性判斷:替學生打分數、競賽的評審等等。
◆◆◆
「如果我們要求所有的預測者估計下一季的銷售金額,其預測值分散的情況就是雜訊。」
◆◆◆
「從多個求職者當中做出選擇,只是表現你的好惡,而不是嚴肅的判斷。」
◆◆◆
「標準差代表一組數值與平均值的差異。」
◆◆◆
「你的直覺或許偏好平均值,這樣的直覺是正確的。平均值包含較多的訊息,會受到數字大小的影響,而中位數則只受到順序的影響。」
◆◆◆
「以總體誤差而言,雜訊和偏誤是獨立的:不管偏誤有多少,減少雜訊的好處都是一樣的。」
◆◆◆
「以測量長度為例,把誤差從11公分減少為10公分,與把1公分的誤差減少到零誤差相比,前者的成效是後者的21倍。不幸的是,我們的直覺卻幾乎剛好相反:我們熱衷於追求零誤差,對小誤差非常敏感,但幾乎完全不在乎兩個大誤差的差異。」
◆◆◆
「預測和估計的目標就是在準確度(accuracy)最高(偏誤最小)和精確度(precision)最高(雜訊最小)下接近真正的數值。然而,誤差方程式並不適用於評估性判斷,因為誤差的概念取決於真正數值的存在,因此很難運用在評估性判斷上。此外,即使能明確指出誤差是多少,它們的代價很少是成比例的,而且不大可能與誤差的平方成正比。」 「如果是短暫性影響引起的變異,我們稱為場合雜訊。」
◆◆◆
「系統雜訊是指多人對同一個案件的判斷出現令人討厭的變異性。」
◆◆◆
「水準雜訊就是不同法官呈現出不同的嚴厲程度。型態雜訊是指不同法官對某一個被告更嚴厲或更寬容而出現意見分歧的狀況。」
◆◆◆
「何索和赫維格的結論是,決策者最後只要在兩個做法之間做選擇:如果你可以從別人那裡得到意見,那就去做,因為真正的群眾智慧能大幅增進你的判斷;如果無法得到別人的意見,那就自己進行第二次判斷,創造『內心中的群體』。你可以給自己一段時間和最初的想法保持距離,或是積極的跟自己辯論,設法從另一個角度來看問題。最後,不管你用的是哪一種群體,除非你有非常好的理由非得側重其中一個估計值,否則最好還是把這些估計值取平均值。」
◆◆◆
「先睡一覺,明天再說。」
◆◆◆
「心理學家高登.潘尼庫(Gordon Pennycook)等人曾進行很多研究,看受試者對無意義的廢話或看似意義深遠的廢話有何反應。他們從心靈大師的語錄隨機抽選一些名詞和動詞來組合成文法正確的句子,例如:『完整性平息了無窮的現象』或『隱藏的意義轉化了無與倫比的抽象美』。如果受試者傾向贊同這種語句,就具有所謂『廢話感受性』的特質。(自從普林斯頓大學哲學家哈利.法蘭克福〔Harry Frankfurt〕出版《論廢話》〔On Bullshit〕這本有洞見的著作以來,廢話一詞已成為專門術語。作者在書中區分廢話、說謊等虛偽陳述。)
當然,有些人比較容易接受廢話。他們會被一些『聽起來似乎很有道理的話打動,以為這樣的陳述是正確、有意義的,但其實這些不過是空洞的廢話。』然而,這種容易受騙的特質並非永遠不變。如果你讓一個人心情好,他就會比較容易相信廢話、容易上當;他們不太容易察覺到被人欺騙,也比較不會識別具誤導性的訊息。反之,目擊證人在心情不好的時候,比較不會被誤導性的訊息牽著鼻子走,也會避免做偽證。」
「一個人的情緒出現變化時(當然,這是你可以意識到的),認知機制的一些特徵也會跟著改變(這就不是你可以完全意識到的)。如果有個複雜的判斷問題擺在你面前,你當下的情緒可能會影響你處理問題的方式與結論,即使你認為自己的情緒沒有這樣的影響,甚至能自信說明你的答案是正確的。簡而言之,你的內心充滿雜訊。」
◆◆◆
「專業人員依序做出一連串的決策,如法官、貸款專員、棒球裁判等,都傾向恢復某種形式的平衡:如果已經做了好幾個結果相同的決定,接下來就可能做出反方向的決定,不管這樣的裁定是否真的合理。因此,錯誤(與不公平)是無可避免的。例如,美國移民法庭的法官在審理庇護案件時,如果前兩個案子都批准了,下一個申請者過關的機率則會減少19%。又如一個人向銀行申請貸款,前兩個申請者都被拒絕,此人就可能被核准,但是前兩個申請者都通過的話,同一個人就可能被拒絕。這種行為反映一種被稱為賭徒謬誤(gambler's fallacy)的認知偏誤,指的是我們往往低估一連串好事與壞事會隨機發生的機率。」
◆◆◆
「如果你拿一個問題去問一大群人,平均答案有可能最接近目標。總合的判斷可能是減少雜訊、進而減少誤差的絕佳方法。但是如果一個群體裡的人都聽從別人的意見呢?你或許會以為他們這麼做可能是有幫助的。畢竟,他們可以互相學習,看怎麼做才是對的。在有利的情況下,人們會分享自己知道的事,如審議小組就可能做得很好。但群眾智慧的前提是獨立思考。如果人們不能自己做判斷,都是依賴別人的想法,群體就不見得是明智的。」
「諷刺的是,多項獨立意見妥善的總合起來,有可能達到驚人的準確度,不過即使只有一點點社會影響,都可能會產生一種羊群效應,破壞群體的智慧。」
「抱持相同意見的人愈來愈多時,跟他們意見一致依然是聰明的。儘管如此,還是有兩個問題。首先,我們往往會忽略在群體中大多數人也在資訊瀑布之中,而且他們並不是獨立在做判斷。我們看到三個人、十個人或二十個人擁護某個結論時,其實他們只是跟隨前面的人的意見,我們卻低估這種情況。我們或許會認為,他們的共識反映出集體智慧,但事實上只是反映少數人最初的觀點。」
◆◆◆
「多元迴歸的一個重要特徵是,每個預測因子的最佳權重取決於其他預測因子。如果一個預測因子與另一個預測因子相關性很高,就不該獲得同樣大的權重,因為這會形成『重複計算』。」
◆◆◆
「只要進行預測性判斷,就會出現效度錯覺,因為我們常常無法區分預測任務的兩個階段:根據已有的證據來評估個案,以及預測實際結果。你可能常對自己評估哪個人選看起來比較好深具信心,但是猜中誰真正比較好完全是另一回事。例如,你說娜塔莉看起來比莫妮卡來得強,這麼說固然沒錯,但是如果你說,跟莫妮卡相比,娜塔莉將會是個更成功的主管,這就不一定對了。原因很簡單:你在評估這兩個人的時候,已經掌握很多應該知道的資訊,但是未來充滿不確定性。」
◆◆◆
「簡單的機器規則通常優於人類判斷。」
「用你的模型來取代你可以完成兩件事:一是消除你那微妙的考量,進而消除你的型態雜訊。判斷的模型要比判斷者來得準確,這個強大的發現傳達一項重要的訊息:人類判斷的微妙規則有好處,但就算這些好處存在,仍不足以彌補雜訊帶來的不利影響。你也許認為你的思維比較微妙、更有洞察力、更精微,哪裡是一個簡單模型能夠比擬的。但實際上,你有很多的雜訊。」
「在面臨困難的問題時,機械式的依照一條簡單的規則來預測(馬丁.余和康瑟爾稱為『無心的一致』〔mindless consistency〕)可以大幅增進判斷的品質,這說明雜訊對臨床預測的效度有很大的影響。」
◆◆◆
「人們經常願意給演算法一個機會,然而一旦看到演算法出錯,就不再相信它了。從某個層面來看,這種反應似乎是明智的:為什麼要用一個你不相信的演算法?作為人類,我們心知肚明,我們會犯錯,但這是一種特權,我們不打算把這樣的特權分享給別人。我們預期機器是完美的。要是這個期望落空了,那就丟掉它們吧!」
「演算法當然會出錯。如果人類在進行判斷時錯誤更多,那我們該相信誰?」
「既然我們缺乏預測結果所需的數據,何不利用相等權重模型?這種模型的效果幾乎和最適模型一樣好,而且肯定要比人類視情況而定的判斷要來得好。」
「相同權重的公式稱為非最適線性模型(improper linear model)。」
「如果樣本中有些經理人擁有高度的技術技能,而這些經理人也因為不相關的原因表現得特別好,那麼這個模型就會誇大技術技能的權重。」
📝 認為是技術技能導致優異表現,但其實可能是某個「不相關原因」促發優異的表現,一旦這個「不相關原因」消失了,優異的表現可能就會降低,但模型已經認定技能→優異表現的關係了,於是加重的技能的重要性(權重)。
「要正確衡量一個模型的預測準確度,要看這個模型在新樣本中的表現,也就是其交叉驗證相關性(cross-validated correlation)。」
📝 把前段的模型拿來套用在其他資料庫,確認其權重分配是否一依然適當。
「如果原始樣本很小,經過交叉驗證後,準確度會減少更多,因為在小樣本中,偶然因素的影響會更大。(中略)相等權重模型很好,因為這樣的模型不會受到抽樣的偶然事件影響。(中略)即使你沒有先前的數據來試著預測,只要有一組你相信與結果相關的預測因子,你也能做出有效的統計預測。」
◆◆◆
「兩個以上有相關性的預測因子組合起來的預測性,並不比個別的單一預測因子好多少。因為在現實生活中,預測因子總是彼此相關,這項統計結果支持我們利用包含少數預測因子的節約模型來做預測。在某些情況下,相較於利用多個預測因子建立模型來預測,利用幾乎不用怎麼計算的簡單規則,就能產生讓人眼睛一亮的準確預測。」
◆◆◆
「在使用簡單模型時,斷腿原則為決策者上了重要的一課:這會讓他們知道,何時該推翻模型,何時則萬萬不可。如果你握有模型無法納入考量的關鍵訊息,也就是真正的「斷腿」,你就應該推翻模型的建議。反之,即使你沒掌握這樣的訊息,有時候也會不同意模型的建議。在這樣的情況下,你想推翻模型的想法反映出你在面對相同的預測因子時採用的個人型態。由於這種個人型態很可能有損無益,你應該抑制推翻模型的意念;你的干預很可能只會降低預測的準確度。」
◆◆◆
「過去因為種族歧視而被逮捕的次數作為預測因子,那麼得出的演算法也會有歧視的問題。雖然這種歧視原則上肯定是一種風險,但就重要層面而言,演算法的種族偏見要比法官來得輕微。」◆◆◆
「棘手的不確定性(不可能得知的事情)與訊息的不完整(事情可以得知但沒得到的事情)會使完美的預測變得不可能。這些未知數不是偏誤的問題,也不是判斷中的雜訊問題,而是任務的客觀特徵。客觀上對重要未知事件的無知,會大幅限制可以達到的準確性。」
◆◆◆
「泰特洛克的發現顯示,要詳細預測某一個事件的長期進展根本是不可能的。這個世界非常混亂,即使是很小的事件也可能帶來重大衝擊,如受孕的那一瞬間。」
◆◆◆
「儘管模型的表現始終比人類來得好,但其實也好不了多少。基本上,在持有相同的資訊下,沒有人類做得非常差、但模型卻表現得十分出色的例子。」
◆◆◆
「預測性的天花板就是那麼低,不是模型能夠改變的。」
◆◆◆
「人們常把主觀的信心誤認為預測效力的指標。」
📝 因為自我感覺很良好,所以誤以為事情真的就如自己所想的那樣好。
◆◆◆
「相信自己有能力達到不可能達成的高預測準確率,這樣的人不只是過度自信,不只是否認自己的判斷中有雜訊和偏誤,也不只是認為自己要比其他人來得優秀,他們相信那些不可能預測的事件是可以預測的,也就是否認不確定性的現實。用我們在這裡使用的術語來說,這種態度相當於否認自己的無知。」
◆◆◆
「要放棄直覺確定性的情感回饋並不容易。這也就是為何領導人表示,他們在高度不確性的情況下特別容易訴諸直覺決策。當他們無法透過事實得到理解與渴求的信心時,他們就會轉向直覺。在無知十分巨大的情況下,否認自己的無知就更具吸引力了。」
◆◆◆
「如果你發現有一個結果被描述為『具有顯著性』,不該認為這個結果具有強大的效應。其實,這只是意味這樣的結果不大可能是偶然的產物。如果樣本夠大,相關性可能非常『顯著』,也可能因為太小而不值得討論。」
◆◆◆
「了解就是描述一種因果關係。至於預測能力則是衡量能否確實辨識這種因果關係。而相關性,即預測準確性的衡量,則是量測有多少因果關係是我們能夠解釋的。」
◆◆◆
「雖然相關性不代表因果關係,不過因果關係確實隱含相關性。」
◆◆◆
「對因果思維的偏好也會導致我們忽視雜訊是誤差的來源,因為雜訊基本上來說就是統計學的概念。」
◆◆◆
「選擇適當的量表是良好判斷的先決條件,定義不清或不適當的量表,都是雜訊的重要源頭。」
◆◆◆
「人在被問到一個困難問題時,會採用簡化的思考方式,稱之為捷思法。」
📝 奧砍剃刀原則不一定適用所有情況。
◆◆◆
「……以容易浮現腦海所形成的事件印象,來取代頻率的判斷。理論上,對風險的判斷應該以長期平均值為依據。但實際上,由於近期發生的事件更容易浮現腦海,所以會得到更多權重。以回想事件難易程度的判斷取代頻率的判斷,就是所謂的可得性捷思法(availability heuristic)。」
◆◆◆
「外部觀點(outside view):採取這個觀點時,你會把那個學生或是甘巴迪看成一個相似案例類型裡的一員。你從統計觀點思考這個類型,而不只是隨意去思考關注的焦點個案。」
◆◆◆
「過度追求連貫性(excessive coherence):我們要自圓其說來建構一致性的印象很快,但是要改變這些印象卻很慢。」
◆◆◆
「只有一種用法我們強烈反對,那就是把代價高昂的失敗歸因於不明確的『偏誤』,而在承認犯錯的同時,保證『努力減少我們決策裡的偏誤』。這些陳述除了表示『錯誤已經造成』,還有『我們會努力做得更好』之外,別無其他意義。沒錯,有些失敗真的是由可以預知的錯誤所引起,而這些錯誤與具體的心理偏誤有關。我們也相信,判斷與決策的偏誤(和雜訊)可以經由干預措施而減少。但是把每個不理想的結果都怪到『偏誤』上是毫無價值的解釋。我們建議,把偏誤一詞保留給具體、而且能夠辨識的錯誤,以及產生錯誤的機制。」
◆◆◆
「判斷捷思法的理論認為,人有時候會用一個簡單問題的答案來回答一個困難的問題。所以,下面哪一個問題比較容易回答:『比爾與一個典型的業餘爵士樂手有多相似?』,還是『比爾是業餘爵士樂手的機率有多大?』大多數人應該都會同意,相似度問題比較簡單,所以在被問到機率問題時,大家可能就會把它當成相似度問題來回答。」「用一個問題替代另一個問題會引發可預測的錯誤,稱之為心理偏誤。」
◆◆◆
「由於確認偏誤(confirmation bias)和期許偏誤(desirability bias)使然,我們會選擇性的蒐集、解讀證據,以偏袒我們已經相信為真(確認偏誤)或是希望為真(期許偏誤)的判斷。」
◆◆◆
「我們提議以外部觀點作為各種直覺預測的修正工具。」「採取外部觀點意味著以平均結果作為預測的定錨點。」「用相關的基本率做為作為定錨點(新科執行長在位兩年的成功機率)。」而不是個案的個人特質或經歷。「只有非常容易的問題,而且可獲得的資訊支持一個有十足把握的預測時,才可以忽略外部觀點。做嚴肅的判斷時,解決方案必須納入外部觀點。」
◆◆◆
「法律明文禁止向陪審團傳達其他案件懲罰性賠償規模的訊息。這項法規所隱含的假設是,陪審員的正義感會引導他們,直接根據對犯行的考量做出正確的懲罰。這個假設在心理學上是無稽之談,它所假定的能力是人類並不具備的能力。司法體制應該要承認執法人員的局限。」
📝 陪審員在沒有參考的情況下只能隨便憑感覺挑數字。
◆◆◆
「第一,量表的選擇對於判斷的雜訊量會造成非常大的差異,因為模糊的量表有雜訊。第二,如果可行,以相對判斷取代絕對判斷有可能降低雜訊。」
誤差的拆解結構:
1. 誤差可以拆解為偏誤和系統雜訊。
2. 系統雜訊可以拆解為水準雜訊和型態雜訊。
3. 型態雜訊可以拆解為穩定型態雜訊和場合雜訊。
◆◆◆
「為判斷找理由比為事件找原因容易。我們永遠可以幫判斷者想出背後的動機。如果那樣還不夠,我們可以怪罪於他們的無能。」
◆◆◆
「我們可以不費吹灰之力就為觀察到的事件想出原因,但是要從統計角度思考事件,必須經過學習,而且還要費盡九牛二虎之力。因果是自然;統計是困難。」
◆◆◆
「如果你會避免閱讀爆雷的影評,你可能具備高度認知需求;在認知需求量表得分低的人則喜歡爆雷的故事。」註:Judith E. Rosenbaum and Benjamin K. Johnson, “Who's Afraid of Spoilers? Need for Cognition, Need for Affect, and Narrative Selection and Enjoyment,” Psychology of Popular Media Culture 5, no. 3 (2016): 273-289.
◆◆◆
「具備主動開放心態的人認同『容許自己被相反的論點說服,是良好品格的象徵。』的陳述,他們不同意『改變想法是軟弱的表現』這種論點,也不認為『直覺是做決策最好的指引』。」
◆◆◆
「雖然沒有單一標準或量表能全面用來預測判斷品質,你還是應該尋找一種人,他們會主動搜尋可能違背自己先前信念的新資訊,有方法把新資訊與目前的觀點進行整合,而且願意、甚至渴望因此改變想法。」
◆◆◆
「我們稱這種減少雜訊的方法為決策保健。洗手時,你不一定知道究竟在避免哪一種細菌,你只知道,洗手是預防多種細菌的好方法(尤其是在疫情大流行期間,但不只限於這個狀況)。」
◆◆◆
「一般人通常認為是精確科學的指紋辨識,其實會受到檢測人員心理偏誤的影響。」「倫敦大學認知神經科學研究人員艾提爾.卓爾(Itiel Dror)率先著手研究這個問題。」
「卓爾表示:『如果專家因為自身的不一致而不可靠,那麼他們的判斷和專業所立足的基礎就有問題。』」
「在卓爾的研究裡,有一些勇敢、心胸開放的專家同意在接下來五年內的任何時間,他們都願意在不知情的狀況下參與研究。」「在這些條件之下,如果鑑識人員的判斷會因為檢測而變動,那就表示場合雜訊與我們同在。」
「卓爾在最初的兩個研究裡加了一個重要的變化。第二次看到指紋時,有些鑑識人員會額外得知可能引發偏誤的相關案件資訊。例如,之前認為指紋相符的鑑識人員,在這一次會被告知,『嫌犯有不在場證明』,或是『槍枝跡證顯示嫌犯不是他』。第一次認為嫌犯是無辜或指紋無法確認的鑑識人員,則會被告知『警探相信嫌犯有罪』、『有目擊者指認他』,或是『他坦承犯罪』。卓爾把這項實驗稱為專家的『可偏誤性』測試,因為提供的背景資訊會觸發特定方向的心理偏誤(確認偏誤)。」
「在二十四個決策中,有四個決策因為偏誤效果的資訊而改變。沒錯,他們的決策大部分都沒有改變,但是以這類決策而言,六分之一的變化可視為重大。」「令人擔憂的是,『指紋鑑識專家是根據背景脈絡為基礎做出決定,而不是從指紋所包含的實際資訊做決定。』」
「只有指紋相符的案例會進行獨立驗證。由於負責驗證的鑑識人員知道最初的結論是指紋相符,因而有高度的確認偏誤風險。」
「最可信的資料來源是唯一發表過關於指紋辨識準確度的大型研究,這是2011年由FBI科學家進行的研究。研究涵蓋169位鑑識人員,每位都比對大約100組潛在指紋與標本指紋。它最重要的發現是,指紋相符辨識錯誤的情況非常少發生:偽陽率大約是六百分之一。」「六百分之一的錯誤率很低,但是就像報告指出的,它還是『遠遠高於一般大眾(延伸來說,還有大部分陪審員)根據長久以來對指紋分析精確度說法的信任程度。』」
「不過,有一項讓人安心的發現是,這些研究的結果似乎都一致認為,鑑識人員看起來都寧可謹慎,也不要犯錯。他們的正確率不是百分之百,但是他們了解自己的判斷影響重大,因此會考慮到潛在的錯誤不對稱的代價。由於指紋鑑識有非常高的公信力,因此錯誤的指紋相符結論可能會釀成悲劇。」
「觀察到鑑識科學裡存有雜訊,不應該視為對鑑識科學家的批評。這只是我們不斷觀察得到的結果:只要有判斷,就會有雜訊,而且雜訊比你想像的要來得多。像是指紋分析這樣的工作看似如此客觀,以致於許多人不會自發的認為它也是一種判斷。」
◆◆◆
「愈多資訊不一定愈好,尤其是資訊可能導致判斷者形成言之過早的直覺,而讓判斷出現偏誤。」
📝 先入為主的想法會影響後續的判斷。
「鑑識人員應該在每一個步驟記錄他們的判斷,他們應該先記錄對潛在指紋的分析,然後才檢視標本指紋,決定兩者是否相符。這些步驟的順序有助於專家避免風險,不會只看到他們要尋找的東西,而且他們應該在接觸到有可能造成偏誤的背景資訊之前,就記錄下對證據的判斷。如果他們在接觸背景資訊之後改變想法,那麼這些改變與改變的理由,也都應該列入紀錄。這項要求縮限了早期直覺造成整個流程發生偏誤的風險。」
◆◆◆
「有雜訊的群體所產生的平均值,準確度高於意見全體一致的群體所產生的平均值。」
◆◆◆
「他們並非對一個地理政治上的大問題做整體判斷(一個國家是否會脫離歐盟、某個地方是否會爆發戰爭、某位政府官員是否會遇刺等),而是把它分解成各個部分。他們會問:『如果答案是肯定的,需要什麼條件?如果答案是否定的,又需要什麼條件?』他們的答案並非出自某個內心的聲音或某種概括的直覺,他們會提問,並嘗試回答各種附屬的問題。」
「超級預測者會系統性的尋找基本率。」「根據他們讀到的新聞和分析,他們對事件或許有些直覺看法。但是他們知道,他們對事件的直覺通常不是好的指引。」
◆◆◆
「嘗試、失敗、分析、調整、再次嘗試。」
◆◆◆
「超級預測者的成功或許要歸功於他們減少評量錯誤的卓越紀律,而不是對新聞的敏銳解讀。」
◆◆◆
阿普嘉評分:「診斷指引能成功減少雜訊是因為它們把一個複雜的判斷分解成許多較為簡單的子判斷,而且以預先定義的衡量面向作為判斷依據。」
◆◆◆
「我們已經看到,光環效應意味著,理應分開考量的面向,事實上不會得到個別單獨的處理。在頭幾個問題強烈的正面或負面評估,通常會把後續問題的答案推往同一個方向。」
◆◆◆
「排序的雜訊還是比評等的雜訊更少。」
📝 人類較擅長比較,而不是決定客觀數值。
◆◆◆
「把複雜判斷結構化。結構化這個詞可能有很多意義。在這裡,我們說的是,一個結構化複雜判斷要符合三個原則:分解、獨立性,以及延遲做出整體判斷。」
1. 分解的作用就像路線圖,具體指明需要哪些資料。它能過濾掉不相關的資訊。
2. 各項評估資訊的蒐集必須獨立進行。
3. 延遲做出整體判斷,一言以蔽之就是:不要排除直覺,但是要延遲運用直覺的時間。
◆◆◆
「特別是在重要決策上,人們會拒絕那些綁住手腳、不讓他們運用自身判斷力的方案。」
◆◆◆
「只要訓練用的資料有偏誤,就相當有可能設計出把歧視編寫進去的演算法,無論這是出於有心或是無意。確實,以此而言,演算法可能更糟糕:由於它們會消除雜訊,因此會比人類判斷有更嚴重的偏誤。」
◆◆◆
「如果演算法犯的錯比人類專家還少,而我們卻在直覺上偏好人類,那麼我們應該仔細審視我們的直覺偏好。」
◆◆◆
「一個受到規定約束的制度或許能消除雜訊,那很好,但是它或許也會凍結現存的規範和價值,這就沒那麼好。」「不管任何情況,雜訊減少措施不一定、也不應該是恆常不變的。」
📝 與時俱進。
◆◆◆
「規定意在消除採納者的裁量空間;準則則是賦予這種裁量權。」「『每天早晚服用一顆』,這是規定;『視需要服用』,這是準則。」
◆◆◆
「水準雜訊是指不同個體平均判斷的變異。判斷尺度的模糊性就是水準雜訊的一個來源。」「型態雜訊的主要來源是穩定的:這是不同法官因為個人特質而對同個案件有判決差異。」
◆◆◆
「要有統計思維,並用外部觀點來看待案件。」「預設的思維模式是把焦點完全放在手頭的案子上,然後把案件嵌入因果故事中。如果我們利用自己的獨特經驗,形成對案子的獨特看法,結果就是型態雜訊。」
◆◆◆
「中介評估法把一個複雜的判斷分解為多個基於事實的評估,旨在確保每一個評估都是獨立的,不受其他評估影響。儘可能把評估項目分別指派給不同的團隊,並盡量減少他們之間的溝通,以保持其獨立性。」例:產科的阿普嘉新生兒評分。