2024年6月26日 星期三

雜訊:人類判斷的缺陷


作者:丹尼爾.康納曼(Daniel Kahneman)、奧利維.席波尼(Olivier Sibony)、凱斯.桑思汀(Cass R. Sunstein)
譯者:廖月娟、周宜芳
出版社:遠見天下文化


「在充滿雜訊的系統裡,錯誤不會互相抵消,只會相加。」

◆◆◆

雜訊就像地下室漏水一樣。我們會容忍這個問題不是因為這是可以接受的,而是因為一直沒有注意到這個問題的存在。」

◆◆◆

「意見分歧讓人不安。大多數的組織偏好共識與和諧,討厭異議和衝突。」
「對錯誤判斷輕易達成共識,可能會強化意見一致的錯覺。」

📝 為了不要彼此對立,可能會互相妥協意見不同之處。

◆◆◆

「從減少雜訊的角度來看,單一決策就像是只發生一次的重複決策。不管你的決策只做一次,或是做一百次,都該以減少偏誤和雜訊為目標。減少錯誤的做法,對獨一無二的決策及重複決策應該同樣有效。」

◆◆◆

「造就你今天的個人經驗與你現在的決定沒有什麼關係。」

◆◆◆

判斷可以被描述為由人的頭腦作為儀器的一種測量。測量的概念隱含追求準確的目的:盡可能接近真實數值,而且把錯誤降到最低。判斷的目的不是為了給人留下印象、不是為了表態,也不是為了說服別人。請注意,這裡提到的判斷,概念是源於專業心理學的文獻,概念是源於專業心理學的文獻,意義要比日常語言中的判斷來得狹隘。判斷也不是思維的同義詞,做出準確的判斷不等於擁有良好的判斷力。」

◆◆◆

「請注意:本書所用的預測一詞並不是指預測未來,我們認為,醫師對某種病症的診斷就是一種預測。」

📝 推測?

◆◆◆

「為重刑犯量刑不是預測,而是一種評估性判斷(evaluative judgment),目的在使刑罰與罪行的嚴重程度相符。」

📝 評估性判斷:替學生打分數、競賽的評審等等。

◆◆◆

「如果我們要求所有的預測者估計下一季的銷售金額,其預測值分散的情況就是雜訊。」

◆◆◆

「從多個求職者當中做出選擇,只是表現你的好惡,而不是嚴肅的判斷。」

◆◆◆

「標準差代表一組數值與平均值的差異。」

◆◆◆

「你的直覺或許偏好平均值,這樣的直覺是正確的。平均值包含較多的訊息,會受到數字大小的影響,而中位數則只受到順序的影響。」

◆◆◆

「以總體誤差而言,雜訊和偏誤是獨立的:不管偏誤有多少,減少雜訊的好處都是一樣的。」

◆◆◆

「以測量長度為例,把誤差從11公分減少為10公分,與把1公分的誤差減少到零誤差相比,前者的成效是後者的21倍。不幸的是,我們的直覺卻幾乎剛好相反:我們熱衷於追求零誤差,對小誤差非常敏感,但幾乎完全不在乎兩個大誤差的差異。」

◆◆◆

「預測和估計的目標就是在準確度(accuracy)最高(偏誤最小)和精確度(precision)最高(雜訊最小)下接近真正的數值。然而,誤差方程式並不適用於評估性判斷,因為誤差的概念取決於真正數值的存在,因此很難運用在評估性判斷上。此外,即使能明確指出誤差是多少,它們的代價很少是成比例的,而且不大可能與誤差的平方成正比。」 「如果是短暫性影響引起的變異,我們稱為場合雜訊。」

◆◆◆

系統雜訊是指多人對同一個案件的判斷出現令人討厭的變異性。」

◆◆◆

水準雜訊就是不同法官呈現出不同的嚴厲程度。型態雜訊是指不同法官對某一個被告更嚴厲或更寬容而出現意見分歧的狀況。」

◆◆◆

「何索和赫維格的結論是,決策者最後只要在兩個做法之間做選擇:如果你可以從別人那裡得到意見,那就去做,因為真正的群眾智慧能大幅增進你的判斷;如果無法得到別人的意見,那就自己進行第二次判斷,創造『內心中的群體』。你可以給自己一段時間和最初的想法保持距離,或是積極的跟自己辯論,設法從另一個角度來看問題。最後,不管你用的是哪一種群體,除非你有非常好的理由非得側重其中一個估計值,否則最好還是把這些估計值取平均值。」

◆◆◆

「先睡一覺,明天再說。」

◆◆◆

「心理學家高登.潘尼庫(Gordon Pennycook)等人曾進行很多研究,看受試者對無意義的廢話或看似意義深遠的廢話有何反應。他們從心靈大師的語錄隨機抽選一些名詞和動詞來組合成文法正確的句子,例如:『完整性平息了無窮的現象』或『隱藏的意義轉化了無與倫比的抽象美』。如果受試者傾向贊同這種語句,就具有所謂『廢話感受性』的特質。(自從普林斯頓大學哲學家哈利.法蘭克福〔Harry Frankfurt〕出版《論廢話》〔On Bullshit〕這本有洞見的著作以來,廢話一詞已成為專門術語。作者在書中區分廢話、說謊等虛偽陳述。)

當然,有些人比較容易接受廢話。他們會被一些『聽起來似乎很有道理的話打動,以為這樣的陳述是正確、有意義的,但其實這些不過是空洞的廢話。』然而,這種容易受騙的特質並非永遠不變。如果你讓一個人心情好,他就會比較容易相信廢話、容易上當;他們不太容易察覺到被人欺騙,也比較不會識別具誤導性的訊息。反之,目擊證人在心情不好的時候,比較不會被誤導性的訊息牽著鼻子走,也會避免做偽證。」

「一個人的情緒出現變化時(當然,這是你可以意識到的),認知機制的一些特徵也會跟著改變(這就不是你可以完全意識到的)。如果有個複雜的判斷問題擺在你面前,你當下的情緒可能會影響你處理問題的方式與結論,即使你認為自己的情緒沒有這樣的影響,甚至能自信說明你的答案是正確的。簡而言之,你的內心充滿雜訊。」

◆◆◆

「專業人員依序做出一連串的決策,如法官、貸款專員、棒球裁判等,都傾向恢復某種形式的平衡:如果已經做了好幾個結果相同的決定,接下來就可能做出反方向的決定,不管這樣的裁定是否真的合理。因此,錯誤(與不公平)是無可避免的。例如,美國移民法庭的法官在審理庇護案件時,如果前兩個案子都批准了,下一個申請者過關的機率則會減少19%。又如一個人向銀行申請貸款,前兩個申請者都被拒絕,此人就可能被核准,但是前兩個申請者都通過的話,同一個人就可能被拒絕。這種行為反映一種被稱為賭徒謬誤(gambler's fallacy)的認知偏誤,指的是我們往往低估一連串好事與壞事會隨機發生的機率。」

◆◆◆

「如果你拿一個問題去問一大群人,平均答案有可能最接近目標。總合的判斷可能是減少雜訊、進而減少誤差的絕佳方法。但是如果一個群體裡的人都聽從別人的意見呢?你或許會以為他們這麼做可能是有幫助的。畢竟,他們可以互相學習,看怎麼做才是對的。在有利的情況下,人們會分享自己知道的事,如審議小組就可能做得很好。但群眾智慧的前提是獨立思考。如果人們不能自己做判斷,都是依賴別人的想法,群體就不見得是明智的。」

「諷刺的是,多項獨立意見妥善的總合起來,有可能達到驚人的準確度,不過即使只有一點點社會影響,都可能會產生一種羊群效應,破壞群體的智慧。」

「抱持相同意見的人愈來愈多時,跟他們意見一致依然是聰明的。儘管如此,還是有兩個問題。首先,我們往往會忽略在群體中大多數人也在資訊瀑布之中,而且他們並不是獨立在做判斷。我們看到三個人、十個人或二十個人擁護某個結論時,其實他們只是跟隨前面的人的意見,我們卻低估這種情況。我們或許會認為,他們的共識反映出集體智慧,但事實上只是反映少數人最初的觀點。」

◆◆◆

多元迴歸的一個重要特徵是,每個預測因子的最佳權重取決於其他預測因子。如果一個預測因子與另一個預測因子相關性很高,就不該獲得同樣大的權重,因為這會形成『重複計算』。」

◆◆◆

「只要進行預測性判斷,就會出現效度錯覺,因為我們常常無法區分預測任務的兩個階段:根據已有的證據來評估個案,以及預測實際結果。你可能常對自己評估哪個人選看起來比較好深具信心,但是猜中誰真正比較好完全是另一回事。例如,你說娜塔莉看起來比莫妮卡來得強,這麼說固然沒錯,但是如果你說,跟莫妮卡相比,娜塔莉將會是個更成功的主管,這就不一定對了。原因很簡單:你在評估這兩個人的時候,已經掌握很多應該知道的資訊,但是未來充滿不確定性。」

◆◆◆

「簡單的機器規則通常優於人類判斷。」

「用你的模型來取代你可以完成兩件事:一是消除你那微妙的考量,進而消除你的型態雜訊。判斷的模型要比判斷者來得準確,這個強大的發現傳達一項重要的訊息:人類判斷的微妙規則有好處,但就算這些好處存在,仍不足以彌補雜訊帶來的不利影響。你也許認為你的思維比較微妙、更有洞察力、更精微,哪裡是一個簡單模型能夠比擬的。但實際上,你有很多的雜訊。」

「在面臨困難的問題時,機械式的依照一條簡單的規則來預測(馬丁.余和康瑟爾稱為『無心的一致』〔mindless consistency〕)可以大幅增進判斷的品質,這說明雜訊對臨床預測的效度有很大的影響。」

◆◆◆

「人們經常願意給演算法一個機會,然而一旦看到演算法出錯,就不再相信它了。從某個層面來看,這種反應似乎是明智的:為什麼要用一個你不相信的演算法?作為人類,我們心知肚明,我們會犯錯,但這是一種特權,我們不打算把這樣的特權分享給別人。我們預期機器是完美的。要是這個期望落空了,那就丟掉它們吧!」

「演算法當然會出錯。如果人類在進行判斷時錯誤更多,那我們該相信誰?」

「既然我們缺乏預測結果所需的數據,何不利用相等權重模型?這種模型的效果幾乎和最適模型一樣好,而且肯定要比人類視情況而定的判斷要來得好。」

「相同權重的公式稱為非最適線性模型(improper linear model)。」

「如果樣本中有些經理人擁有高度的技術技能,而這些經理人也因為不相關的原因表現得特別好,那麼這個模型就會誇大技術技能的權重。」

📝 認為是技術技能導致優異表現,但其實可能是某個「不相關原因」促發優異的表現,一旦這個「不相關原因」消失了,優異的表現可能就會降低,但模型已經認定技能→優異表現的關係了,於是加重的技能的重要性(權重)。

「要正確衡量一個模型的預測準確度,要看這個模型在新樣本中的表現,也就是其交叉驗證相關性(cross-validated correlation)。」

📝 把前段的模型拿來套用在其他資料庫,確認其權重分配是否一依然適當。

「如果原始樣本很小,經過交叉驗證後,準確度會減少更多,因為在小樣本中,偶然因素的影響會更大。(中略)相等權重模型很好,因為這樣的模型不會受到抽樣的偶然事件影響。(中略)即使你沒有先前的數據來試著預測,只要有一組你相信與結果相關的預測因子,你也能做出有效的統計預測。」

◆◆◆

「兩個以上有相關性的預測因子組合起來的預測性,並不比個別的單一預測因子好多少。因為在現實生活中,預測因子總是彼此相關,這項統計結果支持我們利用包含少數預測因子的節約模型來做預測。在某些情況下,相較於利用多個預測因子建立模型來預測,利用幾乎不用怎麼計算的簡單規則,就能產生讓人眼睛一亮的準確預測。」

◆◆◆

「在使用簡單模型時,斷腿原則為決策者上了重要的一課:這會讓他們知道,何時該推翻模型,何時則萬萬不可。如果你握有模型無法納入考量的關鍵訊息,也就是真正的「斷腿」,你就應該推翻模型的建議。反之,即使你沒掌握這樣的訊息,有時候也會不同意模型的建議。在這樣的情況下,你想推翻模型的想法反映出你在面對相同的預測因子時採用的個人型態。由於這種個人型態很可能有損無益,你應該抑制推翻模型的意念;你的干預很可能只會降低預測的準確度。」

◆◆◆
 「過去因為種族歧視而被逮捕的次數作為預測因子,那麼得出的演算法也會有歧視的問題。雖然這種歧視原則上肯定是一種風險,但就重要層面而言,演算法的種族偏見要比法官來得輕微。」

◆◆◆

棘手的不確定性(不可能得知的事情)與訊息的不完整(事情可以得知但沒得到的事情)會使完美的預測變得不可能。這些未知數不是偏誤的問題,也不是判斷中的雜訊問題,而是任務的客觀特徵。客觀上對重要未知事件的無知,會大幅限制可以達到的準確性。」

◆◆◆

「泰特洛克的發現顯示,要詳細預測某一個事件的長期進展根本是不可能的。這個世界非常混亂,即使是很小的事件也可能帶來重大衝擊,如受孕的那一瞬間。」

◆◆◆

「儘管模型的表現始終比人類來得好,但其實也好不了多少。基本上,在持有相同的資訊下,沒有人類做得非常差、但模型卻表現得十分出色的例子。」

◆◆◆

「預測性的天花板就是那麼低,不是模型能夠改變的。」

◆◆◆

「人們常把主觀的信心誤認為預測效力的指標。」

📝 因為自我感覺很良好,所以誤以為事情真的就如自己所想的那樣好。

◆◆◆

「相信自己有能力達到不可能達成的高預測準確率,這樣的人不只是過度自信,不只是否認自己的判斷中有雜訊和偏誤,也不只是認為自己要比其他人來得優秀,他們相信那些不可能預測的事件是可以預測的,也就是否認不確定性的現實。用我們在這裡使用的術語來說,這種態度相當於否認自己的無知。」

◆◆◆

「要放棄直覺確定性的情感回饋並不容易。這也就是為何領導人表示,他們在高度不確性的情況下特別容易訴諸直覺決策。當他們無法透過事實得到理解與渴求的信心時,他們就會轉向直覺。在無知十分巨大的情況下,否認自己的無知就更具吸引力了。」

◆◆◆

「如果你發現有一個結果被描述為『具有顯著性』,不該認為這個結果具有強大的效應。其實,這只是意味這樣的結果不大可能是偶然的產物。如果樣本夠大,相關性可能非常『顯著』,也可能因為太小而不值得討論。」

◆◆◆

「了解就是描述一種因果關係。至於預測能力則是衡量能否確實辨識這種因果關係。而相關性,即預測準確性的衡量,則是量測有多少因果關係是我們能夠解釋的。」

◆◆◆

「雖然相關性不代表因果關係,不過因果關係確實隱含相關性。」

◆◆◆

「對因果思維的偏好也會導致我們忽視雜訊是誤差的來源,因為雜訊基本上來說就是統計學的概念。」

◆◆◆

「選擇適當的量表是良好判斷的先決條件,定義不清或不適當的量表,都是雜訊的重要源頭。」

◆◆◆

「人在被問到一個困難問題時,會採用簡化的思考方式,稱之為捷思法。」

📝 奧砍剃刀原則不一定適用所有情況。

◆◆◆

「……以容易浮現腦海所形成的事件印象,來取代頻率的判斷。理論上,對風險的判斷應該以長期平均值為依據。但實際上,由於近期發生的事件更容易浮現腦海,所以會得到更多權重。以回想事件難易程度的判斷取代頻率的判斷,就是所謂的可得性捷思法(availability heuristic)。」

◆◆◆

外部觀點(outside view):採取這個觀點時,你會把那個學生或是甘巴迪看成一個相似案例類型裡的一員。你從統計觀點思考這個類型,而不只是隨意去思考關注的焦點個案。」

◆◆◆

過度追求連貫性(excessive coherence):我們要自圓其說來建構一致性的印象很快,但是要改變這些印象卻很慢。」

◆◆◆

「只有一種用法我們強烈反對,那就是把代價高昂的失敗歸因於不明確的『偏誤』,而在承認犯錯的同時,保證『努力減少我們決策裡的偏誤』。這些陳述除了表示『錯誤已經造成』,還有『我們會努力做得更好』之外,別無其他意義。沒錯,有些失敗真的是由可以預知的錯誤所引起,而這些錯誤與具體的心理偏誤有關。我們也相信,判斷與決策的偏誤(和雜訊)可以經由干預措施而減少。但是把每個不理想的結果都怪到『偏誤』上是毫無價值的解釋。我們建議,把偏誤一詞保留給具體、而且能夠辨識的錯誤,以及產生錯誤的機制。」

◆◆◆

「判斷捷思法的理論認為,人有時候會用一個簡單問題的答案來回答一個困難的問題。所以,下面哪一個問題比較容易回答:『比爾與一個典型的業餘爵士樂手有多相似?』,還是『比爾是業餘爵士樂手的機率有多大?』大多數人應該都會同意,相似度問題比較簡單,所以在被問到機率問題時,大家可能就會把它當成相似度問題來回答。」「用一個問題替代另一個問題會引發可預測的錯誤,稱之為心理偏誤。」

◆◆◆

「由於確認偏誤(confirmation bias)和期許偏誤(desirability bias)使然,我們會選擇性的蒐集、解讀證據,以偏袒我們已經相信為真(確認偏誤)或是希望為真(期許偏誤)的判斷。」

◆◆◆

「我們提議以外部觀點作為各種直覺預測的修正工具。」「採取外部觀點意味著以平均結果作為預測的定錨點。」「用相關的基本率做為作為定錨點(新科執行長在位兩年的成功機率)。」而不是個案的個人特質或經歷。「只有非常容易的問題,而且可獲得的資訊支持一個有十足把握的預測時,才可以忽略外部觀點。做嚴肅的判斷時,解決方案必須納入外部觀點。」

◆◆◆

「法律明文禁止向陪審團傳達其他案件懲罰性賠償規模的訊息。這項法規所隱含的假設是,陪審員的正義感會引導他們,直接根據對犯行的考量做出正確的懲罰。這個假設在心理學上是無稽之談,它所假定的能力是人類並不具備的能力。司法體制應該要承認執法人員的局限。」

📝 陪審員在沒有參考的情況下只能隨便憑感覺挑數字。

◆◆◆

「第一,量表的選擇對於判斷的雜訊量會造成非常大的差異,因為模糊的量表有雜訊。第二,如果可行,以相對判斷取代絕對判斷有可能降低雜訊。」

誤差的拆解結構:
1. 誤差可以拆解為偏誤和系統雜訊。
2. 系統雜訊可以拆解為水準雜訊和型態雜訊。
3. 型態雜訊可以拆解為穩定型態雜訊和場合雜訊。

◆◆◆

為判斷找理由比為事件找原因容易。我們永遠可以幫判斷者想出背後的動機。如果那樣還不夠,我們可以怪罪於他們的無能。」

◆◆◆

「我們可以不費吹灰之力就為觀察到的事件想出原因,但是要從統計角度思考事件,必須經過學習,而且還要費盡九牛二虎之力。因果是自然;統計是困難。」

◆◆◆

「如果你會避免閱讀爆雷的影評,你可能具備高度認知需求;在認知需求量表得分低的人則喜歡爆雷的故事。」註:Judith E. Rosenbaum and Benjamin K. Johnson, “Who's Afraid of Spoilers? Need for Cognition, Need for Affect, and Narrative Selection and Enjoyment,” Psychology of Popular Media Culture 5, no. 3 (2016): 273-289.

◆◆◆

「具備主動開放心態的人認同『容許自己被相反的論點說服,是良好品格的象徵。』的陳述,他們不同意『改變想法是軟弱的表現』這種論點,也不認為『直覺是做決策最好的指引』。」

◆◆◆

「雖然沒有單一標準或量表能全面用來預測判斷品質,你還是應該尋找一種人,他們會主動搜尋可能違背自己先前信念的新資訊,有方法把新資訊與目前的觀點進行整合,而且願意、甚至渴望因此改變想法。」

◆◆◆

「我們稱這種減少雜訊的方法為決策保健。洗手時,你不一定知道究竟在避免哪一種細菌,你只知道,洗手是預防多種細菌的好方法(尤其是在疫情大流行期間,但不只限於這個狀況)。」

◆◆◆

「一般人通常認為是精確科學的指紋辨識,其實會受到檢測人員心理偏誤的影響。」「倫敦大學認知神經科學研究人員艾提爾.卓爾(Itiel Dror)率先著手研究這個問題。」

「卓爾表示:『如果專家因為自身的不一致而不可靠,那麼他們的判斷和專業所立足的基礎就有問題。』」

「在卓爾的研究裡,有一些勇敢、心胸開放的專家同意在接下來五年內的任何時間,他們都願意在不知情的狀況下參與研究。」「在這些條件之下,如果鑑識人員的判斷會因為檢測而變動,那就表示場合雜訊與我們同在。」

「卓爾在最初的兩個研究裡加了一個重要的變化。第二次看到指紋時,有些鑑識人員會額外得知可能引發偏誤的相關案件資訊。例如,之前認為指紋相符的鑑識人員,在這一次會被告知,『嫌犯有不在場證明』,或是『槍枝跡證顯示嫌犯不是他』。第一次認為嫌犯是無辜或指紋無法確認的鑑識人員,則會被告知『警探相信嫌犯有罪』、『有目擊者指認他』,或是『他坦承犯罪』。卓爾把這項實驗稱為專家的『可偏誤性』測試,因為提供的背景資訊會觸發特定方向的心理偏誤(確認偏誤)。」

「在二十四個決策中,有四個決策因為偏誤效果的資訊而改變。沒錯,他們的決策大部分都沒有改變,但是以這類決策而言,六分之一的變化可視為重大。」「令人擔憂的是,『指紋鑑識專家是根據背景脈絡為基礎做出決定,而不是從指紋所包含的實際資訊做決定。』」

「只有指紋相符的案例會進行獨立驗證。由於負責驗證的鑑識人員知道最初的結論是指紋相符,因而有高度的確認偏誤風險。」

「最可信的資料來源是唯一發表過關於指紋辨識準確度的大型研究,這是2011年由FBI科學家進行的研究。研究涵蓋169位鑑識人員,每位都比對大約100組潛在指紋與標本指紋。它最重要的發現是,指紋相符辨識錯誤的情況非常少發生:偽陽率大約是六百分之一。」「六百分之一的錯誤率很低,但是就像報告指出的,它還是『遠遠高於一般大眾(延伸來說,還有大部分陪審員)根據長久以來對指紋分析精確度說法的信任程度。』」

「不過,有一項讓人安心的發現是,這些研究的結果似乎都一致認為,鑑識人員看起來都寧可謹慎,也不要犯錯。他們的正確率不是百分之百,但是他們了解自己的判斷影響重大,因此會考慮到潛在的錯誤不對稱的代價。由於指紋鑑識有非常高的公信力,因此錯誤的指紋相符結論可能會釀成悲劇。」

「觀察到鑑識科學裡存有雜訊,不應該視為對鑑識科學家的批評。這只是我們不斷觀察得到的結果:只要有判斷,就會有雜訊,而且雜訊比你想像的要來得多。像是指紋分析這樣的工作看似如此客觀,以致於許多人不會自發的認為它也是一種判斷。」

◆◆◆

「愈多資訊不一定愈好,尤其是資訊可能導致判斷者形成言之過早的直覺,而讓判斷出現偏誤。」

📝 先入為主的想法會影響後續的判斷。

「鑑識人員應該在每一個步驟記錄他們的判斷,他們應該先記錄對潛在指紋的分析,然後才檢視標本指紋,決定兩者是否相符。這些步驟的順序有助於專家避免風險,不會只看到他們要尋找的東西,而且他們應該在接觸到有可能造成偏誤的背景資訊之前,就記錄下對證據的判斷。如果他們在接觸背景資訊之後改變想法,那麼這些改變與改變的理由,也都應該列入紀錄。這項要求縮限了早期直覺造成整個流程發生偏誤的風險。」

◆◆◆

「有雜訊的群體所產生的平均值,準確度高於意見全體一致的群體所產生的平均值。」

◆◆◆

「他們並非對一個地理政治上的大問題做整體判斷(一個國家是否會脫離歐盟、某個地方是否會爆發戰爭、某位政府官員是否會遇刺等),而是把它分解成各個部分。他們會問:『如果答案是肯定的,需要什麼條件?如果答案是否定的,又需要什麼條件?』他們的答案並非出自某個內心的聲音或某種概括的直覺,他們會提問,並嘗試回答各種附屬的問題。」

「超級預測者會系統性的尋找基本率。」「根據他們讀到的新聞和分析,他們對事件或許有些直覺看法。但是他們知道,他們對事件的直覺通常不是好的指引。」

◆◆◆

「嘗試、失敗、分析、調整、再次嘗試。」

◆◆◆

「超級預測者的成功或許要歸功於他們減少評量錯誤的卓越紀律,而不是對新聞的敏銳解讀。」

◆◆◆

阿普嘉評分:「診斷指引能成功減少雜訊是因為它們把一個複雜的判斷分解成許多較為簡單的子判斷,而且以預先定義的衡量面向作為判斷依據。」

◆◆◆

「我們已經看到,光環效應意味著,理應分開考量的面向,事實上不會得到個別單獨的處理。在頭幾個問題強烈的正面或負面評估,通常會把後續問題的答案推往同一個方向。」

◆◆◆

「排序的雜訊還是比評等的雜訊更少。」

📝 人類較擅長比較,而不是決定客觀數值。

◆◆◆

「把複雜判斷結構化。結構化這個詞可能有很多意義。在這裡,我們說的是,一個結構化複雜判斷要符合三個原則:分解、獨立性,以及延遲做出整體判斷。」

1. 分解的作用就像路線圖,具體指明需要哪些資料。它能過濾掉不相關的資訊。
2. 各項評估資訊的蒐集必須獨立進行。
3. 延遲做出整體判斷,一言以蔽之就是:不要排除直覺,但是要延遲運用直覺的時間

◆◆◆

「特別是在重要決策上,人們會拒絕那些綁住手腳、不讓他們運用自身判斷力的方案。」

◆◆◆

只要訓練用的資料有偏誤,就相當有可能設計出把歧視編寫進去的演算法,無論這是出於有心或是無意。確實,以此而言,演算法可能更糟糕:由於它們會消除雜訊,因此會比人類判斷有更嚴重的偏誤。」

◆◆◆

「如果演算法犯的錯比人類專家還少,而我們卻在直覺上偏好人類,那麼我們應該仔細審視我們的直覺偏好。」

◆◆◆

「一個受到規定約束的制度或許能消除雜訊,那很好,但是它或許也會凍結現存的規範和價值,這就沒那麼好。」「不管任何情況,雜訊減少措施不一定、也不應該是恆常不變的。」

📝 與時俱進。

◆◆◆

「規定意在消除採納者的裁量空間;準則則是賦予這種裁量權。」「『每天早晚服用一顆』,這是規定;『視需要服用』,這是準則。」

◆◆◆

「水準雜訊是指不同個體平均判斷的變異。判斷尺度的模糊性就是水準雜訊的一個來源。」「型態雜訊的主要來源是穩定的:這是不同法官因為個人特質而對同個案件有判決差異。」

◆◆◆

「要有統計思維,並用外部觀點來看待案件。」「預設的思維模式是把焦點完全放在手頭的案子上,然後把案件嵌入因果故事中。如果我們利用自己的獨特經驗,形成對案子的獨特看法,結果就是型態雜訊。」

◆◆◆

「中介評估法把一個複雜的判斷分解為多個基於事實的評估,旨在確保每一個評估都是獨立的,不受其他評估影響。儘可能把評估項目分別指派給不同的團隊,並盡量減少他們之間的溝通,以保持其獨立性。」例:產科的阿普嘉新生兒評分。

2024年6月22日 星期六

精準預測:如何從巨量雜訊中,看出重要的訊息?


作者:奈特.席佛(Nate Silver)
譯者:蘇子堯
出版社:三采


「席勒回頭研究從荷蘭到挪威各國數百年的歷史,發現房地產只要漲到買不起的程度,幾乎無可避免就會跟著暴跌。」「日本商用不動產的價格在1981到1991年的十年間上漲了大約76%,但接下來的五年下跌了31%,很接近美國房價在泡沫時期和之後所走的路徑。」

「房市泡沫可以視為一種差勁的預測。屋主和投資人認為價格上漲就表示房屋的價值會持續攀升,事實上歷史顯示這樣反而會讓價值容易下跌。」

◆◆◆

「從卡崔娜和其他風暴的研究都發現,從颶風中倖存會讓人在下次颶風來襲的時候比較不會撤離。」

◆◆◆

過度適配的模型:試圖發明一個能夠適用所有資料點的複雜函數。

◆◆◆

「『沒有人有頭緒。』我在紐約西街高盛集團光可鑑人的辦公室與他會面時,他告訴我。『要預測景氣循環非常困難。真的很難了解像經濟這麼複雜的有機體。』照哈齊歐斯(Jan Hatzius)的看法,經濟預測人員面臨三項基本的挑戰。」

1. 單獨從經濟統計數字非常難決定因果關係。
2. 經濟不斷在改變,適用這次的解釋,不一定是適用未來。
3. 雖然經濟學家的預測一直很糟糕,但是他們用來工作的資料也好不到哪裡去。

◆◆◆

「有一條相關的原則叫作葛哈德法則(Goodhart’s law),是依據提出這條法則的倫敦政治經濟學院教授而命名,這條法則主張,一旦決策者開始以某個特定的變項做目標,這個變項就會開始失去當成經濟指標的價值。例如,如果政府刻意採取步驟讓房價高漲,房價就很有可能上漲,但再也不是整體經濟健康良好的測量標準了。」

◆◆◆

「大多數經濟學家在做預測的時候,都會或多會少仰賴他們的判斷,而不是拿統計模型的結果照單全收。由於資料中的雜訊很多,這樣或許有幫助。(中略)然而,藉助個人的判斷,也會引起偏見的可能。也許你做的預測剛好可以符合你的經濟動機或你的政治信念。或者你會太過驕傲,就算在事實和環境的要求下也不願意改變你的故事。『我真的覺得人都有這種傾向,』哈齊歐斯告訴我,『想看到資料往你想看到的方向走,這種傾向你必須很主動地去對抗。』」

「有時候經濟預測也有明顯的政治意圖。例如,從歷史上看來,結果發現不管是民主黨還是共和黨當家,白宮發表的經濟預測,都是所有預測中最不正確的。」

◆◆◆

「一個好的模型就算失誤了也很有用。『想當然爾,不管我們做什麼樣的預測,平均來說都會是錯的。』奧佐諾夫告訴我。『所以重點通常在於了解是怎麼錯的,錯了的時候該做什麼,還有錯了的時候要怎麼把我們的代價減到最低』。關鍵在於要記得,模型是種工具,幫助我們了解宇宙的複雜,而永遠不能代替宇宙本身。」「貓最好的模型就是貓。」

◆◆◆

「成功的賭徒——還有任何一種成功的預測人員——都不是用穩賺不賠的賭注、完全可靠的理論和極為精確的測量這樣的方式在考量未來。這些是笨蛋的幻覺,是他們過度自信的警報。成功的賭徒認為未來是一點一點的機率,像股票行情一樣,每進來一點新的資訊就上下跳動。他們對這些機率的估計跟提供的可能性之間到達足夠的差異,他們就可能下注。」

◆◆◆

「拉普拉斯認為,機率是無知與知識之間的中途站。」

◆◆◆

基於不同的信念、偏見、經驗、知識等,每個人的先驗機率會因此不同,但是「隨著時間的推移,我們看到更多的證據,那我們的信念彼此之間——還有跟真理間——應該要達成一致。」

◆◆◆

「依據貝氏定理,預測基本上是一種資訊處理的活動——使用新資料來測試我們對客觀世界的假設,目標是要對客觀世界的概念更真實、更正確。」

◆◆◆

湯姆.杜旺(Tom Dwan):「在人生大部分的領域中,最重要的是想出機率,而不是提出是與否。大家在他們分析的許多領域中都犯下這個巨大的謬誤,不管是想組成財政聯盟、花錢買食品雜貨,還是希望自己不要被開除都一樣。」

◆◆◆

平均多人的獨立預測通常比個人的預測要精確(群眾智慧),「但比起最好的個人預測,就不一定比較強了。例如,或許有些民意調查公司的調查非常準確,那最好就用他們的調查結果,而且只用他們的。而不是用其他比較不精確的同行的數字來稀釋。」

◆◆◆

看起來好得讓人難以置信的股市策略,通常就不是真的。就像地震頻率的歷史模式一樣,股市資料似乎也占據了某種煉獄,不完全隨機,但也不完全可以預測。然而,這裡的狀況會更糟糕,因為股市的資料從根本上說描述的不是某種自然現象,而是人類的集體行為。如果你真的發現某種模式,尤其是看來似乎很明顯的那種,那其他投資人也有機會發現這樣的模式,這個訊號就會開始被抵銷掉,甚至會逆轉。」

◆◆◆

「投資人的行為表現得彷彿每間公司都會是贏家,彼此之間不用競爭,造成他們對這個產業整體而言可以得到的利潤有了完全不實際的假設。」

◆◆◆

「經濟學中有個觀點:就算市場中的參與者有許多人都不理性,但市場整體表現還是會相當理性。但是市場中的不理性行為會發生,正是因為個人對他們的誘因做出理性的回應。」

◆◆◆

「我在做預測的時候,會相當注意大家一致的看法如何——像Intrade這樣的市場怎麼說。這從來就不是種絕對的約束。但我離共識越遠,我的證據就得越有力,我才能認定我的看法正確,別人都弄錯了。」

◆◆◆

「但是如果我們無法完全避免引起泡沫的從眾行為,那在這些狀況發生的時候,至少能不能希望我們可以察覺?假設你接受布雷克的假設,認為市場有百分之十的時候表現不理性。那我們身處在那百分之十的階段裡時,我們能不能知道?然後我們也許有希望靠泡沫獲利。或者比較不那麼自私的話,我們能不能讓結果比較不要那麼嚴重,免得需要用納稅人的錢做討厭的緊急援助方案?」

「察覺泡沫似乎不是那麼希望渺茫。我覺得我們不可能打擊率百分之百,甚至百分之五十,但是我認為我們可以有所進展。近年來的一些泡沫,尤其是房市泡沫,都有許許多多的人提早很多就察覺到了。而像席勒的本益比之類的檢驗方法在過去也一直是很可靠的泡沫指標。」

◆◆◆

「預測中的不確定性未必就是不行動的理由——耶魯大學經濟學家威廉.諾德豪斯(William Nordhaus)則主張,正因為氣候預測中有不確定性,所以才有必要行動,因為高度暖化的預設情況可能會相當糟糕

◆◆◆

麥可.曼恩(Micheal Mann,賓州州立大學地球系統科學中心主任):「你必須要劃清界線,非常清楚不確性在哪裡,但是又不能讓我們的陳述滿載不確定性,弄得沒有人會聽我們要講什麼。對我們這群人來說,不把話說出來就是不負責任。有其他人會很樂意來補位的。而他們會帶著假消息來補上這個位子。」

◆◆◆

「本書認為訊號就是指出統計或預測問題背後潛藏的事實。」

◆◆◆

「如果我們有這種期待,想看到世界截然劃分成可能與不可能,兩者之間沒有什麼空間,那麼最後我們可能一方面會有過度自信的預測,或是另一方面會有未知而不自知。我們對預測就是沒那麼擅長,下注時必須要分散風險,而不是單只相信一種假設,像菲爾.泰特洛克(Phil Tetlock)的刺蝟那樣。」

◆◆◆

「除非你有內線消息,不然你最好投資指數基金。」

◆◆◆

「貝氏定理要我們在衡量證據之前,就先陳述——明確說出——我們相信一件事有多可能會發生。這種估計就叫做先驗信念。我們的先驗信念應該從何而來?理想上來說,我們會想用自己過去的經驗為基礎,如果是社會的集體經驗更好。這是市場所能扮演得很有用的角色。市場當然不完美,但是絕大多數的時候,集體的判斷會比我們個別的判斷好。市場可以當成衡量證據的好起點,尤其如果你還沒投入太多時間研究某個問題的話。」

◆◆◆

「陰謀論可以當成訊號分析最偷懶的方式。就如哈佛大學教授蓋茲(H.L. ”Skip” Gate)所說的:『在面對複雜的狀況時,陰謀論是無法抗拒的省力方法。』」

◆◆◆

「美國資助一個稱為『核子城市計畫』(Nuclear Cities Initiative)的方案,幫助前蘇聯的核子物理學家找到其他收入豐厚的工作——而不是落入壞人手中。」

◆◆◆

📝 恐怖攻擊的機率計算。

2024年6月10日 星期一

超無厘頭經濟學


作者:佐久良剛
譯者:陳朕疆
出版社:世茂


「綜合性考慮價格和滿足感再做判斷。用現在的話來說,『選擇CP值最高的選項』就是所謂的『效用最大化』。」

◆◆◆

「與其說外匯是賭博性很高的投資,不如說外匯就是賭博。」

◆◆◆

「基本上,要是有人默默持有一家公司的股票好幾年,通常不會把這個人士視為『玩股票的人』。抱著長期持有的覺悟而持有股票的人們,幾乎不會顯露出他們有在玩股票的氣息,他們就和沒有在玩股票的人一樣,靜靜地過著自己的生活。」

「因為周圍那些『玩股票的人』會常常談論股票的話題,寫一堆股票的文章,所以才會知道他們是『玩股票的人』。若是如此,我們所知道的『玩股票的人』,其實都只是些會短期買賣的人們。他們並不是預測『公司的未來性』,而是『其他買家(賣家)會怎麼做』。所以毫無疑問,這和虛擬貨幣與外匯一樣是投機行為。」

「用隨便的心態想著要靠『股票與外匯賺錢』,就和用隨便的心態想著『我要贏過麥克.泰森(世界重量級拳擊冠軍),拿到獎金』一樣,成功機率幾乎等於零。就算用認真心態參加比賽,機率也是零。既然如此,為什麼這些只看過『教你如何賺錢』這類書與某些投資部落格的初學者,會覺得自己贏得過那些操作著世界最強電腦的金融工程天才,或者是手上握有內線消息、幾乎走在法律邊緣、由東大畢業的投資家成立的基金呢?」

「持有股票、外幣、虛擬貨幣時,就像是持有賽馬券,賽馬卻一直在跑道上奔跑沒有停下來。連續二十四小時(或者說在市場交易時間內)的互相追逐,比賽卻一直沒有結果。這樣一來,那些小股東們當然也不可能平靜下來。基本上,只有那些完全不需要讀『經濟學入門』『教你如何賺錢』的有錢人,才不會被市場波動影響。」

「一般人以為股票、基金是投資,但如果讓初學者來玩,仍會變成投機而蒙受損失。所以這些投資工具也不是能推薦給一般人的選項。那麼為什麼『經濟學入門』『教你如何賺錢』等這類教你賺錢的的部落格作者們,都建議讀者要投資呢?我有時會想,他們的目的該不會是要讓更多比自己還弱的人進入市場吧。」

「一般人參加聯誼時,也會邀長得比自己醜的人參加。『鼓勵投資』或許就隱含這樣的心理。特別是虛擬貨幣的研討會,我認為主辦者或多或少……應該都是以此為目的而舉辦研討會。」

◆◆◆

「景氣指標很重要,但指標本身並不代表景氣。歸根究柢,所謂的景氣,指的仍是所有人不知不覺中,隱約感覺到的氣氛。」

📝 主觀感受。

◆◆◆

「GDP(國內生產總值的簡稱)就是將一定期間內的附加價值全部加起來後,得到的合計金額。」「附加價值是指:某個商品(或是服務)之原料價格與販售價格的差異」,以偶像活動來舉例:

「特別是還沒很紅的地下偶像,在演唱會之後一定會有物販時間。而地下偶像的物販活動中,主要商品不是CD或寫真集,而是拍立得。」「拍立得是一種可以讓剛拍下來的照片馬上顯影的相機。御宅……我是說客人們只要購買『拍立得券』,就可以和喜歡的偶像合照。」

「不過這個拍立得機制還隱含著一層意義。對粉絲來說,重要的不是照片本身,而是等待照片顯影的這段時間內,可以和偶像聊天。」

「一張拍立得券差不多是一千日圓,不過說到拍立得的原材料費,頂多也就是底片而已,一張大概一百日圓。這表示拍立得券『能和偶像拍照和聊天』的附加價值高達九百日圓。也就是說,產品價格中,有九成是附加價值。」

「由此可以看出,『照著食譜將麵包疊成漢堡』這項簡單的工作不會增加多少附加價值。不過,『只有這個人才做得到』的技術、稀有性、特殊性等等,卻能大幅提高產品的附加價值。」

「再用一個例子來說明。我的幾本著作有幸能翻譯成簡體中文在中國出版,但當地出版社完全沒有支付版稅給我。明明簽了合約,也正式在中國的書店與amazon.cn發售了,但幾年下來,當地的出版社完全沒有和我們聯絡。雖然我有收到來自中國粉絲的信,卻未曾收到一塊錢的版稅(淚)。」

「沒有付給我任何原材料費,和他們聯絡也不理我,卻自行提高附加價值,賣出譯本獲利。這些原屬於我的錢本來應該要算在日本的GDP上才對,這下子卻算到了中國的GDP上。拚了命寫出來的書,卻沒辦法貢獻給日本的GDP,反而貢獻給了中國的GDP(淚)。真的有夠惡質。要是這類事件在中國很常發生(一定的吧,因為我也常聽說),就表示中國正確的GDP可能比他們公布的還要少。也就是說,中國的GDP『正負誤差很大』,所以某種程度上參考就好。

我想這本書應該不會在中國出版吧。如果出版了,這一章大概也會被刪除。」

📝 他該不會是被詐騙了吧,那家出版社說不定是假的?而且這種事竟然還「很常發生」...😨

◆◆◆

「仲介公司有義務告知買方這是凶宅。但如果讓不動產的新進員工先在房子內住一個月,再賣給新的買家,就沒有告知的義務,也不需要折價出售。畢竟怨念都被新進員工帶回他們自己家中了。」

📝 告知是凶宅後,買方會不會容易受到反安慰劑效應的影響,而過度解釋生活中的小差錯?

◆◆◆

損失趨避:「比起獲得一個東西,當人類失去同樣的東西時,感情的波動會比較大。據說『獲得時的喜悅』與『失去時的悲傷』兩者的感情波動幅度可以達到2倍至2.5倍。」

「父母可能會覺得『就算丟掉這些漫畫,孩子應該也不會崩潰吧?最多是瀕臨崩潰之類的……』但對於擁有這些漫畫的孩子們來說,這些漫畫被丟掉時,受到的打擊卻是『瀕臨崩潰』的2.5倍。也就是說,孩子們會徹底崩潰。這就像邪惡的敵人在拷問主角時宣稱:『放心吧,不會殺掉你的』,卻不小心手滑而成了2.5倍激烈的致命拷問,使主角完全死透。」

稟賦效應:「只要擁有一個東西,不管未來有沒有可能會損失這個東西,都會認為這個東西的價值比一般人對這個東西的評價還要高。」

📝 感覺有點類似套濾鏡。

「說出『不管你拿多少錢來,我這土地不賣就是不賣!』的頑固地主,連續五年都抱怨著『我們公司也太黑心,我忍不下去了!我今年一定要辭職。』的人,以及周圍人們都認為『你的日常生活也太無聊了吧』卻仍持續在社群網站上更新食記和遊記的人等等,都是在稟賦效應的影響下,認為自己的所有物、地位、體驗的價值,比其他人所想得還要高,才會有這樣的行為。」

現實中應用損失驅避&稟賦效應的例子:第一個月免費的包月服務,像是「影片訂閱服務、電子書閱覽服務、串流音樂服務都常有這類方案。」

「在『擁有』這項服務一陣子後,解約時的失落感就會是加入會員時的滿足感的2.5倍。如果客戶本來就對這個服務沒興趣,可以很乾脆地解約。但只要客戶對這個服務有一點點興趣,加入會員後,這種感情就會膨脹到2.5倍,之後也很有可能會成為付費會員。這個戰術就是那麼可怕。」

2024年6月5日 星期三

雞肉以上,鳥學未滿


作者:川上和人
譯者:張東君
出版社:麥田


尾綜骨是現生鳥類的基本特徵,在白堊紀與之前的侏儸紀鳥類化石中都尚未發現這塊骨頭。」

◆◆◆

肌肉的深紅色是「源自於肌肉中的肌紅素(myoglobin)。肌紅素是色素蛋白,和氧的結合力很強。同樣是在血液中的色素蛋白的血紅素也是一樣,它負責和氧結合,擔任運送氧氣的任務。從血紅素接受這些氧,在儲存到肌肉裡面的,就是肌紅素。」

「鳥類為了要在空中飛行,需要很多的氧氣。特別是長時間的持續性飛翔,是邊消耗氧氣邊獲得能量的有氧運動。因為如此,在肌肉儲存許多氧氣便相當必要。」所以像是麻雀、鴿子、烏鴉等,「牠們的肉的顏色基本上是深紅色的。」「遠洋迴遊型的鮪魚」也是一樣深紅色肌肉。

「而另一方面,像雉科鳥類那種零星、單次的飛翔並不伴隨氧氣的消耗,可以將其視為短期性產生能量的無氧運動。因為如此,包含家雞在內的雉科鳥類胸肉便因為沒有太多的肌紅素而變成淡色的了。」就像比目魚。

◆◆◆

摩斯的和風炸雞附有棒狀的骨頭,這是連結胸肌與翅膀的肱骨(上臂部)。

◆◆◆

雞腿骨頭上有一根細細的骨頭,那是「腓骨」。有些鳥的腓骨與脛跗骨已經合為一體,像是鰹鳥或鷹類。因為沒有獨立的功能,所以將來雞的這根細骨也可能會消失。

「人類的腳上也有腓骨。從膝蓋到腳後跟之間的兩根長骨之間,位於身體外側、比較細的那根就是腓骨。」「在骨頭的某部分有缺損時,有時會移植其他部位的骨頭。那個取骨的候補處之一就是腓骨」。

◆◆◆

砂囊的日文是筋胃,在雞身上就是所謂的雞胗。」「以種子等堅硬食物為食的鳥類會特地把石頭或砂礫吞下肚。這些小石頭稱為胃食,會被儲存在砂囊裡。」可以用來磨碎食物。

◆◆◆

平常在吃的「雞屁股」,並不是排泄口,「因為倘若從這種胃雉把糞便排泄出來的話,羽毛一定會弄髒。所謂的雞屁股是稱為尾脂線的部位,是分泌油脂的器官。從尾脂線是出的油脂,是由蠟、脂肪酸與脂肪等所構成。」

「這個油脂成分,在鳥類理羽時會派上用場。在觀察牠們理羽時,經常會看到牠們轉頭用喙部碰觸『腰部』的模樣。那是為了要利用喙部沾上從尾脂線分泌的油脂,再塗抹到羽毛上。」

📝 羽毛本身就具有防水的功能,不過塗上這種分泌物可以使羽毛保持柔軟,延緩羽毛受損。

◆◆◆

紅鸛(亦稱紅鶴)的尾脂線分泌物含有類胡蘿蔔素(carotenoid)。「特別在繁殖期,這種色素的量會增加,好讓牠們將分泌物塗抹在羽毛上,讓自己呈現鮮豔的粉紅色,變得美麗。一般的鳥類無法在體內生成類胡蘿蔔素,紅鸛是經由吃進螺旋藻這類藍藻才獲得這種顏色。」

◆◆◆

在地上築巢的鳥類,雛鳥面臨的被捕食風險較高,「牠們在孵化時,覆蓋著羽毛的腳部便已經很發達,而且能夠自己的力量到處走動。不只是雞形目而已,像是雁鴨或鴕鳥等其他的第上築巢性鳥類,也都是如此。」

「而另一方面,在樹上築巢的鳥類,則大多是以沒有羽毛的裸露狀態從卵中孵化。這稱為晚熟性。」像是鴿子、綠繡眼或大白鷺。

◆◆◆

「火雞的未受精卵卻以開始有三到五成的孤雌生值(單性生殖)而為人所知,雖然有大半會在發育途中就死亡,但其中偶爾也有能夠平安長大的個體。」