愛伊米

千萬別掉進“倖存者偏差”的陷阱 全面資料收集和分析很重要

“比爾·蓋茨輟學,所以成為世界首富”“考大學沒有用,因為北大畢業的人,還不是去賣豬肉”,這些屢見不鮮抓人眼球標題式的論斷,殊不知就是“倖存者偏差”現象,而它也是阻礙我們對這個世界正確認知的一道屏障。

千萬別掉進“倖存者偏差”的陷阱 全面資料收集和分析很重要

倖存者偏差,最早來源於二戰時期一個飛機防護的案例。

1941年二戰期間,應軍方要求,美國哥倫比亞大學統計學的沃德教授,透過其精深的專業知識,寫了一篇《飛機應該怎樣加強防護,才能降低被炮火擊落機率》文章,提出了種種建議,其中最重要的一條是,沃德教授根據飛機遭受攻擊後的資料分析發現:飛機的機翼是最容易被擊中的位置,機尾相對來說則最少被擊中,如圖所示。

據此,沃德教授建議“應該重點強化機尾的防護”,軍方對此大為不解,認為既然機翼最容易被擊中,那麼就應該加強機翼的防護。

沃德教授則堅持自己的看法,其根據有三:

第一,他所統計的樣本只是那些平安返回的飛機;

第二,被炮火多次擊中機翼的飛機,似乎還能夠安全返回;

第三,飛機機尾很少被擊中並不是真相,而是萬一中彈,其安全返航的機率就非常低。

後來,軍方被沃德教授說服,採用了他的建議,而後來的事實也表明該決策是無比正確的,那些看不見的“傷痕”才是最致命的。

這個案例有兩個思維啟示:

一是那些戰死或被俘的飛行員無法發表意見,因此資料的來源本身就存在嚴重偏差;

二是那些作戰經驗豐富甚至經歷過血戰的飛行員的專業意見也不一定能提奧決策的準確率,因為他們中大多是機翼中彈、機尾未中彈的倖存者。

說到這裡,要理解“倖存者偏差”就很容易了,不過還是要給出專業的定義:

倖存者偏差(Survivor bias),是一種常見的邏輯謬誤,指的是隻能看到經過某種篩選而產生的結果,而沒有意識到篩選的過程,因此忽略了被篩選掉的關鍵資訊。日常表達為“沉默的資料”“死人不會說話”等。

避免倖存者偏差

比如運維同學一次白天線上維護的誤操作導致資料庫被刪除,在做事故分析的時候,很容易把結論歸結為禁止白天做線上操作。而有經驗的運維經理會引導大家做更全面的事故分析,把事故過程列出來,什麼時間發生了什麼,誰做了什麼,根據整個過程發現的問題,制定一系列改進措施,這樣全面收集資料、全域性性思考,就不容易進入倖存者偏差。

下面來聊一聊避免倖存者偏差的3個方法:

第一,貝葉斯公式

前文提到了瓦爾德對飛機防護的案例,可以用貝葉斯公式來分析一下瓦爾德和眾人的分歧出在什麼地方,而誰的假設更為合理。設X=飛機被擊中的部位,Y=1,0表示飛機是否返航。設空戰中飛機被擊中的部位X的分佈為 P(X),而返航飛機的X分佈為條件分佈P(X|Y=1)。

於是有:P(X|Y)=P(X)* P(Y|X)/P(Y)

眾人認為倖存飛機被擊中的部位分佈P(X|Y=1)反映了空戰中被擊中部位的分佈 P(X),因此哪裡彈痕多就要在哪裡加強防護。

但瓦爾德認為“炮彈不長眼睛”,空戰中的 P(X) 應該是接近於均勻分佈的,因此 P(X|Y=1) 恰恰是正比於 P(Y=1|X)的,即擊中該部位X以後的返航機率。

所以倖存飛機哪裡中彈多就表明相應部位不是要害部位,而應該在返航機率較小,即 P(X|Y=1) 較小的地方加強防護——正是倖存飛機彈痕少的部位。

第二,雙盲試驗

是指在試驗過程中,測驗者與被測驗者都不知道被測者所屬的組別(實驗組或對照組),分析者在分析資料時通常也不知道正在分析的資料屬於哪一組,旨在消除可能出現在實驗者和參與者意識當中的主觀偏差和個人偏好。在大多數情況下,雙盲實驗要求達到非常高的科學嚴格程度。

雙盲試驗,可以延伸到網際網路產品的AB測試,產品經理可以設計一組試驗方案,讓資料分析師根據測試的資料進行結果分析,再與產品經理一起比對驗證,可以得到更為客觀的分析結論,而不是選擇性地去看這些資料、去證明自己的猜想。

第三,系統性思維

前文已經學習過系統性思維,這裡再次回顧一下,系統性思維是把物質系統當作一個整體加以思考的思維方式。

與傳統的先分析、後綜合的思維方式不同,系統性思維的程式是從整體出發,先綜合,後分析,最後復歸到更高階段上的新的綜合,具有整體性、綜合性、定量化和精確化的特徵。

在對事物的認知上,單一性思維和系統性思維也存在不少差別,通常來說,對事物的認知分為三個層面:

1。 事件感知:只看到事件的導火索。

2。 模式感知:看到事件的多個影響因素。

3。 系統感知:站在時間的維度並結合外部環境一併思考。

透過系統性思維對事件做整體性思考,就不容易被一些片面的資料、特例左右自己的判斷和思考。

文章部分素材來源:AI科技大本營