互聯(lián)網(wǎng)人必須要懂的 “幸存者偏差”
當(dāng)前位置:點(diǎn)晴教程→閑情逸致
→『 微信好文 』
不管你是否聽(tīng)過(guò)這個(gè)詞,這篇文章都會(huì)讓你對(duì) “幸存者偏差” 理解的更加深刻,先讓我們來(lái)看幾個(gè)段子:
這些都是關(guān)于幸存者偏差的段子,大家看完都哈哈大笑,是因?yàn)槲覀兌继菀鬃R(shí)別它了,然而我列出下面的案例,我們可能未必能得出正確的結(jié)論了:
事實(shí)上,以上的案例都極有可能得出錯(cuò)誤的結(jié)論:
在我們?nèi)粘9ぷ鞯臎Q策中,幸存者偏差是如此普遍,常常在不經(jīng)意中影響我們的決策與判斷,那么這個(gè)概念的本質(zhì)是神馬?它容易在哪些情況下發(fā)生?它的作用機(jī)制是怎樣的?我們?nèi)绾伪苊馑??今天的文章我們就一起?lái)探討一下這個(gè)問(wèn)題: “幸存者偏差” 的歷史“幸存者偏差” 來(lái)源于二戰(zhàn)中一個(gè)著名的故事: 1941 年,第二次世界大戰(zhàn)中,空軍是最重要的兵種之一,盟軍的戰(zhàn)機(jī)在多次空戰(zhàn)中損失嚴(yán)重,無(wú)數(shù)次被納粹炮火擊落,盟軍總部秘密邀請(qǐng)了一些物理學(xué)家、數(shù)學(xué)家以及統(tǒng)計(jì)學(xué)家組成了一個(gè)小組,專門(mén)研究 “如何減少空軍被擊落概率” 的問(wèn)題。 當(dāng)時(shí)軍方的高層統(tǒng)計(jì)了所有返回的飛機(jī)的中彈情況——發(fā)現(xiàn)飛機(jī)的機(jī)翼部分中彈較為密集,而機(jī)身和機(jī)尾部分則中彈較為稀疏,于是當(dāng)時(shí)的盟軍高層的建議是:加強(qiáng)機(jī)翼部分的防護(hù)。 但這一建議被小組中的一位來(lái)自哥倫比亞大學(xué)的統(tǒng)計(jì)學(xué)教授——沃德(Abraham Wald)駁回了,沃德教授提出了完全相反的觀點(diǎn)——加強(qiáng)機(jī)身和機(jī)尾部分的防護(hù)。 那么這位統(tǒng)計(jì)學(xué)家是如何得出這一看似不夠符合常識(shí)的結(jié)論的呢?沃德教授的基本出發(fā)點(diǎn)基于三個(gè)事實(shí)是:
軍方采用了教授的建議,加強(qiáng)了機(jī)尾和機(jī)身的防護(hù),并且后來(lái)證實(shí)該決策是無(wú)比正確的,盟軍戰(zhàn)機(jī)的擊落率大大降低,這就是 “幸存者偏差” 故事的來(lái)源。 “幸存者偏差” 的本質(zhì)廣義的幸存者偏差用統(tǒng)計(jì)學(xué)的專業(yè)術(shù)語(yǔ)來(lái)解釋是——“選擇偏倚”,即我們?cè)谶M(jìn)行統(tǒng)計(jì)的時(shí)候忽略了樣本的隨機(jī)性和全面性,用局部樣本代替了總體隨機(jī)樣本,從而對(duì)總體的描述出現(xiàn)偏倚。 統(tǒng)計(jì)學(xué)的簡(jiǎn)單描述是這樣的:統(tǒng)計(jì)全集為 A,觀察到 A 的子集 A1 有特征 X,A1 為幸存者,而 A 另外的子集 A2 并沒(méi)有觀察到或者被人為忽略,于是判斷全集 A 都有特征 X,事實(shí)上 A2 的特征為 Y。 用上述記者調(diào)查買火車票的案例來(lái)代入解釋為:A 為全體想買火車票的人,A1 為已經(jīng)在火車上的人,A2 為想買但沒(méi)買到的人,特征 X 為買到票,特征 Y 為未買到票,即幸存者偏差將一小部分顯性樣本代替了隨機(jī)樣本,從而導(dǎo)致了統(tǒng)計(jì)的偏差。 有了這個(gè)框架,我們就能從理論的角度理解這些 “幸存者偏差” 的具體案例了:
美國(guó)學(xué)生會(huì)發(fā)現(xiàn)亞裔同學(xué)在數(shù)學(xué)方面要超出其同齡孩子很多——“幸存者偏差”:能到美國(guó)上學(xué)的孩子在中國(guó)的教育水平和成長(zhǎng)環(huán)境通常都會(huì)相對(duì)優(yōu)越,要是中國(guó)的母語(yǔ)是英文,想必語(yǔ)文成績(jī)也會(huì)優(yōu)于美國(guó)同齡學(xué)生。
假如北京長(zhǎng)庚醫(yī)院對(duì)心臟病人住院病人的飲食習(xí)慣進(jìn)行研究,從而發(fā)表一篇《心臟病與飲食習(xí)慣之間的關(guān)系》的論文,該論文是否有可信度?答案是沒(méi)有!因?yàn)殚L(zhǎng)庚醫(yī)院為北京高端私立醫(yī)院,該院病人和普通病人的飲食習(xí)慣會(huì)存在差異,同時(shí)住院的病人也并非能代表所有病例(不住院就已經(jīng)去世的、住不起院的等等),事實(shí)上,排除這些干擾因素是現(xiàn)代醫(yī)學(xué)研究的基本準(zhǔn)則。
我每周一三五中午都會(huì)去公司的健身房,這個(gè)習(xí)慣堅(jiān)持了很長(zhǎng)一段時(shí)間,然而有一段時(shí)間我一度沮喪——因?yàn)槲野l(fā)現(xiàn)公司健身房的同事基本上身材都比我好,這其實(shí)就是典型的 “幸存者偏差”——那些健身房的人身材好當(dāng)然是大概率事件,身材不好也不鍛煉的人通常很少去健身房。
2010 年世界杯最大的明星不是來(lái)自某個(gè)球員,而是來(lái)自德國(guó)奧博豪森海洋館的章魚(yú)” 保羅 “,它神奇地連續(xù) 7 次百發(fā)百中地預(yù)測(cè)了世界杯德國(guó)隊(duì)的比賽結(jié)果,章魚(yú)保羅成為那個(gè)夏天世界媒體熱情追逐的對(duì)象,然而事實(shí)上它就是一次典型的” 幸存者偏差 “,那年夏天其實(shí)有很多動(dòng)物都參與了世界杯的預(yù)測(cè):菲律賓的猴子、墨西哥的羊駝、非洲的大象、保加利亞的奶牛甚至還有中國(guó)的熊貓,只是因?yàn)檫@些動(dòng)物預(yù)測(cè)失敗了于是并沒(méi)有媒體報(bào)道,而章魚(yú)保羅成為那個(gè)幸運(yùn)兒。 在以上四個(gè)案例中,全集 A 分別為:中國(guó)的所有孩子、所有心臟病患者、我公司的所有同事、預(yù)測(cè)世界杯的所有動(dòng)物; 幸存者 A1 分別為:有條件去美國(guó)念書(shū)的孩子、在長(zhǎng)庚醫(yī)院的心臟患者、去健身房的同事、章魚(yú)保羅; 特征 X 分別為:數(shù)學(xué)好、飲食獨(dú)特、身材好、預(yù)測(cè)準(zhǔn); 特征 Y 分別為:數(shù)學(xué)平庸、飲食正常、身材一般、預(yù)測(cè)不準(zhǔn)。 這就是 “幸存者偏差” 的分析框架。 警惕 “幸存者偏差” 的濫用很多人對(duì) “幸存者偏差” 這個(gè)名詞一知半解的時(shí)候,往往會(huì)造成它的濫用,在作者看來(lái),警惕 “幸存者偏差” 和警惕 “幸存者偏差” 的濫用同樣重要。 很多人看到一些媒體報(bào)道的創(chuàng)業(yè) “成功故事” 立馬嗤之以鼻——“這是幸存者偏差,不知道有多少個(gè)失敗的案例呢?”,然后對(duì)成功者的方法和經(jīng)驗(yàn)一概摒棄; 很多行賄的工作人員看到 “某人行賄被抓” 的新聞見(jiàn)怪不怪,認(rèn)為這是幸存者偏差——“媒體只會(huì)報(bào)道那些行賄被抓的人,其實(shí)還有更多沒(méi)抓住呢!” 于是他們繼續(xù)行賄。 那么 “幸存者偏差” 這個(gè)概念是如何被濫用的呢?還是舉記者調(diào)查高鐵買票的例子,明白 “幸存者偏差” 理論,只能讓我們明白——”記者在高鐵上進(jìn)行調(diào)查來(lái)判斷所有人都買到票” 這種方法是不科學(xué)的。 注意——它并不能直接推斷出 “所有人都買到票” 這個(gè)結(jié)論一定是錯(cuò)的,因?yàn)槭O碌娜擞袥](méi)有買到票這一信息——我們不知道:春運(yùn)的時(shí)候我們能根據(jù)常識(shí)判斷他們可能買不到票,但平時(shí)的高鐵,基本上是想買到票的人都能買到票,因此,直接判斷 “肯定有人沒(méi)買到票” 就屬于 “幸存者偏差” 的濫用,錯(cuò)誤的反面不一定就是正確。 從統(tǒng)計(jì)學(xué)的角度我們來(lái)看我們是如何濫用幸存者偏差的——我們觀察到了 A1 有特征 X,同時(shí)我們意識(shí)到可能存在幸存者偏差,我們預(yù)先把 A1 定義為幸存者,于是直接判斷非幸存者 A2 一定不會(huì)有特征 X,而真相是:A2 是否有特征 X 這個(gè)信息我們并不知道,可能有,也可能沒(méi)有。 警惕 “幸存者偏差” 濫用非常重要,事實(shí)上前面提到的二戰(zhàn)統(tǒng)計(jì)學(xué)教授沃德的故事也只是后人及其簡(jiǎn)化之后的版本,稍微思考一下就會(huì)知道,一個(gè)受過(guò)科學(xué)訓(xùn)練的統(tǒng)計(jì)學(xué)教授是不可能只憑直觀判斷就直接給出結(jié)論的。 事實(shí)上沃德教授關(guān)于飛機(jī)擊落問(wèn)題先后提交了八份不同方面的報(bào)告,其中主論文為《A Method of Estimating Plane Vulnerability Based on Damage of Survivors》,即《一種根據(jù)幸存飛機(jī)損傷情況推測(cè)飛機(jī)要害部位的方法》。 這篇論文就有 80 多頁(yè),僅后人對(duì)他貢獻(xiàn)的綜述就有 10 多頁(yè),(公眾號(hào)回復(fù)關(guān)鍵詞——“沃德教授” 獲取論文),這位寫(xiě)過(guò)巨著《序列分析》的權(quán)威教授顯然是對(duì)框架中 A2 的特征做過(guò)詳細(xì)而嚴(yán)謹(jǐn)?shù)姆治霾诺贸鼋Y(jié)論滴! 如果拍拍腦袋就能成為統(tǒng)計(jì)學(xué)家,那大家都是統(tǒng)計(jì)學(xué)家! 互聯(lián)網(wǎng)人如何避免 “幸存者偏差”?“幸存者偏差” 是數(shù)據(jù)分析的常見(jiàn)邏輯錯(cuò)誤,而數(shù)據(jù)又是驅(qū)動(dòng)互聯(lián)網(wǎng)的動(dòng)力之一,那么互聯(lián)網(wǎng)人應(yīng)該在分析數(shù)據(jù)、決策判斷時(shí)如何避免 “幸存者偏差” 的存在呢?衛(wèi)夕總結(jié)了三個(gè)步驟:
我們來(lái)看幾個(gè)案例直接進(jìn)行訓(xùn)練:
“衛(wèi)夕聊廣告” 既開(kāi)通了公眾號(hào)也開(kāi)通了微博賬號(hào) “衛(wèi)夕君”,這時(shí)候我發(fā)現(xiàn)同一篇文章在相同的閱讀的情況下微信的打賞特別少,而微博則多一些,因此我起初大致判斷微信粉絲的打賞意愿低于微博,直到我想起來(lái)微信的 iOS 用戶由于蘋(píng)果的政策限制目前并不能打賞之后才明白我之前的猜想是錯(cuò)滴,這存在幸存者偏差,于是我嘗試在最近的兩篇文章末尾專門(mén)加上 IOS 贊賞碼,文章的贊賞金額果然提升了接近 4 倍。 在這個(gè)案例中避免幸存者偏差的標(biāo)準(zhǔn)三步為: 判斷樣本的隨機(jī)性,即看微信公眾號(hào)的打賞用戶是否能代表整體?答案是否定的,因?yàn)橹桓采w了安卓用戶; 判斷樣本和剩余樣本會(huì)不會(huì)存在顯著差異?即安卓用戶和 iOS 在打賞這件事上會(huì)不會(huì)存在差異?答案是:可能存在差異; 分析剩余樣本數(shù)據(jù),驗(yàn)證結(jié)論,即加上 iOS 的打賞碼再次驗(yàn)證結(jié)果。
某視頻網(wǎng)站在 VIP 中新上線了一部美劇,該美劇每一集的觀看人數(shù)之前一直穩(wěn)定,但當(dāng)它播到第七集的時(shí)候,觀看人數(shù)有一個(gè)相對(duì)明顯的流失,運(yùn)營(yíng)人員開(kāi)始分析認(rèn)為是該部美劇從第七集開(kāi)始劇情急轉(zhuǎn)直下主角忽然掛掉引起的,然而當(dāng)他們仔細(xì)分析流失用戶的時(shí)候,發(fā)現(xiàn)流失的都是因?yàn)槿齻€(gè)月前某次大規(guī)模贈(zèng)送的免費(fèi)會(huì)員到期引起的,只是時(shí)間正好和第七集重合而已,普通會(huì)員根本沒(méi)有流失。 在這個(gè)案例中三步分別為:1. 判斷樣本隨機(jī)性,即分析流失用戶是不是所有會(huì)員的隨機(jī)樣本。答案是否定的——流失的都是免費(fèi)會(huì)員。2. 判斷樣本和剩余樣本會(huì)不會(huì)存在顯著差異?即正常會(huì)員和免費(fèi)會(huì)員有沒(méi)有差異?當(dāng)然有。3. 分析剩余樣本數(shù)據(jù),驗(yàn)證結(jié)論,即看正常會(huì)員是否流失。
2016 年 9 月年 Facebook 關(guān)于視頻廣告數(shù)據(jù)偏差的問(wèn)題變成了該公司廣告歷史上不大不小的負(fù)面新聞,F(xiàn)acebook 在其官方博客中承認(rèn):其提交給廣告主的數(shù)據(jù)報(bào)告中,視頻廣告平均播放時(shí)長(zhǎng)的數(shù)字只統(tǒng)計(jì)了那些播放時(shí)長(zhǎng)超過(guò) 3 秒的播放行為,也就是說(shuō),如果視頻播放沒(méi)超過(guò) 3 秒,F(xiàn)acebook 居然就把它舍去了,很顯然,廣告主的平均播放時(shí)長(zhǎng)被拉長(zhǎng)了,因?yàn)椴シ艜r(shí)間短的壓根不統(tǒng)計(jì),而這一偏差居然存在了長(zhǎng)達(dá)兩年之久。 這個(gè)案例中,分析依然分為三步:1. 判斷樣本隨機(jī)性——廢話!3 秒以下的都舍去了!當(dāng)然沒(méi)有隨機(jī)性!2. 判斷樣本和剩余樣本是否存在顯著差異?廢話,3 秒以下和 3 秒以上肯定有差異!3. 分析剩余樣本數(shù)據(jù)、驗(yàn)證結(jié)論。這….. 就不用驗(yàn)證了吧! 以上的分析前提是我們需要對(duì)我們的業(yè)務(wù)進(jìn)行深刻的理解,只有你深刻理解了你業(yè)務(wù)中具體重要的影響因素你才能做出正確的猜想和判斷。 好了:以上就從理論到實(shí)踐的角度介紹了幸存者偏差,這時(shí)候有人會(huì)問(wèn)衛(wèi)夕,你覺(jué)得中文互聯(lián)網(wǎng)上哪一個(gè)平臺(tái)的內(nèi)容出現(xiàn)幸存者偏差的概率會(huì)比較大?哈哈哈,毫無(wú)疑問(wèn)是知乎!我們來(lái)感受一下: 本文轉(zhuǎn)自公眾號(hào)“衛(wèi)夕聊廣告”(ID:weixiads)。 該文章在 2018/6/11 10:42:45 編輯過(guò) |
關(guān)鍵字查詢
相關(guān)文章
正在查詢... |