《赤裸裸的統計學》大數據時代幫你讀懂真相

作者:Passion启航   |   2018 / 08 / 08

文章來源:雪球   |   圖片來源:LaoLao


關於作者

查爾斯.惠倫(Charles Wheelan),美國達特茅斯大學教授,1997 到 2002 年間擔任 “經濟學人” 雜誌駐美國中西部地區記者。主要從事經濟學研究,曾在 “芝加哥郵報”、“紐約時報” 和 “華爾街日報” 發表過多篇文章,所著 “赤裸裸的經濟學” 是暢銷多年的經濟學普及讀物。

關於本書

這是一本關於統計學常識的科普書,作者從理財投資,民意調查,醫療健康,刑事判決等生活案例中抽絲剝繭,向我們展示了妙趣橫生的統計學規律。統計學並沒有想想的這麼難,你也可以通過這本書學習統計學。

核心內容

本書作者認為,作為大數據時代炙手可熱的學問,統計學可以解決很多實際問題。可如果運用不當,統計學也會製造假象,造成誤導。因此,我們很有必要掌握一些統計學中的概念和原理,它們並不艱澀難懂,卻能幫我們讀懂真相,預測未來核心內容包含 5 個部分:

ㄧ、大數法則;
二、中央極限定理;
三、隨機抽樣;
四、回歸分析;
五、常犯的機率學錯誤。

一、大數法則

相同條件下,當隨機試驗次數足夠多時,實驗結果的平均值會無限接近 “期望值”。

1. 我們可以通過研究機率,明智地選擇投資理財方式

【案例】就算是某期彩票爆出大獎掏空了獎池,從長遠看,發行彩票也是穩賺不賠。根據 “大數法則”,發行機構只要保證彩票的銷售額大於獎金期望值,就肯定賺錢,所以沉溺於博彩是非常不理智的。

對於投資門檻高,風險大,但是回報很高的項目,如果把注意力都放在高回報率上很危險。大數法則成立的前提是 “試驗次數足夠多”,如果你沒有承擔多次投資失敗的資本,孤注一擲的投資很可能會血本無歸。

再比如最近區塊鏈很紅,好多新出的數字貨幣蹭​​蹭的漲,那麼你只一味的追漲,你肯定輸的很慘,但如果你資金雄厚多分配幾種,那麼你贏的機率就很大。

2. 幫助我們理性面對風險

【案例】對小額電子產品推出的付費延保服務,商家肯定穩賺不賠,用戶選擇付費延保基本上等於浪費錢。但對於那些大額度人身,財產意外險,它們更多的是一個規避風險的理性工具,幫你在遭受一些難以承受的巨大損失時渡過難關。雖然保險公司賺取了巨大的利潤,但這種錢我們還必須得花。

巴菲特說過:一個好的投資家首先應該學會的是避險。

二、中央極限定理

依據該定理,我們對一個基數龐大的群體做統計調查時,只要對其中的一部分樣本進行研究,得出的結論就能反映整個群體的特點。

1.如果掌握了某個群體的具體信息,就能推理出從這個群體中正確抽取隨機樣本的情況。

【案例】一個城市同時在舉辦馬拉松比賽和吃熱狗大賽,比賽前有一輛載滿外國馬拉松運動員的公交車失踪了,結果警察找到了一輛載滿大胖子外國人的公交車。由於語言不通,警察只能根據經驗判斷:即使馬拉松選手裡面可能也有一兩個略重的,但是滿車都是胖子不大可能,因此很可能找錯了車。

2.如果已知兩個樣本的基本特性,就能推理出這兩個樣本是不是來自同一個群體。

【案例】上述案例中如果找到兩輛車,乘客各自有胖有瘦,該怎麼判斷?這時候可以測量乘客體重,計算體重分佈的標準差。根據中央極限定理,馬拉松運動員群體的體重標準差是明顯小於普通群體的,他們的體重分佈更加集中於平均值周圍。由此仍然可以判斷出哪輛車是我們要找的。

三、隨機抽樣

這是收集數據的主要方法,核心是必須保證每個對象被抽到的機率完全相等。但大部分調查的對象是人群,人口組成非常複雜。如果不能保證等機率抽樣,抽樣數據就會存在 “偏見”,就會得出錯誤結論。

1.選擇性偏見:樣本選擇帶有潛在傾向性時就會出現。

【案例】1936 年美國總統大選時,“文學文摘”(Literary Digest)雜誌面向訂閱者開展的民意測驗,是史上知名度最高的統計錯誤。雜誌編輯沒有意識到,訂閱這本雜誌的人平均來說要比普通美國民眾更富有,他們更傾向於投票給保護富人利益的共和黨。這樣帶有選擇性偏見的樣本即使容量很大,也無法正確反映民意。

2.倖存者偏差:如果樣本中有數據缺失,會導致樣本組成發生改變。

【案例】很多投資基金公司會同時開放 20 支新基金,經過 3 年的經營,總會有 2 到 3 支基金連續 3 年 “跑贏” 標準普爾指數。公司只要把十幾隻失敗的基金悄悄關閉,大肆宣傳這 2、3 支 “倖存者”,就可以把投資者的錢騙進來了。而實際上,這些 “倖存” 基金接下來的表現會逐漸回歸平均水平。

3.健康用戶偏見:用來比對的樣本其實選擇在了不同群體當中。

【案例】假設衛生部門發現,哈佛大學新生中有 98% 的人在少年時期穿紫色睡衣,而監獄裡的犯人中只有 3% 的人這樣做過。因此得出了一個結論:穿紫色睡衣的孩子確實更有可能取得成功。這很顯然是很荒謬的結論,這個問題在於我們用來對比的兩組人根本就是兩類人。真正對孩子大腦發育起作用的,是給孩子穿上紫色睡衣的家長,他們更注重對孩子的家庭教育。

四、回歸分析

1.對那些錯綜複雜的問題,回歸分析可以通過建模計算,從已知現像中還原未知原因,甚至可以計算每種原因對結果的貢獻比例。

【案例】醫學家發現,級別較低的公務員更容易患上心臟病。“白廳” 研究項目組經過長時間縱向數據採集,比對了可能導致心臟病的一系列原因,包括低階公務員的學歷普遍偏低,煙民比例高,醫療服務差,加班多,鍛煉少等等。面對這些錯綜複雜的變量,統計學家建立回歸方程,計算了各個變量和心臟病發病率的線性關係回歸。分析表明,造成心臟病高發的真正原因,是對工作缺乏控制力和話語權。而這類存在感較低的崗位,在低級別職位中更常見。

2.電腦永遠不能代替人的工作,如果在進行回歸分析時遺漏了變量,就會得出危險的結論。

【案例】上世紀 90 年代,哈佛大學醫學院對 12 萬名女性開展縱向調查,經回歸分析顯示,定期攝入雌激素可以減少女性心臟病發病率,隨後醫院開始提供雌激素的補充治療。而後來的臨床試驗發現,此舉會導致乳腺癌和血栓病高發,因此死亡的女性患者可能達到上萬人。

五、常犯的機率學錯誤

1.“黑天鵝” 事件:忽視小機率事件,有時會造成嚴重的後果。

【案例】2008 年美國次貸危機爆發前,整個北美金融行業都在使用同一個風險價值模型來預測投資風險。這個模型的強大之處在於它非常精確,可以預測 99% 的市場風險。然而,該模型是根據過去 20 年的市場行為建立的,不能對剩餘 1% 的意外情況做出預測。可是,隨著 2007 年美國商業銀行房貸業務的崩潰,“黑天鵝” 真的出現了,整個華爾街措手不及,一次全球大範圍的金融危機因此爆發。

2. “檢察官謬誤”:通過統計數據推斷出的結論,必定存在誤差,不會 100% 正確。即使誤差再小,也不能忽視它的存在。

【案例】假設一名法官被告知:犯罪現場遺留的 DNA 樣本和被告的 DNA 相吻合,除了被告以外,這個樣本和其他人 DNA 相吻合的機率只有百萬分之一。如果僅憑這些證據為被告人定罪,就可能出現冤案。百萬分之一的誤差看似很小,但警方的 DNA 樣本庫數量非常龐大,通過樣本比對,找到兩個 DNA 特徵相似的人並非不可能。

雪球》授權轉載

【延伸閱讀】

loading animation
喜歡這篇文章?加入你的S夾!

分享好文章

雪球
「雪球」是一個社交投資網絡,它有網頁版(xueqiu.com)和手機客戶端。用戶可以通過雪球:
● 訂閱股票、封基、ETF,全方位收取新聞、公告和用戶討論
● 通過自選股功能查看股票漲跌
● 通過持倉盈虧功能管理個人投資組合
● 和其他投資者實時交流互動
雪球的最新文章
More