全新任務中心上線了!
會員專屬好禮都在這

立即前往
任務中心
《赤裸裸的統計學》大數據時代幫你讀懂真相
作者 雪球
收藏文章
很開心您喜歡 雪球 的文章, 追蹤此作者獲得第一手的好文吧!
雪球
字體放大


分享至 Line

分享至 Facebook

分享至 Twitter


《赤裸裸的統計學》大數據時代幫你讀懂真相

2018 年 8 月 8 日

 
展開

關於作者

查爾斯.惠倫(Charles Wheelan),美國達特茅斯大學教授,1997 到 2002 年間擔任 “經濟學人” 雜誌駐美國中西部地區記者。主要從事經濟學研究,曾在 “芝加哥郵報”、“紐約時報” 和 “華爾街日報” 發表過多篇文章,所著 “赤裸裸的經濟學” 是暢銷多年的經濟學普及讀物。

關於本書

這是一本關於統計學常識的科普書,作者從理財投資,民意調查,醫療健康,刑事判決等生活案例中抽絲剝繭,向我們展示了妙趣橫生的統計學規律。統計學並沒有想想的這麼難,你也可以通過這本書學習統計學。

核心內容

本書作者認為,作為大數據時代炙手可熱的學問,統計學可以解決很多實際問題。可如果運用不當,統計學也會製造假象,造成誤導。因此,我們很有必要掌握一些統計學中的概念和原理,它們並不艱澀難懂,卻能幫我們讀懂真相,預測未來核心內容包含 5 個部分:

ㄧ、大數法則;
二、中央極限定理;
三、隨機抽樣;
四、回歸分析;
五、常犯的機率學錯誤。

一、大數法則

相同條件下,當隨機試驗次數足夠多時,實驗結果的平均值會無限接近 “期望值”。

1. 我們可以通過研究機率,明智地選擇投資理財方式

【案例】就算是某期彩票爆出大獎掏空了獎池,從長遠看,發行彩票也是穩賺不賠。根據 “大數法則”,發行機構只要保證彩票的銷售額大於獎金期望值,就肯定賺錢,所以沉溺於博彩是非常不理智的。

對於投資門檻高,風險大,但是回報很高的項目,如果把注意力都放在高回報率上很危險。大數法則成立的前提是 “試驗次數足夠多”,如果你沒有承擔多次投資失敗的資本,孤注一擲的投資很可能會血本無歸。

再比如最近區塊鏈很紅,好多新出的數字貨幣蹭​​蹭的漲,那麼你只一味的追漲,你肯定輸的很慘,但如果你資金雄厚多分配幾種,那麼你贏的機率就很大。

2. 幫助我們理性面對風險

【案例】對小額電子產品推出的付費延保服務,商家肯定穩賺不賠,用戶選擇付費延保基本上等於浪費錢。但對於那些大額度人身,財產意外險,它們更多的是一個規避風險的理性工具,幫你在遭受一些難以承受的巨大損失時渡過難關。雖然保險公司賺取了巨大的利潤,但這種錢我們還必須得花。

巴菲特說過:一個好的投資家首先應該學會的是避險。

二、中央極限定理

依據該定理,我們對一個基數龐大的群體做統計調查時,只要對其中的一部分樣本進行研究,得出的結論就能反映整個群體的特點。

1.如果掌握了某個群體的具體信息,就能推理出從這個群體中正確抽取隨機樣本的情況。

【案例】一個城市同時在舉辦馬拉松比賽和吃熱狗大賽,比賽前有一輛載滿外國馬拉松運動員的公交車失踪了,結果警察找到了一輛載滿大胖子外國人的公交車。由於語言不通,警察只能根據經驗判斷:即使馬拉松選手裡面可能也有一兩個略重的,但是滿車都是胖子不大可能,因此很可能找錯了車。

2.如果已知兩個樣本的基本特性,就能推理出這兩個樣本是不是來自同一個群體。

【案例】上述案例中如果找到兩輛車,乘客各自有胖有瘦,該怎麼判斷?這時候可以測量乘客體重,計算體重分佈的標準差。根據中央極限定理,馬拉松運動員群體的體重標準差是明顯小於普通群體的,他們的體重分佈更加集中於平均值周圍。由此仍然可以判斷出哪輛車是我們要找的。

三、隨機抽樣

這是收集數據的主要方法,核心是必須保證每個對象被抽到的機率完全相等。但大部分調查的對象是人群,人口組成非常複雜。如果不能保證等機率抽樣,抽樣數據就會存在 “偏見”,就會得出錯誤結論。

1.選擇性偏見:樣本選擇帶有潛在傾向性時就會出現。

【案例】1936 年美國總統大選時,“文學文摘”(Literary Digest)雜誌面向訂閱者開展的民意測驗,是史上知名度最高的統計錯誤。雜誌編輯沒有意識到,訂閱這本雜誌的人平均來說要比普通美國民眾更富有,他們更傾向於投票給保護富人利益的共和黨。這樣帶有選擇性偏見的樣本即使容量很大,也無法正確反映民意。

2.倖存者偏差:如果樣本中有數據缺失,會導致樣本組成發生改變。

【案例】很多投資基金公司會同時開放 20 支新基金,經過 3 年的經營,總會有 2 到 3 支基金連續 3 年 “跑贏” 標準普爾指數。公司只要把十幾隻失敗的基金悄悄關閉,大肆宣傳這 2、3 支 “倖存者”,就可以把投資者的錢騙進來了。而實際上,這些 “倖存” 基金接下來的表現會逐漸回歸平均水平。

3.健康用戶偏見:用來比對的樣本其實選擇在了不同群體當中。

【案例】假設衛生部門發現,哈佛大學新生中有 98% 的人在少年時期穿紫色睡衣,而監獄裡的犯人中只有 3% 的人這樣做過。因此得出了一個結論:穿紫色睡衣的孩子確實更有可能取得成功。這很顯然是很荒謬的結論,這個問題在於我們用來對比的兩組人根本就是兩類人。真正對孩子大腦發育起作用的,是給孩子穿上紫色睡衣的家長,他們更注重對孩子的家庭教育。

四、回歸分析

1.對那些錯綜複雜的問題,回歸分析可以通過建模計算,從已知現像中還原未知原因,甚至可以計算每種原因對結果的貢獻比例。

【案例】醫學家發現,級別較低的公務員更容易患上心臟病。“白廳” 研究項目組經過長時間縱向數據採集,比對了可能導致心臟病的一系列原因,包括低階公務員的學歷普遍偏低,煙民比例高,醫療服務差,加班多,鍛煉少等等。面對這些錯綜複雜的變量,統計學家建立回歸方程,計算了各個變量和心臟病發病率的線性關係回歸。分析表明,造成心臟病高發的真正原因,是對工作缺乏控制力和話語權。而這類存在感較低的崗位,在低級別職位中更常見。

2.電腦永遠不能代替人的工作,如果在進行回歸分析時遺漏了變量,就會得出危險的結論。

【案例】上世紀 90 年代,哈佛大學醫學院對 12 萬名女性開展縱向調查,經回歸分析顯示,定期攝入雌激素可以減少女性心臟病發病率,隨後醫院開始提供雌激素的補充治療。而後來的臨床試驗發現,此舉會導致乳腺癌和血栓病高發,因此死亡的女性患者可能達到上萬人。

五、常犯的機率學錯誤

1.“黑天鵝” 事件:忽視小機率事件,有時會造成嚴重的後果。

【案例】2008 年美國次貸危機爆發前,整個北美金融行業都在使用同一個風險價值模型來預測投資風險。這個模型的強大之處在於它非常精確,可以預測 99% 的市場風險。然而,該模型是根據過去 20 年的市場行為建立的,不能對剩餘 1% 的意外情況做出預測。可是,隨著 2007 年美國商業銀行房貸業務的崩潰,“黑天鵝” 真的出現了,整個華爾街措手不及,一次全球大範圍的金融危機因此爆發。

2. “檢察官謬誤”:通過統計數據推斷出的結論,必定存在誤差,不會 100% 正確。即使誤差再小,也不能忽視它的存在。

【案例】假設一名法官被告知:犯罪現場遺留的 DNA 樣本和被告的 DNA 相吻合,除了被告以外,這個樣本和其他人 DNA 相吻合的機率只有百萬分之一。如果僅憑這些證據為被告人定罪,就可能出現冤案。百萬分之一的誤差看似很小,但警方的 DNA 樣本庫數量非常龐大,通過樣本比對,找到兩個 DNA 特徵相似的人並非不可能。

雪球》授權轉載

【延伸閱讀】

 
週餘
 
 
分享文章
分享至 Line
分享至 Facebook
分享至 Twitter
收藏 已收藏
很開心您喜歡 雪球 的文章, 追蹤此作者獲得第一手的好文吧!
雪球
分享至 Line
分享至 Facebook
分享至 Twitter
地圖推薦
 
推薦您和本文相關的多維知識內容
什麼是地圖推薦?
推薦您和本文相關的多維知識內容