大數(shù)據(jù)面前，統(tǒng)計學的價值在哪里

2019-04-04 16:39:20來源：作者：

統(tǒng)計學對大數(shù)據(jù)的意義

很高興有這樣一個機會，我能與大家在這里做一些關于統(tǒng)計學與大數(shù)據(jù)的交流，與大家分享一些觀點。

在講大數(shù)據(jù)之前，我們首先來看看什么是數(shù)據(jù)。很長一段時間里，大家對數(shù)據(jù)的理解，可能只是停留在阿拉伯數(shù)字這個層面。近些年來，大家開始講大數(shù)據(jù)。結果有人就開始好奇了：這個大數(shù)據(jù)和我們之前說的數(shù)據(jù)有什么關系呢？

阿拉伯數(shù)字是不是數(shù)據(jù)呢？當然是數(shù)據(jù)。大數(shù)據(jù)是不是數(shù)據(jù)呢？當然也還是數(shù)據(jù)。不過，現(xiàn)在我們對數(shù)據(jù)的理解要廣泛得多了。凡是可以被數(shù)據(jù)化的信息載體，我們都可以認為是數(shù)據(jù)。比如說，我們接觸的文本，包括平時看到的一些文字，現(xiàn)在我們都可以把它量化。我們看到的圖片、視頻和音頻，現(xiàn)在也都可以量化。包括阿拉伯數(shù)字、文本、圖片、視頻和音頻，我們都稱之為數(shù)據(jù)?，F(xiàn)在我們理解的數(shù)據(jù)，從來源上來說更加廣泛了，從類型上說變得很復雜了。這些不同來源、類型復雜的數(shù)據(jù)組合在一起，達到一定的體量之后，就可以認為是一個大數(shù)據(jù)了。

現(xiàn)在我們來說一下統(tǒng)計學，統(tǒng)計學是什么呢？首先，從學科定位上說，統(tǒng)計學已經(jīng)被列為一級學科了。這一點和數(shù)學、法學等都一樣了。大不列顛百科全書對統(tǒng)計學有個定義，說這是一門收集數(shù)據(jù)、分析數(shù)據(jù)的科學和藝術。定義中提到統(tǒng)計學是一門科學，這個容易理解。那為什么說統(tǒng)計學是一門藝術呢？這個問題，就和我今天主要回答的一個問題很有關系。順便說一句，現(xiàn)在美國很多高校的統(tǒng)計系，它并不設在理學院下面，而是設在藝術學院下面。

今天我主要回答一個問題：在大數(shù)據(jù)時代，我們究竟是否需要基于抽樣的統(tǒng)計學？

有些人認為，現(xiàn)在計算機科學非常發(fā)達，可以收集海量的數(shù)據(jù)。為了特定的研究目的，我們現(xiàn)在甚至有能力通過計算機技術收集與特定的研究目的相關的全部數(shù)據(jù)。今天，基于抽樣的統(tǒng)計學就沒有那么重要了，甚至都不在被需要了。事實真的是這樣嗎？

統(tǒng)計學是一門收集數(shù)據(jù)的藝術

既然統(tǒng)計學被認為是一門收集數(shù)據(jù)、分析數(shù)據(jù)的科學和藝術。我們暫時不談科學，先來看看統(tǒng)計學為什么被認為是一門收集數(shù)據(jù)的藝術。

我們來看第一個案例。這個案例是希望調(diào)查15個國家的國民的誠實情況。調(diào)查人員想要知道，哪些國家的國民最傾向于撒謊，哪些國家的國民很誠實。如果直接去問被調(diào)查的人員：“您是否撒過謊？”十之八九，是問不到真實答案的。如果被調(diào)查人員以前撒過謊，也不在乎多撒這個謊了。被調(diào)查人員可能出于不同的動機，不愿意給出真實答案。那么，調(diào)查數(shù)據(jù)怎么得來呢？這顯然不是簡單地通過計算機技術、通過某些爬蟲軟件就容易收集到適合研究目的相關數(shù)據(jù)的。

如何利用統(tǒng)計學方法來收集數(shù)據(jù)呢？這就需要統(tǒng)計學的智慧了。調(diào)查人員設計了兩組實驗。

調(diào)查人員先從每一個國家找1000人參與測試，15個國家一共找了15000人，找這么多不同國家的人來面對面調(diào)查，這是非常困難的，所以調(diào)查人員通過互聯(lián)網(wǎng)找到了這15個國家共計15000人。兩組實驗都是在互聯(lián)網(wǎng)上進行的。

在第一組中，他們先做了一個測試，請受調(diào)查者在家里拋硬幣，硬幣有正反兩面，調(diào)查者事先規(guī)定，受調(diào)查者拋硬幣之后要告訴我結果，如果硬幣正面朝上，我就獎勵你十塊錢，如果反面朝上，我就不給你獎勵。這個調(diào)查不需要提供你拋硬幣的證據(jù)，只是由你告訴調(diào)查者，拋硬幣的結果。這也就是說，受調(diào)查者有沒有撒謊，只有他自己知道。

這個最后的結果，實際上調(diào)查者是有參照的。因為，每個國家有1000人參與測試。正常情況下，1000次拋硬幣的結果，應該是500次左右正面朝上。某個國家參與實驗的1000個人之中，如果有900個人聲稱自己拋出來的硬幣正面朝上，甚至1000人聲稱拋出來硬幣正面朝上。那么，很大概率就是其中有人撒謊了。這是第一組實驗。

第一組的實驗有價值，但是它也不一定能夠全面反映真實的情況，所以調(diào)查人員還有第二組實驗。

第二組實驗，是要求受調(diào)查者回答五個問題。這五個問題在回答之前，需要受調(diào)查者承諾，他不能為了答題去查閱任何資料，不能去尋求任何幫助，也就是說，看了這五個問題之后，受調(diào)查者需要立即給出答案。調(diào)查者承諾，如果五個問題中，回答對了四個以上，就獎勵給受訪者十塊錢，如果答對三個或者三個以下，就沒有獎勵。

而這五個問題中，其中有三個問題特別簡單，類似于像1+1等于幾這種問題。另外兩個問題則非常生僻。如果受調(diào)查者不去查閱資料或咨詢他人的話，基本是不太可能回答出來的。因此，如果有受調(diào)查者答對了這兩道難題，十有八九就說明他違反了自己事先承諾的“不去查閱資料尋求幫助”，由此可以推論他在這件事情上不誠實。

然后統(tǒng)計人員通過這兩組實驗結果，互相驗證。這兩組數(shù)據(jù)收集的過程都非常恰當?shù)伢w現(xiàn)了統(tǒng)計學在收集數(shù)據(jù)方面的智慧。

所以說，即使在大數(shù)據(jù)時代，不是說有了計算機，有了爬蟲技術，我們就能收集到適合研究目的的所有數(shù)據(jù)。統(tǒng)計學是一個收集數(shù)據(jù)的藝術，針對特定的研究目的，設計非常漂亮的數(shù)據(jù)收集方案，就是一個非常藝術的收集數(shù)據(jù)的過程了。

我們再舉一個例子。這是最近美國麻省理工剛剛完成的一個實驗，大致在2018年左右完成的，實驗結果也公布出來了。目的是想了解大家目前的婚姻觀念，100人受到邀請來到一個封閉的場所參與這個實驗。參加實驗時，每人都會被貼上一個編號。男的編號是單數(shù)一三五七九，女的編號是雙數(shù)二四六八十，以此類推。參與實驗的這100人不知道自己的編號，也不知道究竟有多少人參加了這次實驗。換句話說，他們不知道參加這次實驗的正好是50個男人和50個女人，受訪者僅僅知道，這次實驗有很多人參加。

在這里統(tǒng)計人員采取了一點小花招，就是當受訪者進門的時候，把編號貼在受訪者后背上，受訪者知道自己有編號，但是不知道自己的編號是多少，不過他能夠看到別人后背上的編號。實驗規(guī)則說，允許100人中的任何兩個人進行交談，除了不能告訴對方他的后背編號是多少，其他話題都可以談。

然后實驗者把這100人帶到一個很小的一個房間里，宣布給大家5分鐘時間，在這5分鐘內(nèi)，大家自行配對，每人只能配一名異性。5分鐘結束之后，如果配對成功了，兩個人背后的數(shù)字加起來乘以十，就是兩人能夠拿到的獎金。也就是說，如果編號是100的那個女性找到了那個編號為99的男性，那么兩人就可以拿到（100+99）×10的獎金，也就是1990美元，這筆錢已經(jīng)很可觀了。但是如果你是一個編號為2的女性，而你找到的是那個編號為1的男性，那么你倆只能得到（1+2）×10也就是30美元，你倆用這獎金一起吃頓飯都不一定夠。但是5分鐘之后，如果還沒有配對成功的話，你就連一美分都拿不到。因此，參加者必須在5分鐘之內(nèi)，在一個很小的擁擠空間內(nèi)，盡快找到愿意跟自己配對的那個人。而且在這個過程中，要盡可能讓自己的獎金數(shù)額變得很大。

實驗人員之所以把100人故意安排在非常擁擠的小房間內(nèi)，就是考慮到，一方面要讓大家能夠很快速地看到一些人的編號，另一方面又能保證一個人不可能看到所有人的編號。在人擠人的情況下，有些編號是肯定看不到的。

實驗開始了。

一些人很快就發(fā)現(xiàn)，自己連續(xù)跟別人配對三四次，大家都拒絕他。這很可能說明，自己后背的編號數(shù)字不夠大，別人不感興趣。于是這其中就有人采取了應對策略，他跟別人講，如果你愿意跟我配對的話，那我愿意把獎金全部給你，反正我數(shù)字也不大，所以我的錢不要了。還有人說，只要你這次跟我配對成功了，我們出去以后，我再單獨請你吃頓飯。

另外還有一些人，雖然他不知道自己后背的編號，但是他發(fā)現(xiàn)有很多人過來找他，所以他很快就意識到，自己后背的編號很可能很大，但具體多大，他并不知道。而且要盡可能讓兩個人組合出來的數(shù)字變得很大。于是他很快就把眼前這批他能看到數(shù)字的人拒絕掉了，因為他理所當然地認為接下來肯定還有更大的編號，但是他并不知道最大的編號是多少，同時他還必須要在5分鐘內(nèi)快速決定跟誰配對。

這個實驗的結果是，編號99的男性并沒有與編號100的女性配對成功。那位編號100的女性，找到的是編號八十幾的一位男性。那些數(shù)字在中間的人，大體都配對了跟自己差不多的另一個人。這個結果，很符合中國的一種傳統(tǒng)思想，也就是門當戶對。

我們現(xiàn)在來看這個實驗的結果，它基本上跟中國男女婚姻觀念的現(xiàn)實比較類似。比如說，實驗者因為自己編號小，就讓渡自己的獎金給對方甚至于承諾事后請對方吃飯，以求得成功配對，這個跟現(xiàn)實中“我的個人條件差一些，但是我父母同意我們兩個結婚之后送給我們一套房子”的承諾是類似的。而且我們在生活中也發(fā)現(xiàn)，一些最優(yōu)秀的男性女性，他們身邊不乏追求者，但是他們并沒有找到自己的“最佳匹配對象”。

這個數(shù)據(jù)的收集過程也是非常漂亮的。

數(shù)據(jù)并不是越多越好

統(tǒng)計本身是一門收集數(shù)據(jù)的科學，但是數(shù)據(jù)是不是越多越好呢？很難說。

歷史上有一個非常有名的例子。大約500年之前，丹麥有一個天文學家叫第谷，他從當時的丹麥國王那里要了一筆錢，建了一個實驗室。第谷天天去觀察每顆行星的運動軌跡，并且每天記錄下來。于是第谷觀察了20年，記錄了大量的數(shù)據(jù)。不過，這個數(shù)據(jù)太多了，第谷花了大量時間、精力來分析這個數(shù)據(jù)，但沒有發(fā)現(xiàn)任何規(guī)律。

這時候，一個叫開普勒的人出現(xiàn)了。開普勒認為，第谷每天去觀測，一年365天每一顆行星都會有365個數(shù)據(jù)，這樣20年觀測記錄積累下來，要分析處理的數(shù)據(jù)就太多了，而且那個時候的數(shù)據(jù)分析只能依靠手工計算，這個處理工作量實在太大了。于是開普勒就說，能不能每年只給我一個數(shù)據(jù)，比如說你可以只告訴我每年的1月1日，地球在什么位置，土星在什么位置，太陽在什么位置，等等。這樣20年的觀測數(shù)據(jù)篩選之后，每一顆行星的數(shù)據(jù)就只有20個了。開普勒知道，地球每隔365天會回到同一個位置，然后他把地球的位置固定，再分析其他行星跟地球的相對位置。開普勒通過固定地球的位置，對其他行星位置20年的數(shù)據(jù)進行分析，就成功得到了其他行星的運行軌跡。此后開普勒就發(fā)現(xiàn)，如果地球位置不變的話，那么其他行星的20年運行軌跡畫出來之后，這些行星都是圍著太陽運轉，運行軌跡都是橢圓形的。由此開普勒發(fā)現(xiàn)了行星運動的規(guī)律。

從這個天文學上的著名案例，我們可以看出來，數(shù)據(jù)太多可能會導致信息量變得巨大，反而增加尋找到規(guī)律的難度。從而需要通過科學的方法簡化數(shù)據(jù)。

關于這方面的案例還有不少。比如說美國總統(tǒng)富蘭克林·羅斯福。他是美國歷史上唯一一位連任四屆的總統(tǒng)。1932年的時候他第一次當總統(tǒng)，當時美國和許多國家正在遭受經(jīng)濟危機，羅斯福面臨的壓力也很大。因此到了1936年羅斯福想競選自己的第二任總統(tǒng)的時候，美國許多人預測羅斯福很難連任。那一次，羅斯福的主要競選對手是蘭登。當時就有兩個機構在預測總統(tǒng)選舉結果，其中一個是《文學文摘》雜志，它在當時是一個非常有影響力的刊物，因為這個雜志此前幾次對總統(tǒng)選舉結果的預測都成功了。到了1936年美國總統(tǒng)選舉的時候，文學文摘搞了一個大的調(diào)查統(tǒng)計，它調(diào)查了240萬人。具體方式就是在雜志里面夾上關于總統(tǒng)選舉的調(diào)查問卷，然后收集反饋。其實當時文學文摘調(diào)查的還不止240萬人，還要更多，只不過最后收回來的有效問卷是240萬份。正是根據(jù)這個調(diào)查結果，文學文摘宣布他們預測蘭登將戰(zhàn)勝羅斯福贏得大選。

而當時還有一個機構，準確地說是一個年輕人，叫蓋洛普，他的預測結果跟文學文摘的預測正好相反。起初蓋洛普做這類調(diào)查統(tǒng)計，是因為他的母親要競選眾議員，他是給他母親幫忙，于是就在經(jīng)費不多的情況下做了對較小人群的相關調(diào)查，然后這個調(diào)查結果很成功，他母親當上了眾議員。接下來他就想調(diào)查一下，羅斯福和蘭登誰會贏得1936年競選。但是他比不了文學文摘的財大氣粗，所以他只調(diào)查了5000個人，根據(jù)這5000人的調(diào)查結果，蓋洛普預測羅斯福當選。

結果羅斯福果然成功連任總統(tǒng)，蓋洛普的預測勝利了。

這個選舉結果出來之后，對《文學文摘》雜志的聲譽造成了巨大的沖擊：畢竟文學文摘調(diào)查了240萬人，最后卻發(fā)布了一個錯誤的預測，而蓋洛普只調(diào)查了5000人，發(fā)布的預測卻是正確的。結果，文學文摘因為這個事情后來就關門倒閉了。而那個年輕人蓋洛普，就此成立了一個民意調(diào)查公司，也就是現(xiàn)在的蓋洛普咨詢公司。

這是事情的結果。那么為什么調(diào)查了5000人的預測，要比調(diào)查240萬人的結果更準確呢？我們先不說240萬這種海量數(shù)據(jù)，它在規(guī)模變大以后會帶來計算效率的下降，我們也不提這類海量收集數(shù)據(jù)會導致成本居高不下的問題。根本的原因，是當時文學文摘通過雜志夾帶問卷進行調(diào)查的這種方式。因為當初問卷是夾在雜志中發(fā)放的，所以文學文摘收集來的240萬份有效問卷，實際面對的都是訂閱了這份期刊的用戶。那么，當時什么樣的家庭會訂閱這樣的雜志呢？一般來說都是家境比較好的家庭，所以，文學文摘雖然號稱調(diào)查了240萬人之多，但是它調(diào)查的主要群體，是當時美國國內(nèi)相對而言有錢的那部分人。而窮人群體的意見，它這個調(diào)查實際并沒有覆蓋到。

數(shù)據(jù)的量多不一定就代表準確，收集來的數(shù)據(jù)質(zhì)量好、有代表性，才有可能分析出準確的結果。

統(tǒng)計學是一門分析數(shù)據(jù)的藝術

前面舉了一些例子，提醒我們需要非常小心地設計方案收集數(shù)據(jù)。數(shù)據(jù)收集上來之后，我們還要做數(shù)據(jù)分析。按照前面大不列顛百科全書的說法，統(tǒng)計學同樣是一門分析數(shù)據(jù)的藝術。

講到數(shù)據(jù)分析，在這里我只講兩個基本概念：相關與因果。為什么講這兩個概念呢？這是因為人們常?；煜@兩個概念，常常會把相關關系誤以為是因果關系。在許多科學研究和政策問題評價中，我們更關心因果關系。但是，當我們看到了某種形式的相關關系后，常常會誤以為這就是我們追求的因果關系了。

比如說，在中世紀的歐洲，很多人相信，虱子對人的健康是有幫助的。這是因為當時人們發(fā)現(xiàn)，得病的人身上很少有虱子，而健康人的身上反而是有虱子的。這是長期的觀察累積下來，形成的經(jīng)驗。在中世紀的歐洲，很長一段時間里人們都根據(jù)這個經(jīng)驗，得出這樣一個因果推論：這個人身上有虱子，所以他身體健康，那個人身上沒虱子，說明他身體不健康。

當時，人們確實觀察到虱子的存在與否跟人是否健康構成了相關關系，但是，這是因果關系嗎？有了溫度計以后，人們就發(fā)現(xiàn)了，這不是真正意義上的因果關系：因為虱子對人的體溫非常敏感，它只能在一個很小的溫度區(qū)間范圍生存下來。而人體一旦生病的話，很多時候會出現(xiàn)發(fā)燒癥狀。人體一發(fā)燒，溫度變化，虱子就無法適應發(fā)燒時候的熱度，于是跑掉了。如果我們只停留在觀察到健康與否和虱子多寡之間存在關系，那實際只是相關關系，而不是因果關系。與之類似的例子還有很多，比如說，我們看到每年冰淇淋銷量增加的同時，各地不幸溺亡的人數(shù)也在增加。那么這兩件事情是不是構成因果關系呢？常識告訴我們，肯定不是。其實是因為每年氣溫升高之后，游泳的人可能就多了起來了，隨之溺亡人數(shù)也就相應增加了。而同樣是因為氣溫升高，冰淇淋的銷量也會增加。

也就是說，如果我們觀察到一個因素出現(xiàn)了一點點變化，另外一個因素也會隨著跟它變化，它們之間可能就有相關關系，但是這種相關關系，并不意味著這兩個因素構成因果關系。

如何判斷因果關系呢，這就需要我們非常小心，而且要非常藝術地做數(shù)據(jù)分析了，我們最終還是要回到統(tǒng)計學上來。

這里，我們舉一個歷史上的疾病案例，這就是小兒麻痹癥，也就是脊髓灰質(zhì)炎?，F(xiàn)在大家看到的小兒麻痹癥病例比較少，因為現(xiàn)在有相應的疫苗。歷史上，脊髓灰質(zhì)炎曾經(jīng)是一個讓人非常害怕的疾病。

在20世紀50年代，當時美國一所大學的實驗室，做出了一種針對這個疾病的疫苗，已經(jīng)證明它在實驗室條件下能夠產(chǎn)生有效的抗體。但是他們不知道，如果應用到實際生活中的大規(guī)模實驗，這個疫苗還會不會有效。所以當時美國政府部門就決定要做實驗，這個時間大致在1954年。因為當時脊髓灰質(zhì)炎的患者主要是孩子，所以當時的實驗人群定為小學一二三年級的學生。怎么做實驗才能夠真正說明疫苗是否有效呢？為了確保統(tǒng)計結果最終反映真實的因果關系，當時提出了五套實驗方案。

第一套方案是，因為1953年之前是沒有這個疫苗的，所以就從1954年開始，給所有的一二三年級小學生接種疫苗，最后再來看一下，1954年的發(fā)病率，跟1953年相比，會不會有差別。這個方案是個辦法，但是它有問題，因為之前每一年的脊髓灰質(zhì)炎發(fā)病率的差別比較大。比如說1951年全美可能有3萬名脊髓灰質(zhì)炎患者，1952年則有6萬名，而1953年又可能縮減到不足4萬名。這個脊髓灰質(zhì)炎每年發(fā)病率的波動都比較大，萬一到時候?qū)嶒灲Y果是3萬名到4萬名之間，如何判斷這個結果是隨機變化的，還是疫苗發(fā)生了作用？

第二個方案則提出要按照地區(qū)來做。比如，在紐約地區(qū)，就給一二三年級小學生們?nèi)拷臃N疫苗，而在芝加哥地區(qū)的就全部不接種疫苗，然后來統(tǒng)計，紐約和芝加哥這兩個地區(qū)的脊髓灰質(zhì)炎發(fā)病情況。這個方案后來發(fā)現(xiàn)也不行。因為脊髓灰質(zhì)炎本身就是傳染病，一個地區(qū)可能流行這個疾病了，而另外一個地區(qū)就可能沒流行，那么這兩個地區(qū)的數(shù)據(jù)看起來就會有差異，但是這不是疫苗的效果，不具有可比性。

于是就有人提出了第三個方案。因為當時這個疫苗接種，誰也不知道有沒有副作用，因此是有一定風險的。所以這個方案就提出，讓接種疫苗的孩子們的父母來自行選擇。有的家長選擇給孩子接種疫苗，有的就不選擇接種，這樣同一批孩子就會出現(xiàn)不同的對照。但是這么做，也有問題。因為當時人們已經(jīng)發(fā)現(xiàn)，脊髓灰質(zhì)炎的患者一般來自于家境比較好的家庭。這是因為，那些家庭經(jīng)濟狀況比較差的家庭，因為生活條件差，衛(wèi)生條件不好，可能一個人很早就接觸過脊髓灰質(zhì)炎的病毒了，甚至很可能在剛剛出生的時候就接觸了脊髓灰質(zhì)炎的病毒，但是剛出生的嬰兒是有母體的免疫力的，嬰兒憑借母體的免疫力，接觸這個病毒之后能夠產(chǎn)生抗體，反而不會得病。當時的這類數(shù)據(jù)情況已經(jīng)展現(xiàn)了這種現(xiàn)象。如果采用自愿接種的方式，那些經(jīng)濟狀況比較好的家庭，往往愿意讓自己的小孩去接種，而經(jīng)濟狀況不好的家庭由于經(jīng)費原因，同時也知道自己這個階層染病率稍微低一些，他可能就不愿意接種了。這樣就造成了對實驗結果的干擾，你無法判斷到底是疫苗有效還是經(jīng)濟原因?qū)е碌牟煌Y果。

然后是第四個方案。有人提出，只讓二年級的學生接種，而一年級和三年級學生不接種。之后再比較接種的跟不接種的學生之間的區(qū)別，看他們的發(fā)病率會不會有差別。這個方案是當時的一個脊髓灰質(zhì)炎防治委員會提出的方案。這個方案同樣行不通，第一，它同樣無法避開接種孩子家庭貧富差距導致的患病概率差異。第二，脊髓灰質(zhì)炎是一種傳染疾病，人群的年齡是對這種傳染有影響的，一、二、三年級的學生年齡層次有差別，可能就會導致各個年級學生得病概率的差異。此外這個方案還有第三個重大缺陷，那就是可能會對醫(yī)生形成心理上的誘導。如果按照這個方案執(zhí)行下去，醫(yī)生們就是知道的，一、三年學生沒有接種疫苗，而二年級同學中有部分同學接種了疫苗。當時脊髓灰質(zhì)炎的診斷還不太容易，如果醫(yī)生已經(jīng)知道了這個疫苗接種方案，而且也提前知道這個疫苗在實驗室階段是管用的，那么醫(yī)生在面對一年級學生時，一旦這個疾病還無法確診，那么這個醫(yī)生就很可能根據(jù)“一年級學生沒有接種疫苗”“疫苗是有效的”這兩個提前的認知，就直接診斷這名一年級學生得了脊髓灰質(zhì)炎。而且這種區(qū)別對待的方案，接種的學生本身心理也會受到影響的。

當時還有第五個方案，也就是最終執(zhí)行并被采納了調(diào)查結果的方案。這個方案具體來說，就是在征得學生家長同意之后，仍舊會告訴家長：你即使同意接種疫苗，我給你家孩子接種的，也不一定是疫苗，而是一種看起來跟疫苗一模一樣的安慰劑，沒什么副作用也沒有什么效果。因為這個安慰劑跟疫苗長得一樣，所以醫(yī)生和學生都不知道到底接種的是疫苗還是普通的安慰劑，但是疫苗提供方是知道的，它對每一個藥品都加了編號，因此疫苗提供方知道哪些是安慰劑，哪些是疫苗。通過這樣的方式，實驗室實現(xiàn)了隨機的方式接種疫苗，而且無論家境好壞，這個接種疫苗都是隨機的。同時醫(yī)生們也不知道，到底是哪一些小孩接種了疫苗。這就規(guī)避了年齡、經(jīng)濟條件等各種擾動，有助于確定脊髓灰質(zhì)炎與疫苗之間真正的因果關系。

1954年，這個實驗大約有74萬名小學生參與。最終的實驗結果是，如果接種疫苗，孩子罹患脊髓灰質(zhì)炎的概率大約是十萬分之28，如果不接種疫苗，患病概率大約是十萬分之77，二者相差一倍多。之后又經(jīng)過各種努力，脊髓灰質(zhì)炎疫苗在美國獲得了通過。

許多科學結論、政策評價都依賴于因果分析而不是相關分析。統(tǒng)計學能夠幫助我們證明那些我們所需要的因果關系。很多時候，真正的因果關系，不能簡單地建立在相關關系的基礎之上。還有很多科學問題，仍需要我們?nèi)グl(fā)現(xiàn)真正的因果關系，這正是統(tǒng)計學可以提供數(shù)據(jù)收集以及分析方案的地方，也是統(tǒng)計學的魅力所在。（來源：光明日報）

返回列表

免费人成网站在线视频-亚洲av午夜精品麻豆av-日韩色大片在线观看-欧美日韩一区二区久久

大數(shù)據(jù)面前，統(tǒng)計學的價值在哪里