北京青年報報道,6月14日,北京新增36例新冠肺炎確診病例,事發(fā)地:北京新發(fā)地蔬菜市場,北京四天以來已累計報告79例,豐臺區(qū)、大興區(qū)、西城區(qū)、海淀區(qū)、房山區(qū)、朝陽區(qū)、東城區(qū)、石景山區(qū)等區(qū)已經(jīng)報告病例,豐臺副區(qū)長被免職。

6月14日0—24時,31個?。ㄗ灾螀^(qū)、直轄市)和新疆生產(chǎn)建設(shè)兵團報告新增確診病例49例,其中境外輸入病例10例(四川4例,重慶2例,陜西2例,上海1例,福建1例),本土病例39例(北京36例,河北3例)。

疫情仿佛已有卷土重來之勢,新發(fā)地病毒基因測序來自歐洲方向。

圍繞新冠肺炎的源頭一直是個未解之謎,各國也互相指責(zé)對方,沒有確切的證據(jù)是沒人會信服的。

新冠肺炎疫情爆發(fā)后,我們都聽說了引起這次疫情的起源地是武漢市的華南海鮮批發(fā)市場,因為開始時有著多個病例和該市場都有直接關(guān)系,他們有的是市場中的商販,有的是去該市場購買過貨物,因此一般認為是由華南海鮮批發(fā)市場中的野生動物傳染給人。

可是。。。

后來發(fā)現(xiàn)居住在武昌某小區(qū)的陳姓患者被認為是確診的第1例新冠肺炎患者,然而他卻并沒有去過武漢華南海鮮批發(fā)市場,因此新冠病毒的*早傳染源應(yīng)該并非來自于這家市場。

后來疫情在全國爆發(fā),各地對有武漢旅居史的人開始一律進行檢測隔離。

隨著中國疫情得到初步控制,歐洲疫情又開始爆發(fā),又有*說疫情源頭在意大利,之后又有源頭在澳洲的傳言。

關(guān)于這個源頭的傳言沸沸揚揚傳了幾個月,直到全球疫情爆發(fā),大家都開始自顧不暇,找出源頭成了科學(xué)家的事情了,大家都在想著如何控制疫情的進一步傳播。

到底源頭是哪里,至今沒有定論,關(guān)于如何控制,依然需要倍加關(guān)注。

即使國內(nèi)各地都在想方設(shè)法搞經(jīng)濟,很多地方除了外出乘坐公共交通,大部分時間已經(jīng)摘下口罩,但疫情防控依然不能松懈,這不,北京這一波仿佛就在提醒大家:別大意!

北京人民已經(jīng)深切得感受到了。

相關(guān)關(guān)系和因果關(guān)系

圖片源于網(wǎng)絡(luò),侵刪

隨著生活中越來越多的新事物出現(xiàn),我們慢慢的都不再追求因果,轉(zhuǎn)而去尋找相關(guān)。

就像疫情,討論源頭對我們大眾來說幾乎沒啥意義,還不如勤洗手、戴口罩阻斷傳播來源來的實在,因為口罩對于預(yù)防新冠肺炎已經(jīng)經(jīng)受了大量的考驗:戴口罩的人越多,疫情就控制的越好。

謠言的另一面:錯把相關(guān)關(guān)系當(dāng)做因果關(guān)系

有些謠言是空穴來風(fēng),我們要三思而行,比如疫情期間的板藍根熱、雙黃連熱;比如*近關(guān)于北京疫情的謠傳;這些謠傳很容易就會被拆穿,只不過我們需要的是和造謠者比速度。

謠言的另一面:錯把相關(guān)關(guān)系當(dāng)做因果關(guān)系

圖片源于網(wǎng)絡(luò),侵刪

有些謠言則是有理有據(jù),但更多的是理據(jù)不分,讓人們誤認為相關(guān)關(guān)系是因果關(guān)系。

下面就舉幾個例子談?wù)剮追N假的因果關(guān)系。

1.相關(guān)是偶然的

比如蕭敬騰所到的城市,常常用下雨歡迎他的到來,而蕭敬騰也被冠上了"雨神“的稱號,如果計算蕭敬騰的到達和下雨的相關(guān)系數(shù),相比是*的高。但我們都清楚,這*純屬偶然。

2.第三方的影響

統(tǒng)計顯示,游泳死亡人數(shù)和冰糕售出量之間呈正相關(guān)關(guān)系。那我們可以得出吃雪糕會增加游泳溺水的風(fēng)險嗎?顯然不是,它們都是受了夏天氣溫升高所致。

3.只是原因之一

吸煙的人很多都患上了肺癌,不吸煙的人患上肺癌相對較少。如果作出“吸煙一定會導(dǎo)致患上肺癌'這樣的推斷,一定是不嚴謹?shù)?,因為我們都知道:?dǎo)致肺癌的原因有很多,比如空氣污染、遺傳、其他不良的生活習(xí)慣,吸煙只是其中的一個原因。

吸煙

圖片源于網(wǎng)絡(luò),侵刪

再次強調(diào):因果關(guān)系≠相關(guān)關(guān)系

因果關(guān)系,是指一個變量的存在一定會導(dǎo)致另一個變量的產(chǎn)生,變量之間存在先后順序。

而相關(guān)性是統(tǒng)計學(xué)上的一個概念,是指一個變量變化的同時,另一個因素也會伴隨發(fā)生變化,但不能確定一個變量變化是不是另一個變量變化的原因。比如天氣冷和下雪通常一起發(fā)生,說明兩者有很強的相關(guān)性,但不能肯定是誰導(dǎo)致了誰,所以不確定兩者是夠有因果關(guān)系。

為何我們會有這樣的錯覺

1.思維慣性

我們的快速思維模式使我們直接將其歸于任何我們能在*時間想起來的因果關(guān)系,因此,這經(jīng)常導(dǎo)致我們做出錯誤的決定。

與常識相反,經(jīng)常憑借直覺而來的因果關(guān)系并沒有幫助我們加深對這個世界的理解。

很多時候,這種認知捷徑只是給了我們一種自己已經(jīng)理解的錯覺,但實際上,我們因此完全陷入了理解誤區(qū)之中。

就像采樣是我們無法處理全部數(shù)據(jù)時的捷徑一樣,這種找因果關(guān)系的方法也是我們大腦用來避免辛苦思考的捷徑,所以我們選擇了捷徑,選擇了這種快速的思維模式。

2.數(shù)據(jù)的不足

在小數(shù)據(jù)時代,很難證明由直覺而來的因果聯(lián)系是錯誤的,所以我們這種思維模式很容易讓我們相信傳言,因為你無法證明人家是錯的呀,人家也是有證據(jù)的。就像之前我們講的假設(shè)檢驗思維一樣:要想證明我是錯的,*證明你是對的。你沒有足夠的樣本數(shù)據(jù),就無法在大概率下證明你是對的,所以你就不能拒絕別人的說法。

3.對因果關(guān)系的執(zhí)迷

幾千年來,探討事物之間的因果關(guān)系是理、工、農(nóng)、醫(yī)、文幾乎所有科學(xué)研究的重要目的。相關(guān)性和因果性是哲學(xué)問題,哲學(xué)家、數(shù)學(xué)家、統(tǒng)計學(xué)家、物理學(xué)家、醫(yī)學(xué)家、經(jīng)濟學(xué)家大都將尋找自身研究領(lǐng)域中的因果關(guān)系當(dāng)做一生的追求。

古希臘哲學(xué)家說:“我寧肯找到一個因果關(guān)系的說明,不愿獲得一個波斯王位?!鼻О倌?,雖然哲學(xué)家思辯方式已深入人心,老百姓還是相信事出有因,宗教人士宣傳因果報應(yīng)。

大數(shù)據(jù)時代:相關(guān)關(guān)系的困境

1.一方面相關(guān)關(guān)系大放異彩

現(xiàn)在,情況不一樣了,大數(shù)據(jù)之間的相關(guān)關(guān)系,將經(jīng)常會用來證明直覺的因果聯(lián)系是錯誤的:我們只是相關(guān),并不是因果關(guān)系。

但這并不妨礙大數(shù)據(jù)時代下對于社會的認知,比如,如果沒有大數(shù)據(jù)和統(tǒng)計技術(shù),某寶某東某多多就不會知道它們所賣的產(chǎn)品是哪些人在購買,購買人群的年齡和他們收入水平之間的關(guān)系,如果沒有產(chǎn)品銷量的變化和買家之間的共性進行相關(guān)性分析,也就不會實現(xiàn)廣告的*化投放,銷售額的持續(xù)增長。

銷售額

圖片源于網(wǎng)絡(luò),侵刪

大數(shù)據(jù)來了,相關(guān)性的凸顯,使我們看到了以前不曾注意的聯(lián)系,掌握了以前很難理解的復(fù)雜系統(tǒng)。通過相關(guān)性的研究,可以幫助企業(yè)賺錢,幫助政府決策就夠了,不要講究“為什么”,至于因果關(guān)系就讓科學(xué)家們慢慢琢磨去吧。

2.另一方面要重點關(guān)注偽相關(guān)

比如研究表明:經(jīng)濟增長和老鼠繁殖速度呈正相關(guān),但我們并不能說老鼠的繁殖促進了經(jīng)濟的增長,更有可能的原因是經(jīng)濟增長導(dǎo)致老鼠的增長。

所以說在社會實踐領(lǐng)域,大數(shù)據(jù)分析不僅僅是數(shù)據(jù)本身的問題,不僅僅是數(shù)據(jù)采集、數(shù)據(jù)清洗、數(shù)據(jù)整合、模型分析,更需要統(tǒng)計學(xué)的參與及相關(guān)行業(yè)*事先對相關(guān)變量進行一定的邏輯篩選,不然只能是”GarbageInGarbageOut“。

關(guān)系三兄弟:相關(guān)關(guān)系、因果關(guān)系、回歸關(guān)系

在研究相關(guān)關(guān)系和因果關(guān)系方面,統(tǒng)計學(xué)做出了巨大貢獻。統(tǒng)計學(xué)提出了相關(guān)系數(shù),通過計算相關(guān)系數(shù)判斷事物之間的相關(guān)關(guān)系,對相關(guān)系數(shù)進行統(tǒng)計檢驗,若通過檢驗,證明事物之間的相關(guān)程度高,便可以進一步做回歸分析。

在計算相關(guān)系數(shù)時,首先要通過理論研究和定性分析篩選變量,對有內(nèi)在聯(lián)系的數(shù)據(jù)做相關(guān)分析。與大數(shù)據(jù)思維不同,統(tǒng)計學(xué)認為公雞叫與太陽升、蛙鳴與下雨,它們之間沒有內(nèi)在聯(lián)系,即無因果關(guān)系,屬于虛假相關(guān),盡管相關(guān)系數(shù)可能很高,也沒有做回歸分析的必要了。

在回歸分析中,設(shè)xi為自變量,設(shè)yi為因變量,統(tǒng)計學(xué)的研究幾乎窮盡了因果關(guān)系的所有可能。對一因一果的現(xiàn)象,可以建立一元回歸模型;對多因一果的現(xiàn)象,可以建立多元回歸模型;對一因多果的現(xiàn)象,可以建立路徑分析等模型(二叉樹及蒙卡模擬就是代表);對多因多果的現(xiàn)象,可以建立聯(lián)立方程等模型。

顯然,回歸模型比相關(guān)系數(shù)進了一步,它可以解釋數(shù)據(jù)之間作用機制和作用的大小。但回歸模型即使通過了各種統(tǒng)計檢驗,也可能只在一定程度上說明事物之間的因果關(guān)系。模型的自變量不一定是原因,因變量不一定是結(jié)果。

Xi與yi之間的因果關(guān)系是否成立,還要由統(tǒng)計學(xué)所應(yīng)用領(lǐng)域的*來判斷,如經(jīng)濟學(xué)家、管理學(xué)家、生物學(xué)家、醫(yī)學(xué)家等,并大量的實踐得到檢驗。統(tǒng)計模型只能說包含真正因果關(guān)系的可能性較大,而真值在哪里?上帝知道。

大數(shù)據(jù)時代:相關(guān)關(guān)系取代因果關(guān)系

大數(shù)據(jù)可理解為大而復(fù)雜的數(shù)據(jù),具有異母體、噪音累積、虛假相關(guān)、內(nèi)生性、時變性等,我們幾乎被數(shù)據(jù)包圍。在這種數(shù)據(jù)環(huán)境下,尋找數(shù)據(jù)之間因果關(guān)系*困難,也有觀點認為在大數(shù)據(jù)時代,探索因果關(guān)系幾乎不可能,因而因果關(guān)系消失了,相關(guān)關(guān)系替代了因果關(guān)系。

但我們也應(yīng)看到,在大數(shù)據(jù)環(huán)境下,做相關(guān)性的研究也*困難,幾十萬個樣本規(guī)模,幾十萬個維度,甚至更多,怎么計算相關(guān)系數(shù)?如果不用相關(guān)系數(shù),用什么方法?

相關(guān)關(guān)系是比因果關(guān)系更寬泛的概念,事物之間有相關(guān)關(guān)系不一定存在因果關(guān)系,有因果關(guān)系必定有相關(guān)關(guān)系。相關(guān)分析是因果分析的基礎(chǔ),因果分析是相關(guān)分析的深化。大數(shù)據(jù)的相關(guān)關(guān)系不僅沒有替代因果關(guān)系,反而給因果關(guān)系的研究提供了更廣泛的發(fā)展空間。

醫(yī)療大數(shù)據(jù)、藥物研發(fā)大數(shù)據(jù)、基因大數(shù)據(jù)給*醫(yī)療、藥物研究等領(lǐng)域帶來一切變革,但僅靠相關(guān)關(guān)系很難找到病因,無法對癥下藥,藥物的研發(fā)也很難針對各種病癥,當(dāng)然也不需要建立起因果模型后再實踐。

阿司匹林是治療感冒的藥,后來人們發(fā)現(xiàn)這種藥對預(yù)防心腦血管疾病有療效,經(jīng)過大量臨床,發(fā)現(xiàn)阿司匹林對預(yù)防心腦血管疾病療效顯著,有相關(guān)關(guān)系。而后,對阿司匹林進行藥理分析,才發(fā)現(xiàn)阿司匹林中含有治療心腦血管疾病的藥物成分,建立了因果關(guān)系。

類似的還有偉哥的發(fā)現(xiàn),本來是用來試驗治療心絞痛的藥物,雖然實驗以失敗告終,但是藥物引起的副作用——增加其它某地的血流量,卻被參加實驗的病人敏銳地覺察到了,于是,和治療心絞痛毫不相關(guān)的“偉哥”就這么誕生了。

早在疫情爆發(fā)初始,就有**預(yù)言:這次疫情不同以往,一旦控制不好*有可能演變成一場漫長的拉鋸戰(zhàn)。

不管病毒的來源是長相丑陋的蝙蝠還是稍顯可愛的穿山甲,不管是來自遙遠的澳洲還是床鋪所在的米國,對于我們普通人來說僅僅是個飯后談資,在疫情遠未結(jié)束的情況下,做好自己的防護措施,做好*一道防線,不傳播家人朋友和同事,就是我們對相關(guān)關(guān)系和因果關(guān)系*的詮釋。

我不知道病毒來自哪里,但我已經(jīng)帶好口罩。

想要了解更多關(guān)于FRM咨詢,掃描下方二維碼關(guān)注“FRM之家”公眾號FRM之家