前言:(╬?益?)
接下來(lái)的員何分時(shí)間里,我打算針對數據分析給大家普及一些(xie)基礎知識以及在工作中經(jīng)常會(huì )用到的數據數據數據分析方法和概念,幫助大家一起成長(cháng)。(′ω`)析教因為我們知道,玩轉在整個(gè)產(chǎn)品經(jīng)理的分析職業(yè)生涯中┐(′ー`)┌,如果你不想永遠是員何分一個(gè)只畫(huà)畫(huà)原型,寫(xiě)寫(xiě)文檔的數據數據職場(chǎng)菜鳥(niǎo),就一定需要掌握數據分析的析教概念和方法,你需要知道在管理產(chǎn)品的玩轉不同階段需要使用哪些數據分析的方法來(lái)論證你的判斷是否正確?用戶(hù)是否能夠接受?能夠為企業(yè)帶來(lái)哪些收益?
玩轉(???)會(huì )員數據分析系列將從結合實(shí)際工作的案例來(lái)介紹在日常工作中的哪些數據分析方法、概念應該在什么時(shí)候使用,分析通過(guò)直白的員何分語(yǔ)言來(lái)帶領(lǐng)大家走入數據分??析領(lǐng)域。
什么是(shi)數據數據統計學(xué)?
統計學(xué)是通過(guò)搜索、整理、析教分析、玩轉描述數據等手段,分析以達到推斷所測對象的本質(zhì),甚至(zhi)預測對象未來(lái)的一門(mén)綜合性科學(xué)。統計學(xué)用到了大量的數學(xué)及其它學(xué)科的專(zhuān)業(yè)知識,其應用范圍幾乎覆蓋了社會(huì )科學(xué)和自然科學(xué)的各個(gè)領(lǐng)域。(來(lái)自百度百科)
了解統計學(xué)的意義
作為大數據時(shí)代?炙手可熱的學(xué)問(wèn),統計學(xué)可以解決(jue)很多實(shí)際問(wèn)題。只有了解了統計學(xué)你才能知道在大數據意義下生存的游戲法則。一般意義上的統計ヾ(′ω`)?學(xué)包括了:概率學(xué)、數理統計學(xué)兩個(gè)部分,它們都是以概率論為基礎。
統計學(xué)核心定律及概念
通過(guò)分析數據推斷事物的本質(zhì),預測它未來(lái)的發(fā)展,分析??數據的(de)第一步就是找出那些看似偶然的發(fā)生的事??件,背后隱藏著(zhù)哪些(/ω\)必然性的統計規律。
核心內容
第1節:大數定??律
第2節:中心極限定理
第4節:回歸分析
第5節:常??犯的概率學(xué)錯誤
第一節:大數定律(整個(gè)概率學(xué)的基礎)
什么是大數定律???
比如說(shuō),我們在學(xué)生??時(shí)代經(jīng)常會(huì )有一些單元測驗的考試,對你來(lái)說(shuō)每??次考試的分數??肯定是會(huì )上下浮動(dòng)的,可能有幾次的分數比較高,有幾次??的分數比較低,但經(jīng)過(guò)了很多次測驗以后這些分數應該能夠反映你的真實(shí)能力了,這就是大數定律定律的主要內涵。
用數學(xué)術(shù)(shu)語(yǔ)來(lái)表達就是:當實(shí)驗次數足夠多的時(shí)候,實(shí)驗結果的平均值會(huì )無(wú)限接近一個(gè)數值,這個(gè)數值一般(//ω//)叫做“期望值”。它的意義ヾ(′▽?zhuān)??在于我們可以通過(guò)研究概率來(lái)看清風(fēng)險,做出決定(′?`),尤其是在理財和投資的時(shí)候體現的特別明顯。
比如常常有人幻想一夜暴富,最有可能的方法就是買(mǎi)彩票或則進(jìn)賭場(chǎng)。博彩行業(yè)就是依靠概率理論來(lái)發(fā)財的,??讓大家覺(jué)得自己會(huì )是那個(gè)幸運兒。如果按照每期獎金的數額( ?° ?? ?°)除以彩票的發(fā)行量,每張彩票的實(shí)際價(jià)值都不到1分錢(qián)。但是,人們都熱衷(?????)于用2元錢(qián)來(lái)交換1分(′▽?zhuān)?)錢(qián)。就算是某期彩票爆出的大獎掏空了獎池,那從長(cháng)遠來(lái)看的話(huà),發(fā)行彩票業(yè)是穩賺不賠的。因為什么呢?根據大數定律,對于長(cháng)期發(fā)(fa)行銷(xiāo)量穩定的彩票,獎金總額的期望值是恒定的,發(fā)行機構(′?`)只要保證發(fā)行彩票的銷(xiāo)售額大于彩金期望值,就肯定能夠賺錢(qián)。賭場(chǎng)也是一樣的,只要能夠吸引到足夠數量的賭客,不管幸?運兒贏(yíng)走多少錢(qián),賭場(chǎng)永遠是最后的贏(yíng)家。所以,一夜暴富(°□°)的事情發(fā)生在我們身上的概率微乎其微,沉溺其中的結果就是讓賭場(chǎng)老板和彩票發(fā)行機構大賺了一筆。
在我們生活中也有很多相似的案例,例如積分抽獎,??我們每天都使用餓了么來(lái)訂外賣(mài),每筆訂單完成評價(jià)后都會(huì )獎勵??一定的積分,這些積分可以在餓了么商城兌換商品和抽獎。但是我們發(fā)現積分可直接兌換的商品價(jià)值都是很低的,要么就是需要加錢(qián)購買(mǎi)的,總體來(lái)看性?xún)r(jià)比不高。而參與抽獎的商品可能都是價(jià)值較高的數(?????)碼產(chǎn)品,我們當然愿意使用積分去抽取這些價(jià)(?⊿?)值(zhi)較高的獎品,雖然我們也知道中獎的幾率很低。當然積分抽獎的最終目的在于快速的消耗用戶(hù)賬戶(hù)中沉淀的積分而不是賺錢(qián)。
1、通過(guò)研究概率,明智的選擇理財方式
對于一些期望值比較高的投資,我們也要用到大數定律。比如一個(gè)投資門(mén)檻是100萬(wàn)的項目,成功率只有30%,但是預期回報達到了500%,這么誘人該不該投呢?這個(gè)時(shí)候如果你把注意力都放在了高回報率上就比較危險。(′;д;`)我們要注意大數定律成(cheng)立的前提在于實(shí)驗次數足夠多。投資100萬(wàn)可不是買(mǎi)2元錢(qián)的彩票。如果你是個(gè)(ge)工薪階層,你用來(lái)投資的100萬(wàn)是你的全部家當,??那你顯然沒(méi)有多次投資的資本。這個(gè)時(shí)候如果你孤注一擲,那么你會(huì )有70%概ヽ(′ー`)ノ率會(huì )血本無(wú)歸。反過(guò)來(lái),如果你是投資機構或則富二代,那這樣的項目肯定是來(lái)的越多越好。因為你投資的幾百個(gè)項目里面,肯定有一(′?`*)些能夠成功。平均來(lái)看的話(huà)一定能夠像開(kāi)賭場(chǎng)一樣賺到大錢(qián),所以??面對理財投資中的高期望,我們首先應該考慮的因素就是:風(fēng)險傾向。根據大數定律你的風(fēng)險承受能力越強,就意味著(zhù)允許實(shí)驗的次數越多,也(ye)就越有可能賺到期望的投資回報。這樣大家就很容易理解兩個(gè)基本概念
風(fēng)險投資機構每年投資那么多項目的意義在哪里;為什么有錢(qián)的人賺錢(qián)比(bi)窮人更容(′▽?zhuān)?)易。2、幫助我們理性面對風(fēng)險
生活中最常見(jiàn)的,依靠大??數定律來(lái)賺錢(qián)的其實(shí)是保險行業(yè)。比如你在網(wǎng)上購買(mǎi)某個(gè)電子產(chǎn)品的時(shí)候,網(wǎng)站經(jīng)常會(huì )向我們推銷(xiāo)延長(cháng)保修的服務(wù)。比如一臺2000元的洗衣機,多花100塊錢(qián)可以延保(bao)一年,如(ru)果你掌握了大數定??律就很容易想到。廠(chǎng)家對這臺洗衣機維修服務(wù)的預期成本肯定少于100元,否則廠(chǎng)家就要賠錢(qián)了。但是有些時(shí)候,這種錢(qián)還必須得花。大家都知道,保險公司利潤很高,假設一??種人身意外ヾ(′▽?zhuān)??險的賠償額度是100萬(wàn),發(fā)生意外的概率是百萬(wàn)分之一,那么預期損失就是1元錢(qián)。如果你花10元錢(qián)來(lái)買(mǎi),保險公司就能賺到10倍的利潤,基本和開(kāi)賭場(chǎng)沒(méi)什么區別。但是你要??知道,買(mǎi)這類(lèi)保險的意義并不是為了省錢(qián),而是當你遭受一些難以承受的巨大損失時(shí),幫你渡過(guò)難關(guān)。因為人身意外的損失是不能和2000元的洗衣機來(lái)比較的。這個(gè)時(shí)候保險更多的是一種規避風(fēng)險的理性工具。
第??二節:中心極限定理
中心極限定理(centr(???)al limit theorem)是概率論中討(′?ω?`)論隨機變量序列部分和分布漸近于正態(tài)分布的一類(lèi)定理。這組定理是數理統計學(xué)和誤差分析ヽ(′ー`)ノ的理論基礎,指出了大量隨機變量累積分布函數逐點(diǎn)收斂到正態(tài)分布的積累分布函數的條件。(來(lái)自百度百科)
光從百科的字面上我們可能很難理解這個(gè)定理到底是個(gè)什么東東?其實(shí),只要我們把它轉化成生活中的常常發(fā)生的事情??就非常好理解??了。比如我們去農場(chǎng)的一棵樹(shù)上摘蘋(píng)果,想知道這棵樹(shù)上的蘋(píng)果甜不甜?沒(méi)必要把整棵樹(shù)上所有的蘋(píng)果都嘗一遍,在一棵樹(shù)上任意一個(gè)蘋(píng)果的甜度絕不(bu)會(huì )相差太大,只要從中選取幾個(gè)品嘗就能夠知道這批水果到底甜不甜。那中心極限定理的含義就是:任意一個(gè)群體樣本的平均值都會(huì )圍繞在這個(gè)群體的整體平均值周?chē)?,我們對一個(gè)基數龐大的群體做統計調查的時(shí)候,只要對其中的一部分樣??本進(jìn)行研究,得出的結論就能夠反映出整個(gè)群體的特點(diǎn)。而且抽樣的數量越大準確率越高。因為這個(gè)定理的存在我們開(kāi)展調查統計就(′?_?`)變得簡(jiǎn)單方便了。
通過(guò)上面的例子我們可以得出本節ヽ(′ー`)ノ的第1個(gè)重點(diǎn):
例如,某個(gè)城市正在同時(shí)舉行(xing)鐵人三項ヽ(′▽?zhuān)?ノ比賽和相撲比賽,比賽前有一輛載滿(mǎn)外國鐵人三項運動(dòng)員的大巴車(chē)失蹤了,結果警察找到了一輛滿(mǎn)是外國大胖子的大巴車(chē)。由于語(yǔ)言不通,警察只能根據經(jīng)驗來(lái)判斷。即使鐵人三項選手里面可能也有幾個(gè)體重較大的,但是滿(mǎn)車(chē)都是大胖子這是不太可能的,所以呢利??用中心極限定理不難推斷出來(lái),警察很可能找錯了車(chē)子。當然,這也屬于比較極端的情況。
如果換個(gè)場(chǎng)景條件,找到的兩輛車(chē)中乘客有胖有瘦,我們該怎么判斷呢?這個(gè)時(shí)候我們對乘客的體重進(jìn)行測量,計算體重分布的標準差,利用中心極限定理我們仍然能夠判斷出哪輛車(chē)是我(′?`*)們要找的。這是因為鐵人三項運動(dòng)員群體的體重標準差是明顯小于普通群??體的。??他們的體重分布更集中,這也是中心極限定理的另一種應用。那就是本節的第2個(gè)重點(diǎn):
2、如果已知兩個(gè)樣本的基本特性,就能夠推理出這兩個(gè)樣本是不是來(lái)??自同一個(gè)群體。
小結:關(guān)(guan)于中心極限定理,大家就可以這樣理解了。雖然它的數學(xué)計算很復雜,但理解(′?ω?`)起來(lái)并不是那么難。我們理解了大數定律和中心極限ヾ(^-^)ノ定理就掌握了統計學(xué)的概率論基礎。那接下來(lái)就可以了解一下,一些開(kāi)展調查統計的基本方?法,(//ω//)比如如何采集數據???
第三節:隨機抽樣
通過(guò)(guo)前兩節的內容我們對大數定律和中心極限定理已經(jīng)有了一定了解,本節主要講講開(kāi)展調查統計的基本方法(fa)也就是本章的第三個(gè)重點(diǎn)“隨機抽樣”。
按照隨機的原則,即保(bao)證總體中每一個(gè)對象都有已知的、非零的概率被選入作為研究的對象,保證樣本的代表性。 隨機抽樣法就是調查對象總體中(′▽?zhuān)?每個(gè)部分都有同等被抽中的可能,是一??種完全依照機會(huì )均等的原則進(jìn)行的抽樣調查,被稱(chēng)為是一種“等概率”。隨機抽樣有四種基本形式,即簡(jiǎn)單隨機抽樣、等距抽樣、類(lèi)型抽樣和整群抽樣。它的最大??優(yōu)點(diǎn)是在根據( ?▽?)樣本資料推論總(zong)體時(shí),可用概率的方??式客觀(guān)地測量推論值的可靠程度,從(cong)而使這種推論建立在科學(xué)的基礎上。正因為此,隨機抽樣在社會(huì )調查和社會(huì )研究中應用較廣泛。常用的隨機抽樣方法??主??要有純隨??機抽樣、分層抽樣、??系統抽樣、???整群抽樣、多??階段抽樣等。
隨機抽樣是我們在工作中收集數據的??主要方法??,比如開(kāi)展問(wèn)卷??調查的時(shí)候,如果客戶(hù)數量龐大,根據中心極限定理只要在客戶(hù)中抽取部分有代表性的樣本來(lái)填寫(xiě)問(wèn)卷,就能夠達到目的。這個(gè)選取有代表性樣本的過(guò)程,我們稱(chēng)之為“隨機抽樣”。所以呢,隨機取樣只是??看似簡(jiǎn)單,它的關(guān)ヽ(′▽?zhuān)?ノ鍵點(diǎn)在于“隨機”這兩個(gè)字。要做到隨機,必須保證每個(gè)對象被抽到的概率完全相等。這樣抽樣的樣本才代表了整個(gè)對象(xiang)群體。比如說(shuō)我們想知道100個(gè)彈珠中有多少綠色彈珠多少黃色彈珠,只要把它們放進(jìn)一個(gè)盒子里然后隨機取出30個(gè)就能得到基本準確的顏色比例。??
那么問(wèn)題來(lái)了?我們開(kāi)展調查時(shí)的對象大多是我們的用戶(hù),我們所關(guān)心的人口組成,遠遠要比一盒子彈珠要復雜。如果不能保證相關(guān)人口中的每個(gè)人被選為樣本的(de)概率都相同,這樣的抽樣結果就存在偏見(jiàn),這樣有偏見(jiàn)的樣本往往會(huì )得出荒謬的結論。
1、選擇(′_`)性偏見(jiàn)
具體的我們可以把偏見(jiàn)分成幾類(lèi),最常見(jiàn)的叫做“選ヽ(′?`)ノ擇性偏見(jiàn)”。1936年美國總統大選??前,文學(xué)文摘雜志曾經(jīng)向1000萬(wàn)名訂閱它的美國公民發(fā)放問(wèn)卷,開(kāi)展候??選人民意調查。這份1000萬(wàn)人的樣本已經(jīng)非常大了,因為當時(shí)的美國的總人口只有不到1億3千萬(wàn)。調查結果預測共和黨人蘭登將以顯著(zhù)的優(yōu)勢當選,然而當大選結果ヾ(?■_■)ノ揭曉后民主黨人羅斯福卻以壓倒性的優(yōu)勢當選了美國總統。文學(xué)文摘的這次民意調查可以說(shuō)相當失敗,問(wèn)題就處在編輯們沒(méi)有意識到,訂閱這本雜志的人平均來(lái)說(shuō)要比普通美國民眾更富有,他們更(geng)傾向于投票給保護富人利益的共和黨。這樣帶有選擇性偏見(jiàn)的樣本即使容??量再大也不能反映出全體美國人的民意。
2、幸存者偏見(jiàn)
還有一類(lèi)“幸存者(zhe)偏見(jiàn)”也很常見(jiàn)。當樣本中有數據缺失導致組成發(fā)生改變,這種(zhong)偏見(jiàn)就會(huì )出現。舉一個(gè)最常見(jiàn)的案例:很多基金公司經(jīng)常利用這種偏見(jiàn)來(lái)操??縱數據吸引投資(zi),基金公司會(huì )拿基金業(yè)績(jì)和股票市場(chǎng)的基準來(lái)做比較。比如美國的標準“普爾指數”(類(lèi)???似于我國的上證指數),如果(guo)某一年基金的漲幅高于標準普爾指數或者是跌幅低于普爾指數,基金公司就會(huì )宣稱(chēng)我們的基金跑贏(yíng)了普爾指數。但是要想實(shí)實(shí)在在的跑贏(yíng)普爾( ?ヮ?)指數不是一件( ?ヮ?)容易的事,我們從概率學(xué)的角度假設,某支基金有1/2的概率能夠跑贏(yíng)標準普爾指數,那么連續2年跑贏(yíng)的基金就只剩下(′?_?`)1/4,連續3年跑贏(yíng)的概率就只有1/8了。猜猜看,公司會(huì )怎么宣傳自己的基金業(yè)績(jì)呢?他們通常的做法就是同時(shí)開(kāi)放20支(zhi)新基金,經(jīng)過(guò)3年的經(jīng)營(yíng)總會(huì )有2-3支基金連續3年跑贏(yíng)標準普爾指數,那公司只要把十幾支失ヾ(^-^)ノ敗的基金悄悄關(guān)閉,大肆宣傳這2-3??支(??ヮ?)?*:???幸??存者就可以把投資者的錢(qián)騙進(jìn)來(lái)了。而實(shí)際上這些所謂幸存基金的產(chǎn)生就像連續拋3次硬??幣正面都朝上一樣,接下來(lái)的表現會(huì )逐漸回歸平均水平,真正能長(cháng)期跑贏(yíng)普爾指數的優(yōu)秀基金其實(shí)是鳳毛麟角。
3、健康用戶(hù)偏見(jiàn)
此外“健康用戶(hù)”偏見(jiàn)也指的(′?ω?`)我們警惕,假設衛生部門(mén)發(fā)布了一個(gè)理論,給孩( ?ヮ?)子穿上紫色睡衣會(huì )有助于孩子大腦的發(fā)育。那么20年后我們通過(guò)抽樣調查來(lái)驗證這個(gè)理論,結果顯示在哈弗大學(xué)的學(xué)生中有98%的人在少年時(shí)期是穿著(zhù)紫色睡衣入睡的,而監獄里的ヽ(′ー`)ノ犯人只有3%的人在少年(nian)時(shí)穿過(guò)(guo)紫色睡衣,所以我們得出結論:穿紫色睡衣的孩子確實(shí)更有可能取得成功。這很顯然是很荒謬的結( ?ヮ?)論,那問(wèn)題??出在哪???呢?其實(shí)我們用來(lái)對比的兩組人并不是通過(guò)隨機抽樣得到的,哈弗大學(xué)的學(xué)生和監獄里的犯人根本就是兩類(lèi)人,真正對孩子(′▽?zhuān)?)大腦發(fā)育有作用(yong)的是給孩子穿上紫色睡衣的家長(cháng)相比于其他家庭顯然更注重對孩子的(de)家庭教育。有些養生欄目頁(yè)經(jīng)常用類(lèi)似的調查數據來(lái)證明多吃蔬菜水果的人更加長(cháng)壽等等,他們忽略了習慣吃蔬菜水果的人群往往有健康的生活習慣,而那些喜歡高熱量食物的人群很可能收入偏低,在生活的其它方面也沒(méi)有健康的習慣,所以,這樣錯誤的抽樣得??出的結論是經(jīng)不起嚴??格考證的。
小結:隨機抽樣是我們開(kāi)展調查統計的第一步,我們要通過(guò)正確抽樣來(lái)保證第一手的數據??是可靠的、沒(méi)有偏見(jiàn)的,在這個(gè)基礎上我們才能夠應用這些數據對復雜的問(wèn)題展開(kāi)研究。在下一節我們將介??紹一種強大的統計學(xué)方法“回歸分析”,這是一種非常強大的統計學(xué)方法,專(zhuān)門(mén)┐(′?`)┌用來(lái)分析那些影響因素很多的復雜問(wèn)題。
什么是回歸分析?
在統計學(xué)中,ヽ(′ー`)ノ回歸分析(regressio??n analysis)指的是確定兩種或兩種以上變量間相互依賴(lài)的定量關(guān)系的一種統計分析方法?;貧w分析按照涉及的變量的多少,分為一??元回歸和多元回歸分析;按照因變量的多少,可分為簡(jiǎn)單回歸分析和多重回歸分析;按照自變量和因變量之間的關(guān)系類(lèi)型,可分(fen)為線(xiàn)性回歸分析和非線(xiàn)性回歸分析。
在大數據分析???中,回歸分析是一種預測性的建模技術(shù),它研究的是因變量(目標)和自變(bian)量(預測器)之間的關(guān)系。這種ヽ(′▽?zhuān)?ノ技術(shù)通常用于預測分析,時(shí)間序列模型以及發(fā)現變量之(zhi)間的因果關(guān)系。例如,司機的魯莽駕駛與道路交通事故數量之(zhi)間的關(guān)系,最好的研究方法就是回歸。(來(lái)自百度百科)
轉化為通俗易懂的文字,你可以這樣理解:回歸分析就是通過(guò)一個(gè)已知的現象來(lái)找到未知的原因,它可以通過(guò)嚴格的??數學(xué)分析復原出每種原因對結果的貢獻比例。
倫敦大學(xué)公共衛生學(xué)院曾經(jīng)組織過(guò)一項著(zhù)名的“白廳研究”,醫學(xué)家們發(fā)現英國政府里低級(′?`*)別的公務(wù)員患上心臟病的概率比他們的上司更(′ω`)高。白廳研究就是要找出這背后的真實(shí)原因,這個(gè)研究顯然不能用隨機抽樣的方法來(lái)實(shí)現,因為我們不可能把各個(gè)志愿者強行分配?到各個(gè)工作崗位工作幾年,然后再看哪些人因公殉職了。研究人員只能在很長(cháng)一段時(shí)間里對數千名公務(wù)員進(jìn)行詳細的數據采集,來(lái)對比各類(lèi)導致心臟病的可能因素。比如說(shuō),低階公務(wù)員的學(xué)歷普遍偏低,會(huì )不會(huì )是影響因素呢?煙民比例多呢?還是不能享受到高水??平的醫療服務(wù)呢?或則是加班多鍛煉時(shí)間少ヽ(′ー`)ノ?這些都是導致心臟病高發(fā)的變(′ω`*)量,那么到底哪一個(gè)才是具有決定性的影響呢?如此龐雜的數據里有太多錯綜復雜的因素,顯然會(huì )干擾(′?ω?`)研究人員的判斷。這時(shí)候我們就要用到回歸分析這個(gè)工具,它的作用就好比一個(gè)可以調節孔徑的篩子,能在綜合考慮其它變量效果不變的情況下,把其中一個(gè)變量的效果分離出來(lái)。
回歸分析的數學(xué)過(guò)程比較復雜,幸好我們現在有了成熟的多元線(xiàn)性回歸方程模型可以套用,我們要(′?`*)做的就(jiu)是將多個(gè)變量的取樣結果帶入回歸方程式,計算結果就會(huì )顯示出我們關(guān)注的變量和心臟病發(fā)病率的線(xiàn)性關(guān)系(回歸分析軟件:SAS、SPSS、BMDP等)。通過(guò)統計推斷我們就能夠知道,這個(gè)變量到底在多大(da)程度上影響了發(fā)病率。實(shí)驗結果表明,造成心臟病高發(fā)的真正原因是對工作缺乏控制力和話(huà)語(yǔ)權,而這類(lèi)存在感較低的崗位在低級別職位中更常見(jiàn)?,F在“低控制率”已經(jīng)成為一個(gè)專(zhuān)有名詞了,專(zhuān)指那些精神負擔重,決策水平低的工作。事實(shí)上當前科學(xué)界絕大多數的研究結論都是以回歸分析作為基礎的。尤其是回歸分(′_`)析軟件的普及,讓建立模型和解析方程(╯‵□′)╯變得很簡(jiǎn)單,但同時(shí)也要注意電腦永遠不能代替人的工作,如??果我們在(zai)進(jìn)行回??歸分析時(shí)遺漏的變量或者忽視反面因素,回歸分析就回得??出危險的結論。
比如上世紀90年代??,哈弗大學(xué)對12萬(wàn)名女性開(kāi)展了縱向調查,經(jīng)過(guò)嚴格的回歸分析證實(shí),定期攝入雌激素的女性突發(fā)心臟病的概率只有其他女性的1/3。醫學(xué)機構支持了這個(gè)觀(guān)(guan)點(diǎn),醫院開(kāi)始定期為中老年婦女進(jìn)行雌激??素的補充治療。然而后(hou)來(lái)的臨床試驗發(fā)現,補充雌激素的副作用會(huì )導致乳腺癌和血栓病高發(fā),這是科學(xué)家沒(méi)有考慮到的重大疏漏。最終因為接(jie)受雌激素治療而死亡的女??性患者達到上萬(wàn)人,所以一旦出現數據遺漏,錯誤的數據結果甚(╯‵□′)╯至會(huì )造成人身傷害。
下面我們使用IBM公司開(kāi)發(fā)的“統計產(chǎn)品與服務(wù)解決方案”軟件SPSS(Statistical Product and Service Solutions)做一個(gè)簡(jiǎn)單的實(shí)例,給大家(jia)介紹如何使用SPSS做回歸分析的方法?;貧w分析的方法包括:線(xiàn)性回歸、邏輯回歸、多項式回歸、逐步回??歸等很多種,本次我們就拿就常用的線(xiàn)性回歸結合案例來(lái)給大家講解:年齡??和血壓的關(guān)系。
開(kāi)始之前,我們先了解一下線(xiàn)性回歸到底是怎么回事?它能做什么?
線(xiàn)性回歸的意義
線(xiàn)性回歸包含:一元線(xiàn)性回歸和多元線(xiàn)性回歸。一元線(xiàn)性回歸又叫做簡(jiǎn)單線(xiàn)性回歸,主要用于判斷是否能通過(guò)回歸模型找到一個(gè)“線(xiàn)性組合??”,從而證明一組變量(因變量(′Д` )和自變量)的關(guān)系。如果能(?Д?)的話(huà),這種關(guān)系的強度有多大,也就是利用自變量的線(xiàn)性組合來(lái)預測因變量的能力有多強?整體解釋能力是否具有統計上的顯著(zhù)性意義?在整體解釋能力顯著(zhù)ヽ(′ー`)ノ的情況下,哪些自變量有顯著(zhù)的意義?
回歸分析的步驟
確定回歸方程ヽ(′?`)ノ中的解(jie)釋變量(自變量)和被解釋變量(因變量);確??定回歸模型——選擇合適的數學(xué)模型概括回歸線(xiàn);確定回歸方程——根據樣本ヾ(^-^)ノ數據及確定的回歸模型,在一定的統計擬合準則下估計模型的參數,得到確定的回歸方程;對回歸方程進(jìn)行各種檢驗(yan)——基于樣本得到的回歸方程是否真實(shí)反映了總體間的統計關(guān)系?回歸方程能否用于預測?;利用回歸方程???進(jìn)行預測。一元線(xiàn)性回歸模型:
模型說(shuō)明(′▽?zhuān)?:
X為自變量??;
Yヾ(^-^)ノ為因變量;
斜率為回歸系數,表明自變量對因變量的影響程度;
X的變化引起的Y的線(xiàn)性變化部分:
其它隨機??因素引起的Y的變化部分:
對一元線(xiàn)性回歸有所了解以后,我們就拿就用它結合一個(gè)簡(jiǎn)單的案例:年齡和血壓的關(guān)系,創(chuàng )建一個(gè)具體的實(shí)例。
第一步:導入數據
打開(kāi)SPSS導入需要分析的表格
選擇“簡(jiǎn)單散點(diǎn)圖”,得到以下圖形
通過(guò)散點(diǎn)圖觀(guān)察變量間的趨勢。如果有多個(gè)變量則做出散點(diǎn)圖矩陣、重疊散點(diǎn)圖和三維散點(diǎn)圖。如果我們覺(jué)得數據的分布存在明顯的問(wèn)題,這時(shí)候需要對數據進(jìn)行預處理,防止后面得到的結果和實(shí)際結果相差過(guò)大。
第三步:分析結果
我們可以這樣理解:因變量是??結果,自變量是原ヽ(′▽?zhuān)?ノ因。在這個(gè)實(shí)例中我們可以理解為年齡影響血壓。當然這里要加個(gè)疑問(wèn),因為我們是分(fen)析嘛,在得到最終的結果之前這只是一個(gè)假設。
右側點(diǎn)擊【統計】按鈕,在彈出的界面做如(′ω`)下勾選
點(diǎn)擊右側【圖】按鈕,有些版本叫【繪制】,做如下配置
注:軟件原因“德賓-沃森”英文實(shí)際為:Durbin-Watson
調整R方就??是反映這個(gè)模型的擬合度的,簡(jiǎn)單說(shuō)就是我們擬合的兩個(gè)變(bian)量之間的線(xiàn)性方程與兩個(gè)變量真實(shí)之間關(guān)系的一個(gè)擬合度。擬合度通常是在0-1之間的數字。
顯著(zhù)性也叫Sig,顯著(zhù)性的結果是0.002也就是0.2%,說(shuō)明年齡完全不能影響血壓這個(gè)假設發(fā)生的概率是0.2ヽ(′ー`)ノ%,因此我們可以得出結論有(′▽?zhuān)?99.8%的概率年齡可以顯著(zhù)影響血壓的。
以上圖┐(′д`)┌標說(shuō)明年齡對血壓的影響是正ヾ(′▽?zhuān)??向的(0.881),也就是說(shuō)年齡越大血壓越高。年齡每增加1分,血壓總分就會(huì )增加0.881分,這就是自變量和因變量之間(jian)的一(′ω`*)個(gè)定量的影響關(guān)系。
當然判斷的依據和數ヽ(′▽?zhuān)?/據維度以及最后結果的幾個(gè)關(guān)鍵值都有密切關(guān)系,加入(ru)分析的自變量是否正確、數量多少等因素對結果也會(huì )產(chǎn)生影響。網(wǎng)上有很多專(zhuān)門(mén)介紹線(xiàn)性回歸的資料教程(′-ι_-`),在這里不再詳細描述,建議大家多看多動(dòng)手多思考,統計(ji)學(xué)雖然入門(mén)比較簡(jiǎn)單,但是要真正應用(yong)到實(shí)際工作中還是需要一定的實(shí)際分析經(jīng)驗的。
小結(jie):統計學(xué)┐(′д`)┌原因雖然看似簡(jiǎn)單,但卻不是人人都可以做數據分析師,因為它既能給我們的觀(guān)點(diǎn)找到嚴謹的數據支持,但有時(shí)也會(huì )給一個(gè)錯誤(′ω`)的結論??披上合理的外衣。這ヽ(′ー`)ノ就是本章下一節要講的(′?_?`)最后一部分:常犯的概率學(xué)錯誤。
第五節:常犯(◎_◎;)的概率學(xué)錯誤
一、“黑天鵝”事件
17世紀之前的歐洲人認為天鵝都是白??色的,甚至經(jīng)常用“世界上沒(méi)有黑色的天鵝”這句諺語(yǔ)去諷刺那些無(wú)中生有的人。但隨著(zhù)第一只黑天鵝在澳大利亞被發(fā)現,這句諺語(yǔ)就變成了笑談,現在“黑天鵝”一般用來(lái)指那些影響很大但難以預測的小概率事件。通(tong)過(guò)這個(gè)例子我們可以了解,忽略那些小概率事(???)件,會(huì )造成多么(╬ ò﹏ó)嚴??重的后果。
2008年美國次貸危機爆發(fā)之前,整個(gè)北美金融行業(yè)都(′?ω?`)在使用同一個(gè)風(fēng)險價(jià)值模型來(lái)預測投資風(fēng)險。這個(gè)模型的強大之??處在于它非常精確??,它能把華爾街每家公司的資產(chǎn)都進(jìn)行嚴格的概率學(xué)分析,給出??預期收益和損失值。并且還能給這些海量的市場(chǎng)信息整合成一個(gè)簡(jiǎn)潔的風(fēng)險指標提供給美聯(lián)儲和財政部參考,比如分析了以往市場(chǎng)變動(dòng)數據后,金融家??會(huì )根據這(zhe)個(gè)模型給出某項投資在特定周期內可能讓公(╬ ò﹏ó)司蒙受的損失,而這種預測可以覆蓋高達99%的市場(chǎng)風(fēng)險。然而這個(gè)模型有一個(gè)被忽略的致命問(wèn)題(′?ω?`),它的概率學(xué)模型參照的是過(guò)去20年(nian)的(de)市場(chǎng)行為,不能對未知的以外情況作出預測,所以它預測不了黑???天鵝的出現。這只黑天鵝就是2007年美國商業(yè)銀行放貸業(yè)務(wù)的崩潰,雖然它發(fā)生的概率只有不到1%,但悲劇確實(shí)發(fā)生了。直接導致了一次全球大范圍的金融危機,失業(yè)率達到了(le)10%,很多國家和政府都陷入了ヽ(′▽?zhuān)?ノ債務(wù)危機,這就是小概率重大事件的破壞力。難道這是概率學(xué)本身出問(wèn)題了嗎?顯然不是,模(?Д?)型已經(jīng)告訴了我們有1( ?ヮ?)%的風(fēng)險無(wú)法預測,客人們仍然選擇了無(wú)視。所以,最大的風(fēng)險永遠都不是那些我們能看得見(jiàn)算得出(′_ゝ`)的,而是那些看上??去似乎概率很小,我們認為一輩子都不可(ke)能發(fā)生的風(fēng)險,但它的確發(fā)生了,而且比我們想象的要頻繁的多。
案例小結:忽略小概率事件,有時(shí)會(huì )造成嚴重的后果
除了黑天鵝還有一個(gè)我們容易忽視的問(wèn)題:統計誤??差,統計學(xué)雖然有這嚴謹的數學(xué)計算,但它并不是完美無(wú)缺的。我們通過(guò)分析數據推斷出的結論永遠不ヽ(′▽?zhuān)?ノ會(huì )是100%正確的,只要數據分析建立在抽樣調查之上,樣??本的統計結果和正式情況之間就會(huì )存在誤差。雖然隨著(zhù)樣本數量的增大,實(shí)驗次數的增多,這樣的誤差會(huì )接近于零,但即使誤差再小,也不能忽視它的存在。
比如第2節介紹的中心極限定理,警察通過(guò)計算車(chē)內乘客的體重分布,有99%的把握估計那些體重較大的乘ヽ(′ー`)ノ客不是鐵人三項選手,但這個(gè)??推理還有1%的概率是錯的,原因就在于鐵人三項運動(dòng)員體重樣本的平均值雖然會(huì )接近整體的平均值,但并不能說(shuō)二者完全相等。就好像從一棵樹(shù)上摘的蘋(píng)果,如果進(jìn)行精確的化學(xué)分析他們的成分和甜度總會(huì )??有細微的不同。這就是統計誤差的含義,我們不可能通過(guò)數據得出完全確鑿的真相,只能通過(guò)合理控制誤差來(lái)無(wú)限接近真相。
二、檢方??謬誤
另外舉一個(gè)有趣的例子:檢方謬誤。假設你是一名法官,聽(tīng)到公訴人陳述這樣的事實(shí)“犯罪(?????)現場(chǎng)遺留的DNA樣本和被告的DNA相吻合,除了被告以外這個(gè)樣本和其他人吻合的概率只有百萬(wàn)分之一,在這個(gè)證據的基礎上你能為被告人定罪嗎?”這時(shí)候如果你忽略百萬(wàn)分之一的誤差就可能會(huì )讓無(wú)辜的人鋃鐺ヾ(′?`)?入獄,這是因為誤差ヽ(′?`)ノ看似很小,但警方的DNA樣本庫數量非常龐大,通過(guò)樣本比對找到兩個(gè)DNA特征相似的人并不是不可能的,所以給犯罪分子定罪時(shí),不能死守著(zhù)概率ヽ(′?`)ノ這種破案工具而忽略了性別、年齡、社會(huì )關(guān)系等其它線(xiàn)索。在現實(shí)中其實(shí)也是一樣的,對那些意義重大的可研結論,人們往往對概率計算有精確的要求,比如物理學(xué)家在探測引力波是否真實(shí)存在的時(shí)候,總計花費了數十億美元用20多年時(shí)間來(lái)建造探測器,目的就是必須要把實(shí)驗誤差控制在一個(gè)極其微小的數量級。事實(shí)上這個(gè)探測器能(neng)探測到小數點(diǎn)后21位,10的負21次冪這個(gè)尺度上的引力波變化,愛(ài)因斯坦一個(gè)多世紀前的預言才最終得到了有說(shuō)服力的證明。
Copyright ? 2012-2018 天津九安特機電工程有限公司 版權所有 備案號: