亚洲女同成aV人片在线观看|亚洲www啪成人一区二区麻豆|亚洲国产中日韩精品综合|亚洲国产成人精品一级片|亚洲无码在线视频免费

News

新聞資訊

會(huì )員數據如何分析？教你玩轉會(huì )員數據分析

發(fā)布時(shí)間：2026-05-04 17:08:57 瀏覽次數：83

前言:(╬?益?)

接下來(lái)的員何分時(shí)間里，我打算針對數據分析給大家普及一些(xie)基礎知識以及在工作中經(jīng)常會(huì )用到的數據數據數據分析方法和概念，幫助大家一起成長(cháng)。(′ω｀)析教因為我們知道，玩轉在整個(gè)產(chǎn)品經(jīng)理的分析職業(yè)生涯中┐(′ー｀)┌，如果你不想永遠是員何分一個(gè)只畫(huà)畫(huà)原型，寫(xiě)寫(xiě)文檔的數據數據職場(chǎng)菜鳥(niǎo)，就一定需要掌握數據分析的析教概念和方法，你需要知道在管理產(chǎn)品的玩轉不同階段需要使用哪些數據分析的方法來(lái)論證你的判斷是否正確？用戶(hù)是否能夠接受？能夠為企業(yè)帶來(lái)哪些收益？

玩轉(???)會(huì )員數據分析系列將從結合實(shí)際工作的案例來(lái)介紹在日常工作中的哪些數據分析方法、概念應該在什么時(shí)候使用，分析通過(guò)直白的員何分語(yǔ)言來(lái)帶領(lǐng)大家走入數據分??析領(lǐng)域。

第一章：統計學(xué)

什么是(shi)數據數據統計學(xué)？

統計學(xué)是通過(guò)搜索、整理、析教分析、玩轉描述數據等手段，分析以達到推斷所測對象的本質(zhì)，甚至(zhi)預測對象未來(lái)的一門(mén)綜合性科學(xué)。統計學(xué)用到了大量的數學(xué)及其它學(xué)科的專(zhuān)業(yè)知識，其應用范圍幾乎覆蓋了社會(huì )科學(xué)和自然科學(xué)的各個(gè)領(lǐng)域。（來(lái)自百度百科）

了解統計學(xué)的意義

作為大數據時(shí)代?炙手可熱的學(xué)問(wèn)，統計學(xué)可以解決(jue)很多實(shí)際問(wèn)題。只有了解了統計學(xué)你才能知道在大數據意義下生存的游戲法則。一般意義上的統計ヾ(′ω｀)?學(xué)包括了：概率學(xué)、數理統計學(xué)兩個(gè)部分，它們都是以概率論為基礎。

統計學(xué)核心定律及概念

通過(guò)分析數據推斷事物的本質(zhì)，預測它未來(lái)的發(fā)展，分析??數據的(de)第一步就是找出那些看似偶然的發(fā)生的事??件，背后隱藏著(zhù)哪些(/ω＼)必然性的統計規律。

核心內容

第1節：大數定??律

第2節：中心極限定理

第3節：隨機抽樣

第4節：回歸分析

第5節：常??犯的概率學(xué)錯誤

第一節：大數定律（整個(gè)概率學(xué)的基礎）

什么是大數定律？??

比如說(shuō)，我們在學(xué)生??時(shí)代經(jīng)常會(huì )有一些單元測驗的考試，對你來(lái)說(shuō)每??次考試的分數??肯定是會(huì )上下浮動(dòng)的，可能有幾次的分數比較高，有幾次??的分數比較低，但經(jīng)過(guò)了很多次測驗以后這些分數應該能夠反映你的真實(shí)能力了，這就是大數定律定律的主要內涵。

用數學(xué)術(shù)(shu)語(yǔ)來(lái)表達就是：當實(shí)驗次數足夠多的時(shí)候，實(shí)驗結果的平均值會(huì )無(wú)限接近一個(gè)數值，這個(gè)數值一般(//ω//)叫做“期望值”。它的意義ヾ(′▽?zhuān)??在于我們可以通過(guò)研究概率來(lái)看清風(fēng)險，做出決定(′?｀)，尤其是在理財和投資的時(shí)候體現的特別明顯。

比如常常有人幻想一夜暴富，最有可能的方法就是買(mǎi)彩票或則進(jìn)賭場(chǎng)。博彩行業(yè)就是依靠概率理論來(lái)發(fā)財的，??讓大家覺(jué)得自己會(huì )是那個(gè)幸運兒。如果按照每期獎金的數額( ?° ?? ?°)除以彩票的發(fā)行量，每張彩票的實(shí)際價(jià)值都不到1分錢(qián)。但是，人們都熱衷(?????)于用2元錢(qián)來(lái)交換1分(′▽?zhuān)?)錢(qián)。就算是某期彩票爆出的大獎掏空了獎池，那從長(cháng)遠來(lái)看的話(huà)，發(fā)行彩票業(yè)是穩賺不賠的。因為什么呢？根據大數定律，對于長(cháng)期發(fā)(fa)行銷(xiāo)量穩定的彩票，獎金總額的期望值是恒定的，發(fā)行機構(′?｀)只要保證發(fā)行彩票的銷(xiāo)售額大于彩金期望值，就肯定能夠賺錢(qián)。賭場(chǎng)也是一樣的，只要能夠吸引到足夠數量的賭客，不管幸?運兒贏(yíng)走多少錢(qián)，賭場(chǎng)永遠是最后的贏(yíng)家。所以，一夜暴富(°□°)的事情發(fā)生在我們身上的概率微乎其微，沉溺其中的結果就是讓賭場(chǎng)老板和彩票發(fā)行機構大賺了一筆。

在我們生活中也有很多相似的案例，例如積分抽獎，??我們每天都使用餓了么來(lái)訂外賣(mài)，每筆訂單完成評價(jià)后都會(huì )獎勵??一定的積分，這些積分可以在餓了么商城兌換商品和抽獎。但是我們發(fā)現積分可直接兌換的商品價(jià)值都是很低的，要么就是需要加錢(qián)購買(mǎi)的，總體來(lái)看性?xún)r(jià)比不高。而參與抽獎的商品可能都是價(jià)值較高的數(?????)碼產(chǎn)品，我們當然愿意使用積分去抽取這些價(jià)(?⊿?)值(zhi)較高的獎品，雖然我們也知道中獎的幾率很低。當然積分抽獎的最終目的在于快速的消耗用戶(hù)賬戶(hù)中沉淀的積分而不是賺錢(qián)。

1、通過(guò)研究概率，明智的選擇理財方式

對于一些期望值比較高的投資，我們也要用到大數定律。比如一個(gè)投資門(mén)檻是100萬(wàn)的項目，成功率只有30%，但是預期回報達到了500%，這么誘人該不該投呢？這個(gè)時(shí)候如果你把注意力都放在了高回報率上就比較危險。(′；д；`)我們要注意大數定律成(cheng)立的前提在于實(shí)驗次數足夠多。投資100萬(wàn)可不是買(mǎi)2元錢(qián)的彩票。如果你是個(gè)(ge)工薪階層，你用來(lái)投資的100萬(wàn)是你的全部家當，??那你顯然沒(méi)有多次投資的資本。這個(gè)時(shí)候如果你孤注一擲，那么你會(huì )有70%概ヽ(′ー｀)ノ率會(huì )血本無(wú)歸。反過(guò)來(lái)，如果你是投資機構或則富二代，那這樣的項目肯定是來(lái)的越多越好。因為你投資的幾百個(gè)項目里面，肯定有一(′?｀*)些能夠成功。平均來(lái)看的話(huà)一定能夠像開(kāi)賭場(chǎng)一樣賺到大錢(qián)，所以??面對理財投資中的高期望，我們首先應該考慮的因素就是：風(fēng)險傾向。根據大數定律你的風(fēng)險承受能力越強，就意味著(zhù)允許實(shí)驗的次數越多，也(ye)就越有可能賺到期望的投資回報。這樣大家就很容易理解兩個(gè)基本概念

風(fēng)險投資機構每年投資那么多項目的意義在哪里；為什么有錢(qián)的人賺錢(qián)比(bi)窮人更容(′▽?zhuān)?)易。

2、幫助我們理性面對風(fēng)險

生活中最常見(jiàn)的，依靠大??數定律來(lái)賺錢(qián)的其實(shí)是保險行業(yè)。比如你在網(wǎng)上購買(mǎi)某個(gè)電子產(chǎn)品的時(shí)候，網(wǎng)站經(jīng)常會(huì )向我們推銷(xiāo)延長(cháng)保修的服務(wù)。比如一臺2000元的洗衣機，多花100塊錢(qián)可以延保(bao)一年，如(ru)果你掌握了大數定??律就很容易想到。廠(chǎng)家對這臺洗衣機維修服務(wù)的預期成本肯定少于100元，否則廠(chǎng)家就要賠錢(qián)了。但是有些時(shí)候，這種錢(qián)還必須得花。大家都知道，保險公司利潤很高，假設一??種人身意外ヾ(′▽?zhuān)??險的賠償額度是100萬(wàn)，發(fā)生意外的概率是百萬(wàn)分之一，那么預期損失就是1元錢(qián)。如果你花10元錢(qián)來(lái)買(mǎi)，保險公司就能賺到10倍的利潤，基本和開(kāi)賭場(chǎng)沒(méi)什么區別。但是你要??知道，買(mǎi)這類(lèi)保險的意義并不是為了省錢(qián)，而是當你遭受一些難以承受的巨大損失時(shí)，幫你渡過(guò)難關(guān)。因為人身意外的損失是不能和2000元的洗衣機來(lái)比較的。這個(gè)時(shí)候保險更多的是一種規避風(fēng)險的理性工具。

第??二節：中心極限定理

什么是中心極限定理？

中心極限定理（centr(???)al limit theorem）是概率論中討(′?ω?`)論隨機變量序列部分和分布漸近于正態(tài)分布的一類(lèi)定理。這組定理是數理統計學(xué)和誤差分析ヽ(′ー｀)ノ的理論基礎，指出了大量隨機變量累積分布函數逐點(diǎn)收斂到正態(tài)分布的積累分布函數的條件。（來(lái)自百度百科）

光從百科的字面上我們可能很難理解這個(gè)定理到底是個(gè)什么東東？其實(shí)，只要我們把它轉化成生活中的常常發(fā)生的事情??就非常好理解??了。比如我們去農場(chǎng)的一棵樹(shù)上摘蘋(píng)果，想知道這棵樹(shù)上的蘋(píng)果甜不甜？沒(méi)必要把整棵樹(shù)上所有的蘋(píng)果都嘗一遍，在一棵樹(shù)上任意一個(gè)蘋(píng)果的甜度絕不(bu)會(huì )相差太大，只要從中選取幾個(gè)品嘗就能夠知道這批水果到底甜不甜。那中心極限定理的含義就是：任意一個(gè)群體樣本的平均值都會(huì )圍繞在這個(gè)群體的整體平均值周?chē)?，我們對一個(gè)基數龐大的群體做統計調查的時(shí)候，只要對其中的一部分樣??本進(jìn)行研究，得出的結論就能夠反映出整個(gè)群體的特點(diǎn)。而且抽樣的數量越大準確率越高。因為這個(gè)定理的存在我們開(kāi)展調查統計就(′?_?`)變得簡(jiǎn)單方便了。

通過(guò)上面的例子我們可以得出本節ヽ(′ー｀)ノ的第1個(gè)重點(diǎn)：

1、如果掌握了某個(gè)群體的具體信息，就能夠推理出從這個(gè)群??體中正確抽取的隨機樣本的情況ヾ(?■_■)ノ。

例如，某個(gè)城市正在同時(shí)舉行(xing)鐵人三項ヽ(′▽?zhuān)?ノ比賽和相撲比賽，比賽前有一輛載滿(mǎn)外國鐵人三項運動(dòng)員的大巴車(chē)失蹤了，結果警察找到了一輛滿(mǎn)是外國大胖子的大巴車(chē)。由于語(yǔ)言不通，警察只能根據經(jīng)驗來(lái)判斷。即使鐵人三項選手里面可能也有幾個(gè)體重較大的，但是滿(mǎn)車(chē)都是大胖子這是不太可能的，所以呢利??用中心極限定理不難推斷出來(lái)，警察很可能找錯了車(chē)子。當然，這也屬于比較極端的情況。

如果換個(gè)場(chǎng)景條件，找到的兩輛車(chē)中乘客有胖有瘦，我們該怎么判斷呢？這個(gè)時(shí)候我們對乘客的體重進(jìn)行測量，計算體重分布的標準差，利用中心極限定理我們仍然能夠判斷出哪輛車(chē)是我(′?｀*)們要找的。這是因為鐵人三項運動(dòng)員群體的體重標準差是明顯小于普通群??體的。??他們的體重分布更集中，這也是中心極限定理的另一種應用。那就是本節的第2個(gè)重點(diǎn)：

2、如果已知兩個(gè)樣本的基本特性，就能夠推理出這兩個(gè)樣本是不是來(lái)??自同一個(gè)群體。

小結：關(guān)(guan)于中心極限定理，大家就可以這樣理解了。雖然它的數學(xué)計算很復雜，但理解(′?ω?`)起來(lái)并不是那么難。我們理解了大數定律和中心極限ヾ(＾-＾)ノ定理就掌握了統計學(xué)的概率論基礎。那接下來(lái)就可以了解一下，一些開(kāi)展調查統計的基本方?法，(//ω//)比如如何采集數據??？

第三節：隨機抽樣

通過(guò)(guo)前兩節的內容我們對大數定律和中心極限定理已經(jīng)有了一定了解，本節主要講講開(kāi)展調查統計的基本方法(fa)也就是本章的第三個(gè)重點(diǎn)“隨機抽樣”。

什么是隨機抽樣？ヽ(′▽?zhuān)?ノ

按照隨機的原則，即保(bao)證總體中每一個(gè)對象都有已知的、非零的概率被選入作為研究的對象，保證樣本的代表性。隨機抽樣法就是調查對象總體中(′▽?zhuān)?每個(gè)部分都有同等被抽中的可能，是一??種完全依照機會(huì )均等的原則進(jìn)行的抽樣調查，被稱(chēng)為是一種“等概率”。隨機抽樣有四種基本形式，即簡(jiǎn)單隨機抽樣、等距抽樣、類(lèi)型抽樣和整群抽樣。它的最大??優(yōu)點(diǎn)是在根據( ?▽?)樣本資料推論總(zong)體時(shí)，可用概率的方??式客觀(guān)地測量推論值的可靠程度，從(cong)而使這種推論建立在科學(xué)的基礎上。正因為此，隨機抽樣在社會(huì )調查和社會(huì )研究中應用較廣泛。常用的隨機抽樣方法??主??要有純隨??機抽樣、分層抽樣、??系統抽樣、???整群抽樣、多??階段抽樣等。

隨機抽樣是我們在工作中收集數據的??主要方法??，比如開(kāi)展問(wèn)卷??調查的時(shí)候，如果客戶(hù)數量龐大，根據中心極限定理只要在客戶(hù)中抽取部分有代表性的樣本來(lái)填寫(xiě)問(wèn)卷，就能夠達到目的。這個(gè)選取有代表性樣本的過(guò)程，我們稱(chēng)之為“隨機抽樣”。所以呢，隨機取樣只是??看似簡(jiǎn)單，它的關(guān)ヽ(′▽?zhuān)?ノ鍵點(diǎn)在于“隨機”這兩個(gè)字。要做到隨機，必須保證每個(gè)對象被抽到的概率完全相等。這樣抽樣的樣本才代表了整個(gè)對象(xiang)群體。比如說(shuō)我們想知道100個(gè)彈珠中有多少綠色彈珠多少黃色彈珠，只要把它們放進(jìn)一個(gè)盒子里然后隨機取出30個(gè)就能得到基本準確的顏色比例。??

那么問(wèn)題來(lái)了？我們開(kāi)展調查時(shí)的對象大多是我們的用戶(hù)，我們所關(guān)心的人口組成，遠遠要比一盒子彈珠要復雜。如果不能保證相關(guān)人口中的每個(gè)人被選為樣本的(de)概率都相同，這樣的抽樣結果就存在偏見(jiàn)，這樣有偏見(jiàn)的樣本往往會(huì )得出荒謬的結論。

1、選擇(′_｀)性偏見(jiàn)

具體的我們可以把偏見(jiàn)分成幾類(lèi)，最常見(jiàn)的叫做“選ヽ(′?｀)ノ擇性偏見(jiàn)”。1936年美國總統大選??前，文學(xué)文摘雜志曾經(jīng)向1000萬(wàn)名訂閱它的美國公民發(fā)放問(wèn)卷，開(kāi)展候??選人民意調查。這份1000萬(wàn)人的樣本已經(jīng)非常大了，因為當時(shí)的美國的總人口只有不到1億3千萬(wàn)。調查結果預測共和黨人蘭登將以顯著(zhù)的優(yōu)勢當選，然而當大選結果ヾ(?■_■)ノ揭曉后民主黨人羅斯福卻以壓倒性的優(yōu)勢當選了美國總統。文學(xué)文摘的這次民意調查可以說(shuō)相當失敗，問(wèn)題就處在編輯們沒(méi)有意識到，訂閱這本雜志的人平均來(lái)說(shuō)要比普通美國民眾更富有，他們更(geng)傾向于投票給保護富人利益的共和黨。這樣帶有選擇性偏見(jiàn)的樣本即使容??量再大也不能反映出全體美國人的民意。

2、幸存者偏見(jiàn)

還有一類(lèi)“幸存者(zhe)偏見(jiàn)”也很常見(jiàn)。當樣本中有數據缺失導致組成發(fā)生改變，這種(zhong)偏見(jiàn)就會(huì )出現。舉一個(gè)最常見(jiàn)的案例：很多基金公司經(jīng)常利用這種偏見(jiàn)來(lái)操??縱數據吸引投資(zi)，基金公司會(huì )拿基金業(yè)績(jì)和股票市場(chǎng)的基準來(lái)做比較。比如美國的標準“普爾指數”（類(lèi)???似于我國的上證指數），如果(guo)某一年基金的漲幅高于標準普爾指數或者是跌幅低于普爾指數，基金公司就會(huì )宣稱(chēng)我們的基金跑贏(yíng)了普爾指數。但是要想實(shí)實(shí)在在的跑贏(yíng)普爾( ?ヮ?)指數不是一件( ?ヮ?)容易的事，我們從概率學(xué)的角度假設，某支基金有1/2的概率能夠跑贏(yíng)標準普爾指數，那么連續2年跑贏(yíng)的基金就只剩下(′?_?`)1/4，連續3年跑贏(yíng)的概率就只有1/8了。猜猜看，公司會(huì )怎么宣傳自己的基金業(yè)績(jì)呢？他們通常的做法就是同時(shí)開(kāi)放20支(zhi)新基金，經(jīng)過(guò)3年的經(jīng)營(yíng)總會(huì )有2-3支基金連續3年跑贏(yíng)標準普爾指數，那公司只要把十幾支失ヾ(＾-＾)ノ敗的基金悄悄關(guān)閉，大肆宣傳這2-3??支(??ヮ?)?*:???幸??存者就可以把投資者的錢(qián)騙進(jìn)來(lái)了。而實(shí)際上這些所謂幸存基金的產(chǎn)生就像連續拋3次硬??幣正面都朝上一樣，接下來(lái)的表現會(huì )逐漸回歸平均水平，真正能長(cháng)期跑贏(yíng)普爾指數的優(yōu)秀基金其實(shí)是鳳毛麟角。

3、健康用戶(hù)偏見(jiàn)

此外“健康用戶(hù)”偏見(jiàn)也指的(′?ω?`)我們警惕，假設衛生部門(mén)發(fā)布了一個(gè)理論，給孩( ?ヮ?)子穿上紫色睡衣會(huì )有助于孩子大腦的發(fā)育。那么20年后我們通過(guò)抽樣調查來(lái)驗證這個(gè)理論，結果顯示在哈弗大學(xué)的學(xué)生中有98%的人在少年時(shí)期是穿著(zhù)紫色睡衣入睡的，而監獄里的ヽ(′ー｀)ノ犯人只有3%的人在少年(nian)時(shí)穿過(guò)(guo)紫色睡衣，所以我們得出結論：穿紫色睡衣的孩子確實(shí)更有可能取得成功。這很顯然是很荒謬的結( ?ヮ?)論，那問(wèn)題??出在哪???呢？其實(shí)我們用來(lái)對比的兩組人并不是通過(guò)隨機抽樣得到的，哈弗大學(xué)的學(xué)生和監獄里的犯人根本就是兩類(lèi)人，真正對孩子(′▽?zhuān)?)大腦發(fā)育有作用(yong)的是給孩子穿上紫色睡衣的家長(cháng)相比于其他家庭顯然更注重對孩子的(de)家庭教育。有些養生欄目頁(yè)經(jīng)常用類(lèi)似的調查數據來(lái)證明多吃蔬菜水果的人更加長(cháng)壽等等，他們忽略了習慣吃蔬菜水果的人群往往有健康的生活習慣，而那些喜歡高熱量食物的人群很可能收入偏低，在生活的其它方面也沒(méi)有健康的習慣，所以，這樣錯誤的抽樣得??出的結論是經(jīng)不起嚴??格考證的。

小結：隨機抽樣是我們開(kāi)展調查統計的第一步，我們要通過(guò)正確抽樣來(lái)保證第一手的數據??是可靠的、沒(méi)有偏見(jiàn)的，在這個(gè)基礎上我們才能夠應用這些數據對復雜的問(wèn)題展開(kāi)研究。在下一節我們將介??紹一種強大的統計學(xué)方法“回歸分析”，這是一種非常強大的統計學(xué)方法，專(zhuān)門(mén)┐(′?｀)┌用來(lái)分析那些影響因素很多的復雜問(wèn)題。

第四節：回歸分析

什么是回歸分析？

在統計學(xué)中，ヽ(′ー｀)ノ回歸分析（regressio??n analysis)指的是確定兩種或兩種以上變量間相互依賴(lài)的定量關(guān)系的一種統計分析方法?；貧w分析按照涉及的變量的多少，分為一??元回歸和多元回歸分析；按照因變量的多少，可分為簡(jiǎn)單回歸分析和多重回歸分析；按照自變量和因變量之間的關(guān)系類(lèi)型，可分(fen)為線(xiàn)性回歸分析和非線(xiàn)性回歸分析。

在大數據分析???中，回歸分析是一種預測性的建模技術(shù)，它研究的是因變量（目標）和自變(bian)量（預測器）之間的關(guān)系。這種ヽ(′▽?zhuān)?ノ技術(shù)通常用于預測分析，時(shí)間序列模型以及發(fā)現變量之(zhi)間的因果關(guān)系。例如，司機的魯莽駕駛與道路交通事故數量之(zhi)間的關(guān)系，最好的研究方法就是回歸。（來(lái)自百度百科）

轉化為通俗易懂的文字，你可以這樣理解：回歸分析就是通過(guò)一個(gè)已知的現象來(lái)找到未知的原因，它可以通過(guò)嚴格的??數學(xué)分析復原出每種原因對結果的貢獻比例。

倫敦大學(xué)公共衛生學(xué)院曾經(jīng)組織過(guò)一項著(zhù)名的“白廳研究”，醫學(xué)家們發(fā)現英國政府里低級(′?｀*)別的公務(wù)員患上心臟病的概率比他們的上司更(′ω｀)高。白廳研究就是要找出這背后的真實(shí)原因，這個(gè)研究顯然不能用隨機抽樣的方法來(lái)實(shí)現，因為我們不可能把各個(gè)志愿者強行分配?到各個(gè)工作崗位工作幾年，然后再看哪些人因公殉職了。研究人員只能在很長(cháng)一段時(shí)間里對數千名公務(wù)員進(jìn)行詳細的數據采集，來(lái)對比各類(lèi)導致心臟病的可能因素。比如說(shuō)，低階公務(wù)員的學(xué)歷普遍偏低，會(huì )不會(huì )是影響因素呢？煙民比例多呢？還是不能享受到高水??平的醫療服務(wù)呢？或則是加班多鍛煉時(shí)間少ヽ(′ー｀)ノ？這些都是導致心臟病高發(fā)的變(′ω｀*)量，那么到底哪一個(gè)才是具有決定性的影響呢？如此龐雜的數據里有太多錯綜復雜的因素，顯然會(huì )干擾(′?ω?`)研究人員的判斷。這時(shí)候我們就要用到回歸分析這個(gè)工具，它的作用就好比一個(gè)可以調節孔徑的篩子，能在綜合考慮其它變量效果不變的情況下，把其中一個(gè)變量的效果分離出來(lái)。

回歸分析的數學(xué)過(guò)程比較復雜，幸好我們現在有了成熟的多元線(xiàn)性回歸方程模型可以套用，我們要(′?｀*)做的就(jiu)是將多個(gè)變量的取樣結果帶入回歸方程式，計算結果就會(huì )顯示出我們關(guān)注的變量和心臟病發(fā)病率的線(xiàn)性關(guān)系（回歸分析軟件：SAS、SPSS、BMDP等）。通過(guò)統計推斷我們就能夠知道，這個(gè)變量到底在多大(da)程度上影響了發(fā)病率。實(shí)驗結果表明，造成心臟病高發(fā)的真正原因是對工作缺乏控制力和話(huà)語(yǔ)權，而這類(lèi)存在感較低的崗位在低級別職位中更常見(jiàn)?，F在“低控制率”已經(jīng)成為一個(gè)專(zhuān)有名詞了，專(zhuān)指那些精神負擔重，決策水平低的工作。事實(shí)上當前科學(xué)界絕大多數的研究結論都是以回歸分析作為基礎的。尤其是回歸分(′_｀)析軟件的普及，讓建立模型和解析方程(╯‵□′)╯變得很簡(jiǎn)單，但同時(shí)也要注意電腦永遠不能代替人的工作，如??果我們在(zai)進(jìn)行回??歸分析時(shí)遺漏的變量或者忽視反面因素，回歸分析就回得??出危險的結論。

比如上世紀90年代??，哈弗大學(xué)對12萬(wàn)名女性開(kāi)展了縱向調查，經(jīng)過(guò)嚴格的回歸分析證實(shí)，定期攝入雌激素的女性突發(fā)心臟病的概率只有其他女性的1/3。醫學(xué)機構支持了這個(gè)觀(guān)(guan)點(diǎn)，醫院開(kāi)始定期為中老年婦女進(jìn)行雌激??素的補充治療。然而后(hou)來(lái)的臨床試驗發(fā)現，補充雌激素的副作用會(huì )導致乳腺癌和血栓病高發(fā)，這是科學(xué)家沒(méi)有考慮到的重大疏漏。最終因為接(jie)受雌激素治療而死亡的女??性患者達到上萬(wàn)人，所以一旦出現數據遺漏，錯誤的數據結果甚(╯‵□′)╯至會(huì )造成人身傷害。

下面我們使用IBM公司開(kāi)發(fā)的“統計產(chǎn)品與服務(wù)解決方案”軟件SPSS（Statistical Product and Service Solutions）做一個(gè)簡(jiǎn)單的實(shí)例，給大家(jia)介紹如何使用SPSS做回歸分析的方法?；貧w分析的方法包括：線(xiàn)性回歸、邏輯回歸、多項式回歸、逐步回??歸等很多種，本次我們就拿就常用的線(xiàn)性回歸結合案例來(lái)給大家講解：年齡??和血壓的關(guān)系。

開(kāi)始之前，我們先了解一下線(xiàn)性回歸到底是怎么回事？它能做什么？

線(xiàn)性回歸的意義

線(xiàn)性回歸包含：一元線(xiàn)性回歸和多元線(xiàn)性回歸。一元線(xiàn)性回歸又叫做簡(jiǎn)單線(xiàn)性回歸，主要用于判斷是否能通過(guò)回歸模型找到一個(gè)“線(xiàn)性組合??”，從而證明一組變量（因變量(′Д` )和自變量）的關(guān)系。如果能(?Д?)的話(huà)，這種關(guān)系的強度有多大，也就是利用自變量的線(xiàn)性組合來(lái)預測因變量的能力有多強？整體解釋能力是否具有統計上的顯著(zhù)性意義？在整體解釋能力顯著(zhù)ヽ(′ー｀)ノ的情況下，哪些自變量有顯著(zhù)的意義？

回歸分析的步驟

確定回歸方程ヽ(′?｀)ノ中的解(jie)釋變量（自變量）和被解釋變量（因變量）；確??定回歸模型——選擇合適的數學(xué)模型概括回歸線(xiàn)；確定回歸方程——根據樣本ヾ(＾-＾)ノ數據及確定的回歸模型，在一定的統計擬合準則下估計模型的參數，得到確定的回歸方程；對回歸方程進(jìn)行各種檢驗(yan)——基于樣本得到的回歸方程是否真實(shí)反映了總體間的統計關(guān)系？回歸方程能否用于預測？；利用回歸方程???進(jìn)行預測。

一元線(xiàn)性回歸模型：

模型說(shuō)明(′▽?zhuān)?：

X為自變量??；

Yヾ(＾-＾)ノ為因變量；

Y的截距，即常量；

斜率為回歸系數，表明自變量對因變量的影響程度；

X的變化引起的Y的線(xiàn)性變化部分：

其它隨機??因素引起的Y的變化部分：

對一元線(xiàn)性回歸有所了解以后，我們就拿就用它結合一個(gè)簡(jiǎn)單的案例：年齡和血壓的關(guān)系，創(chuàng )建一個(gè)具體的實(shí)例。

第一步：導入數據

打開(kāi)SPSS導入需要分析的表格

第二步：生成散點(diǎn)圖??

選擇“簡(jiǎn)單散點(diǎn)圖”，得到以下圖形

通過(guò)散點(diǎn)圖觀(guān)察變量間的趨勢。如果有多個(gè)變量則做出散點(diǎn)圖矩陣、重疊散點(diǎn)圖和三維散點(diǎn)圖。如果我們覺(jué)得數據的分布存在明顯的問(wèn)題，這時(shí)候需要對數據進(jìn)行預處理，防止后面得到的結果和實(shí)際結果相差過(guò)大。

第三步：分析結果

我們可以這樣理解：因變量是??結果，自變量是原ヽ(′▽?zhuān)?ノ因。在這個(gè)實(shí)例中我們可以理解為年齡影響血壓。當然這里要加個(gè)疑問(wèn)，因為我們是分(fen)析嘛，在得到最終的結果之前這只是一個(gè)假設。

右側點(diǎn)擊【統計】按鈕，在彈出的界面做如(′ω｀)下勾選

點(diǎn)擊右側【圖】按鈕，有些版本叫【繪制】，做如下配置

這兩項配置完成(cheng)后點(diǎn)擊主界面的【確定】按鈕就可以得??到輸出結果，我們只截取部分比較重要的圖標來(lái)做講解。

注：軟件原因“德賓-沃森”英文實(shí)際為：Durbin-Watson

調整R方就??是反映這個(gè)模型的擬合度的，簡(jiǎn)單說(shuō)就是我們擬合的兩個(gè)變(bian)量之間的線(xiàn)性方程與兩個(gè)變量真實(shí)之間關(guān)系的一個(gè)擬合度。擬合度通常是在0-1之間的數字。

anova也叫方差分析，主要目的是衡量年齡是否能夠顯著(zhù)的影響血壓

顯著(zhù)性也叫Sig，顯著(zhù)性的結果是0.002也就是0.2%，說(shuō)明年齡完全不能影響血壓這個(gè)假設發(fā)生的概率是0.2ヽ(′ー｀)ノ%，因此我們可以得出結論有(′▽?zhuān)?99.8%的概率年齡可以顯著(zhù)影響血壓的。

以上圖┐(′д｀)┌標說(shuō)明年齡對血壓的影響是正ヾ(′▽?zhuān)??向的（0.881），也就是說(shuō)年齡越大血壓越高。年齡每增加1分，血壓總分就會(huì )增加0.881分，這就是自變量和因變量之間(jian)的一(′ω｀*)個(gè)定量的影響關(guān)系。

當然判斷的依據和數ヽ(′▽?zhuān)?/據維度以及最后結果的幾個(gè)關(guān)鍵值都有密切關(guān)系，加入(ru)分析的自變量是否正確、數量多少等因素對結果也會(huì )產(chǎn)生影響。網(wǎng)上有很多專(zhuān)門(mén)介紹線(xiàn)性回歸的資料教程(′-ι_-｀)，在這里不再詳細描述，建議大家多看多動(dòng)手多思考，統計(ji)學(xué)雖然入門(mén)比較簡(jiǎn)單，但是要真正應用(yong)到實(shí)際工作中還是需要一定的實(shí)際分析經(jīng)驗的。

小結(jie)：統計學(xué)┐(′д｀)┌原因雖然看似簡(jiǎn)單，但卻不是人人都可以做數據分析師，因為它既能給我們的觀(guān)點(diǎn)找到嚴謹的數據支持，但有時(shí)也會(huì )給一個(gè)錯誤(′ω｀)的結論??披上合理的外衣。這ヽ(′ー｀)ノ就是本章下一節要講的(′?_?`)最后一部分：常犯的概率學(xué)錯誤。

第五節：常犯(◎_◎;)的概率學(xué)錯誤

一、“黑天鵝”事件

17世紀之前的歐洲人認為天鵝都是白??色的，甚至經(jīng)常用“世界上沒(méi)有黑色的天鵝”這句諺語(yǔ)去諷刺那些無(wú)中生有的人。但隨著(zhù)第一只黑天鵝在澳大利亞被發(fā)現，這句諺語(yǔ)就變成了笑談，現在“黑天鵝”一般用來(lái)指那些影響很大但難以預測的小概率事件。通(tong)過(guò)這個(gè)例子我們可以了解，忽略那些小概率事(???)件，會(huì )造成多么(╬ ò﹏ó)嚴??重的后果。

2008年美國次貸危機爆發(fā)之前，整個(gè)北美金融行業(yè)都(′?ω?`)在使用同一個(gè)風(fēng)險價(jià)值模型來(lái)預測投資風(fēng)險。這個(gè)模型的強大之??處在于它非常精確??，它能把華爾街每家公司的資產(chǎn)都進(jìn)行嚴格的概率學(xué)分析，給出??預期收益和損失值。并且還能給這些海量的市場(chǎng)信息整合成一個(gè)簡(jiǎn)潔的風(fēng)險指標提供給美聯(lián)儲和財政部參考，比如分析了以往市場(chǎng)變動(dòng)數據后，金融家??會(huì )根據這(zhe)個(gè)模型給出某項投資在特定周期內可能讓公(╬ ò﹏ó)司蒙受的損失，而這種預測可以覆蓋高達99%的市場(chǎng)風(fēng)險。然而這個(gè)模型有一個(gè)被忽略的致命問(wèn)題(′?ω?`)，它的概率學(xué)模型參照的是過(guò)去20年(nian)的(de)市場(chǎng)行為，不能對未知的以外情況作出預測，所以它預測不了黑???天鵝的出現。這只黑天鵝就是2007年美國商業(yè)銀行放貸業(yè)務(wù)的崩潰，雖然它發(fā)生的概率只有不到1%，但悲劇確實(shí)發(fā)生了。直接導致了一次全球大范圍的金融危機，失業(yè)率達到了(le)10%，很多國家和政府都陷入了ヽ(′▽?zhuān)?ノ債務(wù)危機，這就是小概率重大事件的破壞力。難道這是概率學(xué)本身出問(wèn)題了嗎？顯然不是，模(?Д?)型已經(jīng)告訴了我們有1( ?ヮ?)%的風(fēng)險無(wú)法預測，客人們仍然選擇了無(wú)視。所以，最大的風(fēng)險永遠都不是那些我們能看得見(jiàn)算得出(′_ゝ`)的，而是那些看上??去似乎概率很小，我們認為一輩子都不可(ke)能發(fā)生的風(fēng)險，但它的確發(fā)生了，而且比我們想象的要頻繁的多。

案例小結：忽略小概率事件，有時(shí)會(huì )造成嚴重的后果

除了黑天鵝還有一個(gè)我們容易忽視的問(wèn)題：統計誤??差，統計學(xué)雖然有這嚴謹的數學(xué)計算，但它并不是完美無(wú)缺的。我們通過(guò)分析數據推斷出的結論永遠不ヽ(′▽?zhuān)?ノ會(huì )是100%正確的，只要數據分析建立在抽樣調查之上，樣??本的統計結果和正式情況之間就會(huì )存在誤差。雖然隨著(zhù)樣本數量的增大，實(shí)驗次數的增多，這樣的誤差會(huì )接近于零，但即使誤差再小，也不能忽視它的存在。

比如第2節介紹的中心極限定理，警察通過(guò)計算車(chē)內乘客的體重分布，有99%的把握估計那些體重較大的乘ヽ(′ー｀)ノ客不是鐵人三項選手，但這個(gè)??推理還有1%的概率是錯的，原因就在于鐵人三項運動(dòng)員體重樣本的平均值雖然會(huì )接近整體的平均值，但并不能說(shuō)二者完全相等。就好像從一棵樹(shù)上摘的蘋(píng)果，如果進(jìn)行精確的化學(xué)分析他們的成分和甜度總會(huì )??有細微的不同。這就是統計誤差的含義，我們不可能通過(guò)數據得出完全確鑿的真相，只能通過(guò)合理控制誤差來(lái)無(wú)限接近真相。

二、檢方??謬誤

另外舉一個(gè)有趣的例子：檢方謬誤。假設你是一名法官，聽(tīng)到公訴人陳述這樣的事實(shí)“犯罪(?????)現場(chǎng)遺留的DNA樣本和被告的DNA相吻合，除了被告以外這個(gè)樣本和其他人吻合的概率只有百萬(wàn)分之一，在這個(gè)證據的基礎上你能為被告人定罪嗎？”這時(shí)候如果你忽略百萬(wàn)分之一的誤差就可能會(huì )讓無(wú)辜的人鋃鐺ヾ(′?｀)?入獄，這是因為誤差ヽ(′?｀)ノ看似很小，但警方的DNA樣本庫數量非常龐大，通過(guò)樣本比對找到兩個(gè)DNA特征相似的人并不是不可能的，所以給犯罪分子定罪時(shí)，不能死守著(zhù)概率ヽ(′?｀)ノ這種破案工具而忽略了性別、年齡、社會(huì )關(guān)系等其它線(xiàn)索。在現實(shí)中其實(shí)也是一樣的，對那些意義重大的可研結論，人們往往對概率計算有精確的要求，比如物理學(xué)家在探測引力波是否真實(shí)存在的時(shí)候，總計花費了數十億美元用20多年時(shí)間來(lái)建造探測器，目的就是必須要把實(shí)驗誤差控制在一個(gè)極其微小的數量級。事實(shí)上這個(gè)探測器能(neng)探測到小數點(diǎn)后21位，10的負21次冪這個(gè)尺度上的引力波變化，愛(ài)因斯坦一個(gè)多世紀前的預言才最終得到了有說(shuō)服力的證明。

Copyright ? 2012-2018 天津九安特機電工程有限公司版權所有備案號：

亚洲女同成aV人片在线观看|亚洲www啪成人一区二区麻豆|亚洲国产中日韩精品综合|亚洲国产成人精品一级片|亚洲无码在线视频免费松潘县| 汤阴县| 华坪县| 宝鸡市| 黔江区| 长丰县| 嘉义市| 罗平县| 公安县| 二连浩特市| 利津县| 石柱| 新建县| 吴旗县| 胶州市| 工布江达县| 益阳市| 和静县| 本溪市| 邵阳县| 加查县| 长岭县| 衡山县| 靖远县| 巴彦县| 利辛县| 濮阳县| 鹤峰县| 大冶市| 柳州市| 区。| 呈贡县| 乐至县| 北海市| 舞钢市| 盱眙县| 瓦房店市| 丰台区| 罗甸县| 清丰县| 垣曲县| http://444 http://444 http://444 http://444 http://444 http://444