亚洲女同成aV人片在线观看|亚洲www啪成人一区二区麻豆|亚洲国产中日韩精品综合|亚洲国产成人精品一级片|亚洲无码在线视频免费

新聞中心

NEWS

當前位置: 首頁(yè) > 百度優(yōu)化

什么是ab測試?分析ab測試的正確做法

時(shí)間:2026-05-05 00:34:31

后臺收到一些旁友的什a試分試留言,想學(xué)習AB測試相??關(guān)知識,測b測但市面上的正確做┐(′д`)┌法教程要么太“正式”,要么知識點(diǎn)比較零散。什a試分試今天給大家分享的測b測這篇文??章,可謂既干貨又生動(dòng)活潑:

讓我們想象一下,正確做??法在公司的什a試分試某產(chǎn)品研發(fā)討論會(huì )上……

“這個(gè)功能要不要上?”(′▽?zhuān)?

“我覺(jué)得沒(méi)問(wèn)題,XX指標肯定能漲一大截。測b測”

“我不這么(me)想,正確做法XX指標說(shuō)不定也會(huì )受到影響,什a試分試ヽ(′ー`)ノ你不能(°ロ°) !只想著(zhù)(′ω`*)可能的測b測收益??呀?!?/p>

blahblaヽ(′?`)ノh無(wú)限循環(huán)爭吵中……

“好啦,正確(que)做法別吵了,什a試分試??讓我們開(kāi)個(gè)AB看一下效果吧。測b測”

當??現在越來(lái)越多的正確做法app都已經(jīng)日活百萬(wàn)千萬(wàn),新功能是絕對不敢、也絕無(wú)必要輕易上線(xiàn)的。(因為一旦全量上線(xiàn)引起用戶(hù)反感,損失不可??估計。)這個(gè)時(shí)候,AB實(shí)驗就成為了大型功能上線(xiàn)前的必備利器——進(jìn)行小流量的測試,利用測試的效果來(lái)預估上線(xiàn)后的效果。

OK,那一個(gè)AB實(shí)驗??(╬?益?)開(kāi)啟了之后,我們(常常是數據分析師)該怎么評估這個(gè)AB實(shí)驗的效果,給出這個(gè)需求到底要不要上線(xiàn)的分析結論呢?這就是本文的重點(diǎn)所在了。

一個(gè)合格的分析師?,可以問(wèn)???自己以下幾個(gè)問(wèn)題:

我怎么衡量一個(gè)指標是否有顯著(zhù)變化?當你看到指標顯著(zhù)時(shí):是真的顯著(zhù)嗎?當你看到指標不顯著(zhù)時(shí),是真的不顯著(zhù)嗎?一個(gè)合適的AB實(shí)驗指標判斷結論怎么給出?我(′?`)會(huì )遇到哪些問(wèn)題、分別應該怎么處理?

接下來(lái),讓我們一起看看這些問(wèn)題該怎么解答吧~

我怎么衡量一個(gè)指標是否有顯著(zhù)變化?

結論(lun):利用??(?⊿?)p值進(jìn)行(xing)判斷,ヽ(′?`)ノ一般來(lái)說(shuō)p值&l(′;ω;`)t;0.05,認為指標有顯著(zhù)變┐(′ー`)┌化(′?ω?`)。原因:假設檢驗的相關(guān)知識。

嗯……AB實(shí)驗就是一種假設檢驗嗎?那假設檢驗(′Д` )是怎么一回事呢?

這里我舉一個(gè)公開(kāi)課里看到的例子。非常生動(dòng)形象??纯次覀冊谝粋€(gè)實(shí)際的Case中(zhong),怎么拒絕/接受一個(gè)假設的。

背景:神經(jīng)學(xué)家測試一種藥物對小老鼠反應時(shí)間的影響,給實(shí)驗組100只小老鼠注釋某種藥物。神經(jīng)學(xué)家知道,沒(méi)有注射藥ヾ(′▽?zhuān)??物的老鼠平均反應時(shí)間是??1.2??s,注射了藥物的老鼠平均反應時(shí)間1.05s,樣本標準差0.5s。你認為這個(gè)藥物對于老鼠的反應時(shí)間有影響嗎?

依照我們上面說(shuō)的步驟逐步拆解:

我們先(???)假設藥物是沒(méi)有影響的。(H0:藥物無(wú)影響。ps.此處還有一個(gè)備擇假設H1:藥物有影響)如果藥物沒(méi)有影響,換句話(huà)說(shuō),實(shí)驗組的小鼠在注射藥物之后,他們的反應時(shí)間均值應該是1.2s。假設總體小鼠的反應均值就應該是1.2s,那么我們得到的這個(gè)樣本——平均反應時(shí)間1.05s的概率是ヽ(′ー`)ノ多大?求解:

(1)已知總體均值為(wei)1.2s?? ;

(2)已知樣本均值為1.05s ,樣本標準差0.5s

(3)由于樣本量尚可(?⊿?),利用樣本標準差估計總體標準差(這部分如果(guo)不懂的可以去補一下抽樣分布,不詳細展開(kāi)說(shuō)):0.5/10 = 0.0??5

(4)計算1.05距離1.2有幾個(gè)標準差(′?`)那么遠?—— 1.05-1.2/0.05 = 3個(gè)

(5)當我們抽出一個(gè)樣(╯°□°)╯本,它落在距離總體均值1.2三個(gè)標準差的地方(′?ω?`)、甚至更(geng)遠,概率是多少?——概率是正態(tài)分布鐘形曲線(xiàn)下,3sigma之外的面積(包括正、負3sigma)??梢酝ㄟ^(guò)查正??態(tài)分布得(de)知,概率是0.3%

(6)事已至此,我們可以得到的結論是:如果接受原假設,藥物沒(méi)作用,出現我們這種抽樣結果的概率是——┐(′?`)┌0.003… 我們居然就抽到了??所以,這個(gè)時(shí)候,雖然不是100%ヾ(?■_■)ノ確定,但我們傾向于拒絕原假設(藥物無(wú)影響),接受備擇假設(藥物有影響)。

那么,當我(′▽?zhuān)?)們做一個(gè)實(shí)驗時(shí),判斷feature是否有用,我們的思路是這樣的:

當我有足夠大的樣本量,把用戶(hù)分成兩組。A組(對照組(′?_?`))和B組(實(shí)驗組)。由于樣本量充足,理論上來(lái)說(shuō),A組和B組的各項原始指標表現應當是差??不多的。AB實(shí)驗是在對照組的基(ji)礎上,做一個(gè)feature改動(dòng)。假設這個(gè)featur??e改動(dòng)是不影響指標的。是沒(méi)有作用的。觀(guān)察B組的指標,經(jīng)過(guò)統計學(xué)方法計??算,在H0成立的情況下,B組這種指標表現出(chu)現的概率。根據這個(gè)概率去判斷我們是該接受3的假設、還是拒絕3的假設。

在統計學(xué)上,我們稱(chēng),依照原假設,得到實(shí)際這種或更加極端情況的概率值為ヽ(′▽?zhuān)?ノP-value,也就是p值。在這個(gè)背景問(wèn)題中,P值??為0.003。一般來(lái)說(shuō),我們規定0.05是判斷顯著(zhù)與否的閾值(當然,這個(gè)閾值可以調整)??,也就是這一part的結論:我怎么衡量一個(gè)指標是否有顯著(zhù)變化?——利用p值進(jìn)行判斷。一般來(lái)說(shuō)p值<0.05,認為指標有顯著(zhù)(????)變化。

當你看到指標顯著(zhù)時(shí):是真的顯著(zhù)嗎?

結論(?????):不一定是真的顯著(zhù)。原因:犯了第一類(lèi)錯誤?。ǔUf(shuō)的alpha錯誤)

看到這,有的小伙伴可能有(????)點(diǎn)迷茫。什么意思??不是剛剛說(shuō)p值遠小于0.05,拒絕原假設了嗎?怎么又不一定真的顯著(zhù)呢??

這里解釋一下。我們剛剛說(shuō)了,我們拒絕了H0,不是因為10(′;д;`)0%確定H0是錯的,而是因為H0為真的概率太低了,所以我們選擇拒絕了它。但是不代表它一定就是錯的,有可能藥是確實(shí)沒(méi)有作用,只是我們選的小鼠剛好反應巨快??!鼠中佼佼者?。?!。。

也就是說(shuō),AB實(shí)驗告訴我,顯著(zhù)了!指標顯著(zhù)發(fā)生了變化?。?!喜大普奔?。?!這個(gè)時(shí)候,我們仍然是有可能犯(?_?;)錯的??赡芪覀兊臉颖局笜司褪锹湓诹四莻€(gè)5%的區間里。

你可能會(huì )想,完犢子了。那我們這還咋評估啊。

但是!???。?!雖然我們不敢說(shuō)100%數據就一定會(huì )像表現的那樣漲,我(wo)們可以給出,“實(shí)際沒(méi)漲,AB實(shí)驗看起來(lái)漲了”的犯ˉ\_(ツ)_/ˉ錯概率。這個(gè)過(guò)(guo)程,就是將“不確定性”進(jìn)行“量化”的過(guò)程。一般如果給定P值0.05,AB實(shí)驗看起來(lái)顯著(zhù)的漲了,但實(shí)際沒(méi)漲,犯這種錯誤的概率是5%。

總而言之,我們不??可能“準確”的預估產(chǎn)品f(╯°□°)╯︵ ┻━┻eature上線(xiàn)后的表現,但是它能將“不可預知”的風(fēng)險,轉換為“可以量化”其“不確定性”的問(wèn)題。

當你看到指標不顯著(zhù)時(shí),是真的(??ヮ?)?*:???不顯著(zhù)嗎?

結論:不一定真的不顯著(zhù)。原因:犯了第二類(lèi)錯誤?。ǔUf(shuō)的beta錯誤)

嗯嗯嗯又來(lái)了,看到不顯著(zhù),也不一定是真的不顯著(zhù)……

那這又是為什么呢?我們會(huì )可能犯第二類(lèi)錯誤:其實(shí)策略(′?`*)有效,只是沒(méi)有被檢測出來(lái)。

這種錯誤的概率被記為β。而統計功效(power,也被稱(chēng)為檢驗效力),被定義為1-β,表示的是“假設我的新策略是有效的,我有多大概率在實(shí)驗中檢測出來(lái)”。

什么意思呢?讓我們畫(huà)圖來(lái)看,右邊這個(gè)紅色曲線(xiàn)(′_`)是實(shí)驗組,左邊這個(gè)藍色曲線(xiàn)是對照組。大家可以知道的是,如果我實(shí)驗組取的樣本落在了圖中藍色涂滿(mǎn)??的這部分,其實(shí)是應該拒絕原假設的??!但是由于它不在藍色(′▽?zhuān)?)曲線(xiàn)的拒絕域里,所以我們接受了它。???這就是第二類(lèi)錯誤了。第二類(lèi)錯誤的概率取決于兩個(gè)曲線(xiàn)的分布情況。

一個(gè)合適的AB實(shí)驗指標判斷怎么給出?

這里有個(gè)簡(jiǎn)單的流程。

當我們判斷一個(gè)指標是否顯著(zhù)時(shí),??先看P值。能得到顯著(zhù)與否的結論,但是要注意仍然有概率犯錯。

當我們判斷一個(gè)指標不顯著(zhù)、實(shí)驗沒(méi)效果時(shí),要注意是否會(huì )存在流量不(bu)夠的問(wèn)題,造成了實(shí)際有效果??,但沒(méi)???被檢驗出來(lái)的可能性。(不(′?_?`)過(guò)一般來(lái)說(shuō),開(kāi)始實(shí)驗前最好(???)就評估好樣本量的問(wèn)題)

AB實(shí)驗相關(guān)的面試常見(jiàn)問(wèn)題

1.怎么降低犯第一類(lèi)錯誤的概率?

把p值限定得越小(′ω`),犯第(di)一類(lèi)??錯誤的概率就越低。因為P值本來(lái)就是犯第一類(lèi)錯誤的概率……

2.怎么降低犯第二類(lèi)錯誤的概率?

降低犯(′?`*)第二類(lèi)錯誤的概率,換言之就是提升統計功效。

這個(gè)部分和我們置信度(1-p值)、樣本量都有關(guān)系。

首先(°ロ°) !,如果我們降低置信度,可(′;ω;`)以提升統計功效。比如說(shuō)不需要p值<0.05就ヾ(?■_■)ノ認為顯著(zhù)了,我們認為p值<0.1就顯著(zhù)(′?_?`)。那么紅色的部分會(huì )往更中間集中,相對應??,藍色的部分會(huì )變小。

不過(guò)這種方式的缺點(diǎn)在于,我們犯第一類(lèi)錯誤的概??率就會(huì )變大。

其次,可以提升樣本量,使我們的正(′?ω?`)態(tài)分布鐘??型變更尖,讓犯第二類(lèi)錯誤的概率變小。

3.怎么(°□°)確定樣本量?

樣本量和我們的統計功效息息相關(guān)。(╬ ò﹏ó)怎么根據我們希望的統計功效,來(lái)反過(guò)來(lái)推算實(shí)驗所需的樣本量呢?

輸(°ロ°) !入 :

1、指(zhi)標的base值和兩組(°o°)指標的差異(比如說(shuō),現(xian)在對照組留存是60%,認為提升到61%才是有意義的,差異就是0.01)

2、指標方(′_`)差。如一個(gè)實(shí)驗組的指標如閱??讀數的方差,可用歷史數據估算。

3、t檢驗的顯著(zhù)性水平,默認0.05(′?_?`)

4、統計(ji)功效,一般取80%,可以調整。

輸出:

單個(gè)實(shí)驗組的樣本量。

這個(gè)部分的公??式推導就不展開(kāi)了(公式推導是我的弱項…),python中提供了相應的計算包,可以去實(shí)驗一下,感興趣的也可以自己研究背后的計算函數、原理。

python statsヽ(′▽?zhuān)?ノmodels里計算(′?ω?`)樣本量的包

4.產(chǎn)品( ?▽?)要求開(kāi)AABB實(shí)驗,我聽(tīng)不聽(tīng)?

聽(tīng)你個(gè)大頭鬼哦。

首先,不科學(xué)。抽樣產(chǎn)生的誤差本身就已經(jīng)在我們的計算概率里了!為啥還要專(zhuān)門(mén)開(kāi)4組實(shí)驗對比?

其次??,不聰明。多樣本進(jìn)行對比(′ω`)更可能犯錯。比如說(shuō),一次抽樣有5%的可能犯錯,四次抽樣,?產(chǎn)生6組對比(A1A2,A1B??1,A1B2,A2B1,A2B2,B1B??2),一組對(???)比時(shí)不犯錯的概率9ヽ(′ー`)ノ5%,?假設各組對比結果相互獨立,至少一組犯錯的概率[ 1 -(1-0.05)^6(′?`) ] =0.265,遠大于0.05。多來(lái)幾次抽樣,犯錯的概率增加。更別提評估成本了——本來(lái)只用評估兩組,現在需要看6組。

最后,不好使。AABB實(shí)驗可能會(huì )影響實(shí)驗的靈敏度。流量不變則意味??著(zhù)各組樣本流量減少一半,靈敏度下降;加大流量則更多用戶(hù)進(jìn)組,有可能引入風(fēng)險。因??此不(bu)管怎么說(shuō)都是加大成本的。

5. 實(shí)驗做??(zuo)了有效果,上線(xiàn)沒(méi)有效果是怎么回事?

有可能犯第一類(lèi)錯誤。你看到的顯著(zhù)可能不是真的,只是抽樣的隨機誤差帶來(lái)的~~~

亚洲女同成aV人片在线观看|亚洲www啪成人一区二区麻豆|亚洲国产中日韩精品综合|亚洲国产成人精品一级片|亚洲无码在线视频免费 陇南市| 大渡口区| 旬阳县| 垫江县| 凤阳县| 忻城县| 蓝山县| 安吉县| 巴青县| 临邑县| 永靖县| 台州市| 布拖县| 神池县| 桐柏县| 蒲城县| 贵定县| 邯郸市| 安达市| 始兴县| 阿瓦提县| 永年县| 清徐县| 神池县| 西乌珠穆沁旗| 仁寿县| 凤庆县| 罗江县| 马山县| 余庆县| 马山县| 丰城市| 扶余县| 库伦旗| 洪洞县| 永登县| 麟游县| 新邵县| 鄂伦春自治旗| 密云县| 荣昌县| http://444 http://444 http://444 http://444 http://444 http://444