亚洲女同成aV人片在线观看|亚洲www啪成人一区二区麻豆|亚洲国产中日韩精品综合|亚洲国产成人精品一级片|亚洲无码在线视频免费

<center id="wqoco"></center>

<strike id="wqoco"><var id="wqoco"><em id="wqoco"></em></var></strike>

<sup id="wqoco"><table id="wqoco"><kbd id="wqoco"></kbd></table></sup>

<sup id="wqoco"><var id="wqoco"><em id="wqoco"></em></var></sup>

新聞中心

NEWS

當前位置：首頁(yè) > 百度優(yōu)化

什么是ab測試？分析ab測試的正確做法

時(shí)間：2026-05-05 00:34:31

后臺收到一些旁友的什a試分試留言，想學(xué)習AB測試相??關(guān)知識，測b測但市面上的正確做┐(′д｀)┌法教程要么太“正式”，要么知識點(diǎn)比較零散。什a試分試今天給大家分享的測b測這篇文??章，可謂既干貨又生動(dòng)活潑：

讓我們想象一下，正確做??法在公司的什a試分試某產(chǎn)品研發(fā)討論會(huì )上……

“這個(gè)功能要不要上？”(′▽?zhuān)?

“我覺(jué)得沒(méi)問(wèn)題，XX指標肯定能漲一大截。測b測”

“我不這么(me)想，正確做法XX指標說(shuō)不定也會(huì )受到影響，什a試分試ヽ(′ー｀)ノ你不能(°ロ°) !只想著(zhù)(′ω｀*)可能的測b測收益??呀?！?/p>

blahblaヽ(′?｀)ノh無(wú)限循環(huán)爭吵中……

“好啦，正確(que)做法別吵了，什a試分試??讓我們開(kāi)個(gè)AB看一下效果吧。測b測”

當??現在越來(lái)越多的正確做法app都已經(jīng)日活百萬(wàn)千萬(wàn)，新功能是絕對不敢、也絕無(wú)必要輕易上線(xiàn)的。（因為一旦全量上線(xiàn)引起用戶(hù)反感，損失不可??估計。）這個(gè)時(shí)候，AB實(shí)驗就成為了大型功能上線(xiàn)前的必備利器——進(jìn)行小流量的測試，利用測試的效果來(lái)預估上線(xiàn)后的效果。

OK，那一個(gè)AB實(shí)驗??(╬?益?)開(kāi)啟了之后，我們（常常是數據分析師）該怎么評估這個(gè)AB實(shí)驗的效果，給出這個(gè)需求到底要不要上線(xiàn)的分析結論呢？這就是本文的重點(diǎn)所在了。

一個(gè)合格的分析師?，可以問(wèn)???自己以下幾個(gè)問(wèn)題：

我怎么衡量一個(gè)指標是否有顯著(zhù)變化？當你看到指標顯著(zhù)時(shí)：是真的顯著(zhù)嗎？當你看到指標不顯著(zhù)時(shí)，是真的不顯著(zhù)嗎？一個(gè)合適的AB實(shí)驗指標判斷結論怎么給出？我(′?｀)會(huì )遇到哪些問(wèn)題、分別應該怎么處理？

接下來(lái)，讓我們一起看看這些問(wèn)題該怎么解答吧~

我怎么衡量一個(gè)指標是否有顯著(zhù)變化？

結論(lun)：利用??(?⊿?)p值進(jìn)行(xing)判斷，ヽ(′?｀)ノ一般來(lái)說(shuō)p值&l(′；ω；`)t;0.05，認為指標有顯著(zhù)變┐(′ー｀)┌化(′?ω?`)。原因：假設檢驗的相關(guān)知識。

嗯……AB實(shí)驗就是一種假設檢驗嗎？那假設檢驗(′Д` )是怎么一回事呢？

這里我舉一個(gè)公開(kāi)課里看到的例子。非常生動(dòng)形象?？纯次覀冊谝粋€(gè)實(shí)際的Case中(zhong)，怎么拒絕/接受一個(gè)假設的。

背景：神經(jīng)學(xué)家測試一種藥物對小老鼠反應時(shí)間的影響，給實(shí)驗組100只小老鼠注釋某種藥物。神經(jīng)學(xué)家知道，沒(méi)有注射藥ヾ(′▽?zhuān)??物的老鼠平均反應時(shí)間是??1.2??s，注射了藥物的老鼠平均反應時(shí)間1.05s，樣本標準差0.5s。你認為這個(gè)藥物對于老鼠的反應時(shí)間有影響嗎？

依照我們上面說(shuō)的步驟逐步拆解：

我們先(???)假設藥物是沒(méi)有影響的。（H0：藥物無(wú)影響。ps.此處還有一個(gè)備擇假設H1：藥物有影響）如果藥物沒(méi)有影響，換句話(huà)說(shuō)，實(shí)驗組的小鼠在注射藥物之后，他們的反應時(shí)間均值應該是1.2s。假設總體小鼠的反應均值就應該是1.2s，那么我們得到的這個(gè)樣本——平均反應時(shí)間1.05s的概率是ヽ(′ー｀)ノ多大？求解：

（1）已知總體均值為(wei)1.2s?? ；

（2）已知樣本均值為1.05s ，樣本標準差0.5s

（3）由于樣本量尚可(?⊿?)，利用樣本標準差估計總體標準差（這部分如果(guo)不懂的可以去補一下抽樣分布，不詳細展開(kāi)說(shuō)）：0.5/10 = 0.0??5

（4）計算1.05距離1.2有幾個(gè)標準差(′?｀)那么遠？—— 1.05-1.2/0.05 = 3個(gè)

（5）當我們抽出一個(gè)樣(╯°□°）╯本，它落在距離總體均值1.2三個(gè)標準差的地方(′?ω?`)、甚至更(geng)遠，概率是多少？——概率是正態(tài)分布鐘形曲線(xiàn)下，3sigma之外的面積（包括正、負3sigma）?？梢酝ㄟ^(guò)查正??態(tài)分布得(de)知，概率是0.3%

（6）事已至此，我們可以得到的結論是：如果接受原假設，藥物沒(méi)作用，出現我們這種抽樣結果的概率是——┐(′?｀)┌0.003… 我們居然就抽到了？？所以，這個(gè)時(shí)候，雖然不是100%ヾ(?■_■)ノ確定，但我們傾向于拒絕原假設（藥物無(wú)影響），接受備擇假設（藥物有影響）。

那么，當我(′▽?zhuān)?)們做一個(gè)實(shí)驗時(shí)，判斷feature是否有用，我們的思路是這樣的：

當我有足夠大的樣本量，把用戶(hù)分成兩組。A組（對照組(′?_?`)）和B組（實(shí)驗組）。由于樣本量充足，理論上來(lái)說(shuō)，A組和B組的各項原始指標表現應當是差??不多的。AB實(shí)驗是在對照組的基(ji)礎上，做一個(gè)feature改動(dòng)。假設這個(gè)featur??e改動(dòng)是不影響指標的。是沒(méi)有作用的。觀(guān)察B組的指標，經(jīng)過(guò)統計學(xué)方法計??算，在H0成立的情況下，B組這種指標表現出(chu)現的概率。根據這個(gè)概率去判斷我們是該接受3的假設、還是拒絕3的假設。

在統計學(xué)上，我們稱(chēng)，依照原假設，得到實(shí)際這種或更加極端情況的概率值為ヽ(′▽?zhuān)?ノP-value，也就是p值。在這個(gè)背景問(wèn)題中，P值??為0.003。一般來(lái)說(shuō)，我們規定0.05是判斷顯著(zhù)與否的閾值（當然，這個(gè)閾值可以調整）??，也就是這一part的結論：我怎么衡量一個(gè)指標是否有顯著(zhù)變化？——利用p值進(jìn)行判斷。一般來(lái)說(shuō)p值<0.05，認為指標有顯著(zhù)(????)變化。

當你看到指標顯著(zhù)時(shí)：是真的顯著(zhù)嗎？

結論(?????)：不一定是真的顯著(zhù)。原因：犯了第一類(lèi)錯誤?。ǔＵf(shuō)的alpha錯誤）

看到這，有的小伙伴可能有(????)點(diǎn)迷茫。什么意思？？不是剛剛說(shuō)p值遠小于0.05，拒絕原假設了嗎？怎么又不一定真的顯著(zhù)呢？？

這里解釋一下。我們剛剛說(shuō)了，我們拒絕了H0，不是因為10(′；д；`)0%確定H0是錯的，而是因為H0為真的概率太低了，所以我們選擇拒絕了它。但是不代表它一定就是錯的，有可能藥是確實(shí)沒(méi)有作用，只是我們選的小鼠剛好反應巨快??！鼠中佼佼者?。?！。。

也就是說(shuō)，AB實(shí)驗告訴我，顯著(zhù)了！指標顯著(zhù)發(fā)生了變化?。?！喜大普奔?。?！這個(gè)時(shí)候，我們仍然是有可能犯(?_?;)錯的?？赡芪覀兊臉颖局笜司褪锹湓诹四莻€(gè)5%的區間里。

你可能會(huì )想，完犢子了。那我們這還咋評估啊。

但是！???。?！雖然我們不敢說(shuō)100%數據就一定會(huì )像表現的那樣漲，我(wo)們可以給出，“實(shí)際沒(méi)漲，AB實(shí)驗看起來(lái)漲了”的犯ˉ\_(ツ)_/ˉ錯概率。這個(gè)過(guò)(guo)程，就是將“不確定性”進(jìn)行“量化”的過(guò)程。一般如果給定P值0.05，AB實(shí)驗看起來(lái)顯著(zhù)的漲了，但實(shí)際沒(méi)漲，犯這種錯誤的概率是5%。

總而言之，我們不??可能“準確”的預估產(chǎn)品f(╯°□°）╯︵ ┻━┻eature上線(xiàn)后的表現，但是它能將“不可預知”的風(fēng)險，轉換為“可以量化”其“不確定性”的問(wèn)題。

當你看到指標不顯著(zhù)時(shí)，是真的(??ヮ?)?*:???不顯著(zhù)嗎？

結論：不一定真的不顯著(zhù)。原因：犯了第二類(lèi)錯誤?。ǔＵf(shuō)的beta錯誤）

嗯嗯嗯又來(lái)了，看到不顯著(zhù)，也不一定是真的不顯著(zhù)……

那這又是為什么呢？我們會(huì )可能犯第二類(lèi)錯誤：其實(shí)策略(′?｀*)有效，只是沒(méi)有被檢測出來(lái)。

這種錯誤的概率被記為β。而統計功效（power，也被稱(chēng)為檢驗效力），被定義為1-β，表示的是“假設我的新策略是有效的，我有多大概率在實(shí)驗中檢測出來(lái)”。

什么意思呢？讓我們畫(huà)圖來(lái)看，右邊這個(gè)紅色曲線(xiàn)(′_｀)是實(shí)驗組，左邊這個(gè)藍色曲線(xiàn)是對照組。大家可以知道的是，如果我實(shí)驗組取的樣本落在了圖中藍色涂滿(mǎn)??的這部分，其實(shí)是應該拒絕原假設的??！但是由于它不在藍色(′▽?zhuān)?)曲線(xiàn)的拒絕域里，所以我們接受了它。???這就是第二類(lèi)錯誤了。第二類(lèi)錯誤的概率取決于兩個(gè)曲線(xiàn)的分布情況。

一個(gè)合適的AB實(shí)驗指標判斷怎么給出？

這里有個(gè)簡(jiǎn)單的流程。

當我們判斷一個(gè)指標是否顯著(zhù)時(shí)，??先看P值。能得到顯著(zhù)與否的結論，但是要注意仍然有概率犯錯。

當我們判斷一個(gè)指標不顯著(zhù)、實(shí)驗沒(méi)效果時(shí)，要注意是否會(huì )存在流量不(bu)夠的問(wèn)題，造成了實(shí)際有效果??，但沒(méi)???被檢驗出來(lái)的可能性。（不(′?_?`)過(guò)一般來(lái)說(shuō)，開(kāi)始實(shí)驗前最好(???)就評估好樣本量的問(wèn)題）

AB實(shí)驗相關(guān)的面試常見(jiàn)問(wèn)題

1.怎么降低犯第一類(lèi)錯誤的概率？

把p值限定得越小(′ω｀)，犯第(di)一類(lèi)??錯誤的概率就越低。因為P值本來(lái)就是犯第一類(lèi)錯誤的概率……

2.怎么降低犯第二類(lèi)錯誤的概率？

降低犯(′?｀*)第二類(lèi)錯誤的概率，換言之就是提升統計功效。

這個(gè)部分和我們置信度（1-p值）、樣本量都有關(guān)系。

首先(°ロ°) !，如果我們降低置信度，可(′；ω；`)以提升統計功效。比如說(shuō)不需要p值<0.05就ヾ(?■_■)ノ認為顯著(zhù)了，我們認為p值<0.1就顯著(zhù)(′?_?`)。那么紅色的部分會(huì )往更中間集中，相對應??，藍色的部分會(huì )變小。

不過(guò)這種方式的缺點(diǎn)在于，我們犯第一類(lèi)錯誤的概??率就會(huì )變大。

其次，可以提升樣本量，使我們的正(′?ω?`)態(tài)分布鐘??型變更尖，讓犯第二類(lèi)錯誤的概率變小。

3.怎么(°□°)確定樣本量？

樣本量和我們的統計功效息息相關(guān)。(╬ ò﹏ó)怎么根據我們希望的統計功效，來(lái)反過(guò)來(lái)推算實(shí)驗所需的樣本量呢？

輸(°ロ°) !入：

1、指(zhi)標的base值和兩組(°o°)指標的差異（比如說(shuō)，現(xian)在對照組留存是60%，認為提升到61%才是有意義的，差異就是0.01）

2、指標方(′_｀)差。如一個(gè)實(shí)驗組的指標如閱??讀數的方差，可用歷史數據估算。

3、t檢驗的顯著(zhù)性水平，默認0.05(′?_?`)

4、統計(ji)功效，一般取80%，可以調整。

輸出：

單個(gè)實(shí)驗組的樣本量。

這個(gè)部分的公??式推導就不展開(kāi)了（公式推導是我的弱項…），python中提供了相應的計算包，可以去實(shí)驗一下，感興趣的也可以自己研究背后的計算函數、原理。

python statsヽ(′▽?zhuān)?ノmodels里計算(′?ω?`)樣本量的包

4.產(chǎn)品( ?▽?)要求開(kāi)AABB實(shí)驗，我聽(tīng)不聽(tīng)？

聽(tīng)你個(gè)大頭鬼哦。

首先，不科學(xué)。抽樣產(chǎn)生的誤差本身就已經(jīng)在我們的計算概率里了！為啥還要專(zhuān)門(mén)開(kāi)4組實(shí)驗對比？

其次??，不聰明。多樣本進(jìn)行對比(′ω｀)更可能犯錯。比如說(shuō)，一次抽樣有5%的可能犯錯，四次抽樣，?產(chǎn)生6組對比（A1A2,A1B??1,A1B2,A2B1,A2B2,B1B??2），一組對(???)比時(shí)不犯錯的概率9ヽ(′ー｀)ノ5%，?假設各組對比結果相互獨立，至少一組犯錯的概率[ 1 -（1-0.05)^6(′?｀) ] =0.265，遠大于0.05。多來(lái)幾次抽樣，犯錯的概率增加。更別提評估成本了——本來(lái)只用評估兩組，現在需要看6組。

最后，不好使。AABB實(shí)驗可能會(huì )影響實(shí)驗的靈敏度。流量不變則意味??著(zhù)各組樣本流量減少一半，靈敏度下降；加大流量則更多用戶(hù)進(jìn)組，有可能引入風(fēng)險。因??此不(bu)管怎么說(shuō)都是加大成本的。

5. 實(shí)驗做??(zuo)了有效果，上線(xiàn)沒(méi)有效果是怎么回事？

有可能犯第一類(lèi)錯誤。你看到的顯著(zhù)可能不是真的，只是抽樣的隨機誤差帶來(lái)的~~~

友情鏈接 :
常德尚日網(wǎng)絡(luò )科技有限公司
長(cháng)葛如偉網(wǎng)絡(luò )科技有限公司
蕪湖佩維網(wǎng)絡(luò )科技有限公司
萊蕪曲阜網(wǎng)絡(luò )科技有限公司
張家界士正網(wǎng)絡(luò )科技有限公司
登封京好網(wǎng)絡(luò )科技有限公司
武進(jìn)吉語(yǔ)網(wǎng)絡(luò )科技有限公司
禹州通嘉網(wǎng)絡(luò )科技有限公司
合作智勝網(wǎng)絡(luò )科技有限公司
江陰惠航網(wǎng)絡(luò )科技有限公司
貴陽(yáng)穆聚網(wǎng)絡(luò )科技有限公司
臨江森匯網(wǎng)絡(luò )科技有限公司
蕭山邁理網(wǎng)絡(luò )科技有限公司
萍鄉大貿網(wǎng)絡(luò )科技有限公司
常德來(lái)諾網(wǎng)絡(luò )科技有限公司
荊門(mén)高海網(wǎng)絡(luò )科技有限公司
湘鄉基電網(wǎng)絡(luò )科技有限公司
湛江系清網(wǎng)絡(luò )科技有限公司
江都碼揚網(wǎng)絡(luò )科技有限公司
內蒙赤峰干發(fā)網(wǎng)絡(luò )科技有限公司
梧州慕媛網(wǎng)絡(luò )科技有限公司
鐵力志力網(wǎng)絡(luò )科技有限公司
貴溪恒白網(wǎng)絡(luò )科技有限公司
清遠藍萊網(wǎng)絡(luò )科技有限公司
萊陽(yáng)絲領(lǐng)網(wǎng)絡(luò )科技有限公司
英德新采網(wǎng)絡(luò )科技有限公司
湛江營(yíng)邦網(wǎng)絡(luò )科技有限公司
麗水集星網(wǎng)絡(luò )科技有限公司
重慶發(fā)嘯網(wǎng)絡(luò )科技有限公司
吳江發(fā)玉網(wǎng)絡(luò )科技有限公司
九臺陸龍網(wǎng)絡(luò )科技有限公司
地級及以上城:躍太網(wǎng)絡(luò )科技有限公司
新民豐紐網(wǎng)絡(luò )科技有限公司
老河口貿安網(wǎng)絡(luò )科技有限公司
大豐同建網(wǎng)絡(luò )科技有限公司
河源圓速網(wǎng)絡(luò )科技有限公司
桐城馳集網(wǎng)絡(luò )科技有限公司
龍巖國成網(wǎng)絡(luò )科技有限公司
阿城健浩網(wǎng)絡(luò )科技有限公司
三河絲典網(wǎng)絡(luò )科技有限公司

客服電話(huà)14914991954

Copyright ? 2012-2018 天津九安特機電工程有限公司版權所有備案號：

客服電話(huà)18076342571

亚洲女同成aV人片在线观看|亚洲www啪成人一区二区麻豆|亚洲国产中日韩精品综合|亚洲国产成人精品一级片|亚洲无码在线视频免费陇南市| 大渡口区| 旬阳县| 垫江县| 凤阳县| 忻城县| 蓝山县| 安吉县| 巴青县| 临邑县| 永靖县| 台州市| 布拖县| 神池县| 桐柏县| 蒲城县| 贵定县| 邯郸市| 安达市| 始兴县| 阿瓦提县| 永年县| 清徐县| 神池县| 西乌珠穆沁旗| 仁寿县| 凤庆县| 罗江县| 马山县| 余庆县| 马山县| 丰城市| 扶余县| 库伦旗| 洪洞县| 永登县| 麟游县| 新邵县| 鄂伦春自治旗| 密云县| 荣昌县| http://444 http://444 http://444 http://444 http://444 http://444