順序測試與固定水平 T 測試:何時使用它們?
已發表: 2022-06-10實驗有助於產品團隊根據因果關係而不是相關性做出更好的決策。 你可以做出諸如“改變<這部分產品>導致轉化率增加5%”之類的陳述。 在沒有實驗的情況下,更常見的方法是根據領域知識或選擇客戶請求進行更改。 現在,數據驅動的公司使用實驗來使決策更加客觀。 因果關係的一個重要組成部分是對實驗數據的統計分析。
在 Amplitude,除了順序測試外,我們最近還發布了一個固定水平 T 檢驗,自實驗開始以來我們就有了。 我們設想有幾個客戶會問“我怎麼知道要選擇什麼測試?”
在這篇技術文章中,我們將解釋順序測試和固定水平 T 檢驗的優缺點。
注意:在這篇文章中,當我們說 T 檢驗時,我們指的是固定水平 T 檢驗。
每種方法都有優點和缺點,並不是一種方法總是比另一種更好。
順序測試的優勢
首先,我們將探討順序測試的優勢。
偷看幾次→提前結束實驗
順序測試的優點是可以多次查看。 我們在 Amplitude 使用的特定版本的順序測試,稱為混合順序概率比測試 (mSPRT),允許您查看任意次數。 此外,您不必像分組順序測試那樣在測試開始之前決定要查看多少次。 這樣做的結果是,我們可以做所有產品經理 (PM) 都想做的事情,即“運行測試,直到它在統計上顯著,然後停止。” 它類似於目標日期基金的“一勞永逸”的方法。 在固定範圍框架中,不應該這樣做,因為您會增加誤報率。 通過經常偷看,如果效應大小遠大於最小可檢測效應 (MDE),我們可以縮短實驗持續時間。
自然,作為人類,我們希望繼續查看數據並儘快推出幫助我們客戶群的功能。 通常,PM 會在實驗開始幾天后詢問數據科學家的實驗情況。 使用固定水平測試,數據科學家不能在統計上說出任何關於實驗的內容(置信區間或 p 值),只能說這是暴露用戶的數量,這是處理均值和控制均值。 通過順序測試,數據科學家始終可以在實驗期間的任何時間向 PM 提供有效的置信區間和 p 值。
在一些實驗儀表板中,即使對於固定水平測試,統計量(置信區間和 p 值)也不會對用戶隱藏。 通常,數據科學家會被問到為什麼我們不能推出獲勝的變體,因為儀表板是“全綠色的”。 然後,數據科學家必須解釋該實驗沒有達到所需的樣本量,並且如果該實驗被推出,它實際上可能會對用戶產生負面影響。 然後,PM 質疑為什麼他們的同事在達到所需樣本量之前就推出了實驗。 這造成了很多不一致,人們對他們的實驗沒有推出感到困惑。 通過順序測試,這不再是數據科學家必須回答的問題。 在固定水平的情況下,幅度僅顯示累積暴露、處理均值和控制均值以幫助解決此問題。 一旦達到所需的樣本量,Amplitude 將顯示統計結果。 這有助於通過防止偷看來控制誤報率。
不需要使用樣本量計算器
順序測試的另一個優點是您不必使用樣本量計算器,您應該將其用於固定水平測試。 通常,非技術人員很難使用樣本量計算器,並且不知道所有輸入的含義或如何計算他們需要輸入的數字。例如,大多數人不知道指標的標準偏差離開他們的頭頂。 此外,如果您沒有在樣本量計算器中輸入正確的數字,您會遇到問題。 例如,您輸入了 5% 的基準轉化率,但真正的基準轉化率是 10%。 您是否可以在測試過程中重新計算您需要的樣本量? 您需要重新開始實驗嗎? Amplitude 緩解此問題的一種方法是使用標準行業默認值(95% 置信度和 80% 功效)預先填充樣本量計算器,併計算過去 7 天的控制均值和標準偏差(如有必要)。 在樣本量計算器中,有一個名為“power”(1-假陰性率)的字段。 對於順序測試,該字段基本上被“您願意運行測試的天數”所取代。 這是一個更容易解釋的數字,也是人們容易想出的數字。
功率 1 測試
另一個優點是順序測試是冪為 1 的測試。在非技術術語中,這意味著如果處理均值和控制均值之間存在非偶然產生的真正差異,那麼測試最終會找到它(即,變得具有統計學意義)。 與其告訴你的老闆測試沒有結果,你可以說我們可以等待更長的時間,看看我們是否得到了統計上顯著的結果。
著眼於第一個優勢,我們通過真實效應大小和最小可檢測效應 (MDE) 之間的關係,打破了實驗中可能發生的情況。 這三種情況是您低估 MDE、準確估計 MDE 或高估 MDE。
| 固定地平線測試 | 順序測試 | 哪個更好? | |
| 低估 MDE(例如,選擇 1 作為 MDE,但 2 是效果大小) | 運行測試超過必要的時間。 擁有比你想要的更大的權力。 | 儘早停止測試。 | 順序測試。 |
| 準確估計 MDE(例如,選擇 1 作為實驗前的 MDE,1 是效果大小) | 獲得更小的置信區間。 獲得您想要的預實驗的確切功率。 | 更大的置信區間。 必須等待更長時間才能獲得統計意義(即,運行測試更長時間)。 | 已修復,但請記住,使用固定水平測試仍有可能出現假陰性。 |
| 高估 MDE(例如,選擇 1 作為 MDE,但 0.5 是效果大小) | 功率不足的測試。 可能會得到一個不確定的測試並不得不停止測試。 | 可能會得到一個不確定的測試。 但是您可以讓測試運行更長時間以獲得具有統計意義的結果。 那麼問題是你是否關心你是否因為提升如此之小而獲得統計上顯著的結果? 值得付出工程努力來推出它嗎? | 順序測試,但只是輕微的。 |
一般來說,你不知道效果大小(如果你知道了,那麼實驗就沒有意義了)。 因此,您不知道您將處於 3 個案例中的哪一個。您想嘗試估計您將在 3 個案例中的每個案例中的機會是多少。
基本規則:這裡我們將研究一個規則來總結上表。 如果您有固定水平測試的經驗,那麼您對最小可檢測效應的概念感到滿意。 我們將此概念擴展為定義最大可檢測效果,這是您理論上認為實驗可能發生的最大效果大小。 要選擇最大可檢測效果,您可以使用以前實驗的效果大小的最大值,或者如果您有領域知識,您可以使用它來選擇一個合理的值。 例如,如果您正在更改按鈕顏色,您知道點擊率不會增加超過 20%。 本質上,最小可檢測效果為您提供最壞情況,最大可檢測效果為您提供最佳情況。 然後,使用固定水平樣本量計算器並插入最小可檢測效果和最大可檢測效果。 取兩種情況所需樣本數量的差異。 您可以在這兩個值之間等待額外的時間嗎? 也許您只需要再等 3 天,那麼使用固定範圍測試可能會更好,因為使用順序測試最多只能節省 3 天。 也許您有機會節省 10 天,那麼您可能想要使用順序測試。
總而言之,順序測試的優點是:
- 不必使用樣本量計算器也不必了解偷窺,進入門檻較低。
- 允許偷看。
- 在某些情況下,實驗完成得更快。
固定水平 T 檢驗的優勢
現在,我們將換個角度,研究一些 T 檢驗有優勢的情況。 使用 t-test 你需要問一個問題:如果順序測試告訴我提前停止,我真的會提前停止嗎?

大公司
一般來說,如果你是一家大公司,你已經做了很多實驗,並且可能知道什麼是好的或合理的最小可檢測效果。 此外,您可能會進行 1% 或 2% 的改進,因此實際效果大小不太可能與最小可檢測效果相差甚遠。 換言之,最大可檢測效果和最小可檢測效果之間的差異很小。 因此,您更願意使用固定水平測試。
已經有一個數據科學組織
固定水平 T 檢驗是標準教科書 Stats 101 方法。 大多數數據科學家應該熟悉這種方法,因此使用這種方法的摩擦會更小。
小樣本量
如果您的樣本量非常小,那麼並不總是很清楚哪種方法更好。 如果您正在測試重大更改(如果您的公司/客戶群很小,您應該這樣做),那麼順序將是有利的,因為最大可檢測效果和最小可檢測效果之間的差異很大。 另一方面,由於樣本量小,您想要非常精確並想要更小的置信區間,因此在這種情況下,固定水平測試會很好。 如果您的數據非常少,那麼您想質疑您是否會在合理的時間內達到統計顯著性。 如果答案是否定的,那麼 A/B 測試在這種情況下可能不是正確的方法。 更好地利用您的時間來進行用戶研究或進行客戶要求的更改並假設他們會有積極的提升。
季節性
季節性是指定期變化。 季節性不必像一個月那樣持續很長的時間間隔。 它甚至可以在星期幾級別。 根據產品的不同,週末使用產品的用戶可能與平日使用產品的用戶不同。 一個例子是地圖引擎,在工作日,人們可能會更多地搜索地址,而在周末,人們可能會更多地搜索餐館。 可能在工作日接受治療的用戶有正提升,而在周末接受治療的用戶有負提升,反之亦然。
這裡你需要問的問題是,如果 T 檢驗說運行 1 週,而順序檢驗在 4 天后達到統計顯著性,你真的會在 4 天停止嗎? 如果您認為存在星期幾的影響,最好在此處運行 T 檢驗。 如果您在 4 天后停止,則假設您在這 4 天中獲得的日期代表了您在進行一周或兩週的實驗時所看到的數據。
通常,您希望針對整數個業務週期運行實驗。 如果你不這樣做,那麼你可能在某些日子超重。 例如,如果您在星期一開始一個實驗並運行 10 天,那麼您給星期一的數據賦予 2/10 的權重,而賦予星期日數據的權重 1/10。 隨著實驗運行時間的延長,星期幾的效果會降低。 這就是您可能會在您的公司看到運行 2 週實驗的一般經驗法則的原因之一。

研究長期指標
有時您可能對 30 天留存率或 60 天收入等長期指標感興趣。 當您研究每月訂閱並提供免費試用或折扣時,有時會出現這些指標。 需要考慮的一件事是提前停止可以獲得多少收益? 例如,如果您正在研究 30 天的保留,那麼您需要等待 30 天才能獲得 1 天的數據。 正因為如此,這類實驗通常會持續幾個月。 如果你能提前幾天結束實驗,那並不是什麼大勝利。 此外,當您選擇長期指標時,您可能對 30 天留存率和 60 天留存率都感興趣,因為如果您增加 30 天留存率但減少 60 天留存率,那麼這可能並不成功。 您可以選擇 30 天保留而不是 60 天,以便您可以更快地迭代您的實驗。 您可以使用的一種方法是測試 30 天保留的統計顯著性,然後檢查 60 天保留的方向性。
對於長期指標,您不能提前停止,因為您需要等待觀察指標。 當您在治療用戶後立即得到響應時,順序測試通常會更好。
有兩種方法可以使用長期指標運行實驗:
- 達到您需要的樣本量,然後關閉實驗。 等到所有用戶都參與了實驗 30 天。
- 讓實驗運行,直到您獲得已參與實驗 30 天的用戶所需的樣本量。
通常,如果您正在運行順序測試,您不想執行選項 #1,因為順序測試的全部意義在於您不知道您需要什麼樣本量。 如果您想保守一點,並且如果您認為治療可能不是積極的,則不要讓太多用戶參與您的實驗,您可以考慮執行選項 #1。
另一件要考慮的事情是您對待用戶的次數。 如果您只對用戶進行幾次治療,您需要考慮是否真的會從治療和控制之間的幾個差異中看到非常大的提升。 這導致更小的效果大小。
新奇效果
新奇效應是當您為用戶提供新功能並且他們與它進行了很多交互但隨後可能停止與之交互時。 例如,您有一個大按鈕,人們第一次看到它時會點擊很多,但後來就不再點擊了。 指標並不總是必須先增加然後減少——它也可以朝另一個方向發展。 例如,用戶厭惡變化並且最初不與該功能交互,但一段時間後會開始與它交互並看到它的有用性。 新奇效應的解決方案是運行更長時間的實驗,並可能從用戶接觸實驗的前幾天刪除數據。 這類似於使用長期指標。
實驗結果
今年我們發布了 Experiment Results,這是 Experiment 中的一項新功能,可讓您將 A/B 數據直接上傳到 Amplitude 並開始分析您的實驗。 您可以在實驗運行時上傳數據,並通過順序測試分析數據。 或者另一個用例是等待實驗完成,然後將數據上傳到 Amplitude 進行分析。 如果這樣做,使用順序測試沒有意義,因為實驗已經結束並且您無法提前停止,因此您應該使用 T 檢驗。
不是每個實驗都會有這些非標準問題。 要考慮的問題是,如果您已經承諾進行一項長期運行的實驗,您是否真的會通過提前結束實驗來節省那麼多時間,哪些類型的分析由於您提前停止而不能進行,如果您確實停止了早期,您正在做出什麼樣的假設,您是否可以做出這些假設。 並非每個實驗都是相同的,您公司內的業務專家可以幫助確定哪種測試是合適的以及如何最好地解釋結果。
不知道從哪裡開始? 請求演示,我們將引導您完成最適合您業務的選項!
