シーケンシャルテストと固定ホライズンT検定:それぞれをいつ使用するか?
公開: 2022-06-10実験は、製品チームが相関関係ではなく因果関係に基づいてより良い決定を下すのに役立ちます。 「<製品のこの部分>を変更すると、コンバージョンが5%増加した」などのステートメントを作成できます。 実験なしで、より一般的なアプローチは、ドメイン知識に基づいて変更を加えるか、顧客の要求を選択することです。 現在、データ主導の企業は、実験を使用して意思決定をより客観的にしています。 因果関係の大きな要素は、実験データの統計分析です。
Amplitudeでは、実験開始以来行ってきた逐次テストに加えて、最近、固定ホライズンT検定をリリースしました。 「どのテストを選択するかをどのように知ることができますか?」と尋ねる複数の顧客を想定しています。
このテクニカルポストでは、シーケンシャルテストと固定ホライズンT検定の長所と短所について説明します。
注:この投稿全体を通して、T検定とは、固定ホライズンのT検定を指します。
それぞれのアプローチには長所と短所があり、一方の方法が常にもう一方の方法よりも優れているとは限りません。
逐次テストの利点
最初に、逐次テストの利点を探ります。
数回のぞき見→実験を早めに終了
逐次テストの利点は、何度も覗くことができることです。 混合逐次確率比検定(mSPRT)と呼ばれる、Amplitudeで使用する逐次検定の特定のバージョンを使用すると、必要な回数だけ覗くことができます。 また、グループ化された順次テストの場合のように、テストを開始する前に何回ピークするかを決定する必要はありません。 この結果、すべての製品マネージャー(PM)がやりたいことができるようになります。つまり、「統計的に有意になるまでテストを実行してから停止する」ということです。 これは、目標日ファンドを使用した「設定して忘れる」アプローチに似ています。 固定ホライズンフレームワークでは、偽陽性率が高くなるため、これを行うべきではありません。 頻繁に覗くことにより、効果量が最小検出可能効果(MDE)よりもはるかに大きい場合、実験期間を短縮できます。
当然のことながら、私たちは人間として、データを常に覗き見し、顧客ベースをできるだけ早く支援する機能を展開したいと考えています。 多くの場合、PMは、実験が開始されてから数日後に、実験がどのように行われているかをデータサイエンティストに尋ねます。 固定ホライズンテストでは、データサイエンティストは実験について統計的に何も言うことができず(信頼区間またはp値)、これは曝露されたユーザーの数であり、これは治療平均と対照平均であるとしか言えません。 シーケンシャルテストを使用すると、データサイエンティストは、実験中いつでも有効な信頼区間とp値をPMに与えることができます。
一部の実験ダッシュボードでは、統計量(信頼区間とp値)は、固定期間のテストでもユーザーから隠されていません。 多くの場合、データサイエンティストは、ダッシュボードが「すべて緑色」であるために、勝者のバリアントを展開できない理由を尋ねられます。 次に、データサイエンティストは、実験が必要なサンプルサイズに達していないこと、および実験が展開された場合、実際にユーザーに悪影響を与える可能性があることを説明する必要があります。 次に、PMは、必要なサンプルサイズに達する前に、同僚が実験を展開した理由を質問します。 これは多くの矛盾を生み出し、人々は実験が展開されていないことについて混乱しています。 シーケンシャルテストでは、これはデータサイエンティストが答えなければならない質問ではなくなりました。 固定期間の場合、Amplitudeは、この問題の解決に役立つ累積曝露、治療平均、および対照平均のみを表示します。 目的のサンプルサイズに達すると、Amplitudeに統計結果が表示されます。 これは、覗き見を防ぐことによって偽陽性率を制御するのに役立ちます。
サンプルサイズ計算機を使用する必要はありません
逐次テストのもう1つの利点は、固定期間テストに使用する必要があるサンプルサイズ計算機を使用する必要がないことです。 多くの場合、技術者以外の人はサンプルサイズ計算機を使用するのが難しく、すべての入力が何を意味するのか、入力する必要のある数値を計算する方法を知りません。たとえば、メトリックの標準偏差を知ることは、ほとんどの人が知っていることではありません。彼らの頭のてっぺんから。 さらに、サンプルサイズ計算機に正しい数値を入力しなかった場合、問題が発生します。 たとえば、5%のベースラインコンバージョン率を入力しましたが、実際のベースラインコンバージョン率は10%でした。 テストの途中で必要なサンプルサイズを再計算することはできますか? 実験を再開する必要がありますか? Amplitudeがこの問題を軽減する1つの方法は、サンプルサイズ計算機に標準の業界デフォルト(95%の信頼水準と80%の検出力)を事前に入力し、過去7日間の制御平均と標準偏差(必要な場合)を計算することです。 サンプルサイズ計算機には、「検出力」(1-偽陰性率)と呼ばれるフィールドがあります。 シーケンシャルテストでは、このフィールドは基本的に「テストを実行する日数」に置き換えられます。 これははるかに解釈しやすい数であり、人々が思いつくのは簡単な数です。
パワー1テスト
もう1つの利点は、逐次検定がパワー1の検定であるということです。技術的でない用語では、これは、治療平均と対照平均の間に偶然に生じたのではない真の差がある場合、検定は最終的にそれを見つけることを意味します(つまり、統計的に有意になります)。 テストが決定的ではなかったことを上司に伝える代わりに、統計的に有意な結果が得られるかどうかを確認するために、もっと長く待つことができると言うことができます。
最初の利点を見て、真の効果量と最小検出可能効果(MDE)の関係を使って、実験で何が起こり得るかを説明します。 3つのケースは、MDEを過小評価する場合、MDEを正確に推定する場合、またはMDEを過大評価する場合です。
| 修正されたHorizonテスト | 逐次テスト | どちらが良いですか? | |
| MDEを過小評価します(たとえば、MDEとして1を選択しますが、2は効果量です) | 必要以上に長くテストを実行します。 あなたが望んでいたよりも大きな力を持っています。 | テストを早期に停止します。 | 逐次テスト。 |
| MDEを正確に推定します(たとえば、実験前のMDEとして1を選択し、1は効果量です) | 信頼区間を小さくします。 実験前に必要な正確なパワーを取得します。 | より大きな信頼区間。 統計的有意性を得るには、より長く待つ必要があります(つまり、テストをより長く実行します)。 | 修正されましたが、固定ホライズンテストで誤検知が発生する可能性があることに注意してください。 |
| MDEを過大評価します(たとえば、MDEとして1を選択しますが、.5は効果量です) | パワー不足のテスト。 おそらく、不確定なテストを受け、テストを停止する必要があります。 | 不確定なテストを受ける可能性があります。 ただし、統計的に有意な結果を得るために、テストをより長く実行し続けることができます。 問題は、リフトが非常に小さいために統計的に有意な結果が得られるかどうかを気にするかどうかです。 それを展開するためのエンジニアリング努力の価値はありますか? | 逐次テストですが、ほんのわずかです。 |
一般的に、効果量はわかりません(知っていれば、実験しても意味がありません)。 したがって、3つのケースのどれに入るのかわかりません。3つのケースのそれぞれにどのくらいの可能性があるかを推定してみてください。
基本ルール:ここでは、上記の表を要約するためのルールを調べます。 固定ホライズンテストの経験がある場合は、検出可能な最小の効果の概念に慣れています。 この概念を拡張して、検出可能な最大効果を定義します。これは、実験から発生する可能性があると理論的に考えられる最大効果サイズです。 検出可能な最大の効果を選択するには、以前の実験の効果サイズの最大値を使用できます。または、ドメインの知識がある場合は、それを使用して妥当な値を選択できます。 たとえば、ボタンの色を変更する場合、クリック率が20%を超えて増加することはないことがわかります。 基本的に、最小の検出可能な効果は最悪のシナリオを提供し、最大の検出可能な効果は最良のシナリオを提供します。 次に、固定ホライズンサンプルサイズ計算機を使用して、最小検出可能効果と最大検出可能効果の両方を接続します。 両方の状況で必要なサンプル数の違いを確認してください。 これらの2つの値の間に余分な時間を待っても大丈夫ですか? たぶん、あと3日待つだけでよいでしょう。その後、固定ホライズンテストを使用する方がおそらく良いでしょう。シーケンシャルテストでは、せいぜい3日しか節約できないからです。 10日節約できる可能性がある場合は、順次テストを使用することをお勧めします。

要約すると、順次テストの利点は次のとおりです。
- サンプルサイズ計算機を使用する必要がなく、ピークについて知る必要がないため、参入障壁が低くなります。
- 覗き見は許可されています。
- 場合によっては、実験が早く終了します。
固定ホライズンT検定の利点
次に、ギアを切り替えて、T検定が有利な場合を調べます。 t検定では、次の質問をする必要があります。逐次検定で早期に停止するように指示された場合、実際には早期に停止しますか?
大企業
一般的に、あなたが大企業である場合、あなたは多くの実験を行い、おそらく良いまたは合理的な最小の検出可能な効果が何であるかを知っています。 また、おそらく1%または2%の改善を行っているため、実際の効果量が検出可能な最小効果から大きくかけ離れている可能性はほとんどありません。 言い換えれば、最大の検出可能な効果と最小の検出可能な効果との間の差は小さい。 したがって、固定ホライズンテストを使用することをお勧めします。
すでにデータサイエンス組織があります
固定ホライズンのT検定は、標準の教科書Stats101の方法論です。 ほとんどのデータサイエンティストはこの方法論に精通している必要があるため、この方法を使用する際の摩擦は少なくなります。
小さいサンプルサイズ
サンプルサイズが非常に小さい場合、どちらの方法が優れているかが常に明確であるとは限りません。 大きな変更をテストする場合(会社/顧客ベースが小さい場合に実行する必要があります)、最大検出可能効果と最小検出可能効果の差が大きいため、シーケンシャルが有利です。 一方、サンプルサイズが小さいため、非常に正確で信頼区間を小さくする必要があるため、この場合は固定ホライズンテストが適しています。 データが非常に少ない場合は、妥当な時間内に統計的有意性に到達するかどうかを疑問視する必要があります。 答えが「いいえ」の場合、この場合、A/Bテストは適切な方法ではない可能性があります。 ユーザー調査を行ったり、顧客が要求している変更を加えたりして、前向きな伸びが見込めると想定する方が、時間を有効に活用できる可能性があります。
季節性
季節性とは、一定の間隔での変動を意味します。 季節性は、1か月のように非常に長い間隔である必要はありません。 曜日レベルでもかまいません。 商品によっては、週末にご利用いただく方と平日にご利用いただく方が異なる場合があります。 たとえば、マップエンジンの場合、平日は住所を検索するのに対し、週末はレストランを検索する可能性があります。 平日に治療を受けるユーザーはプラスの上昇を示し、週末に治療を受けるユーザーはマイナスの上昇を示す可能性があります。その逆も可能です。
ここで質問する必要があるのは、T検定が1週間実行され、連続検定が4日後に統計的有意性に達した場合、本当に4日で停止するかどうかです。 ここで、曜日の影響があると思われる場合は、T検定を実行することをお勧めします。 4日後に停止した場合は、その4日間で取得した日付が、1週間または2週間の実験を実行した場合に表示されるデータを表していると想定しています。
一般に、整数のビジネスサイクルで実験を実行する必要があります。 そうしないと、特定の日にオーバーウェイトになる可能性があります。 たとえば、月曜日に実験を開始して10日間実行すると、月曜日のデータの重みは2/10になりますが、日曜日のデータの重みは1/10になります。 実験を長時間実行すると、曜日の影響が減少します。 これが、会社で2週間の実験を行うという一般的な経験則が見られる理由の1つです。

長期的な測定基準の研究
30日間の保持や60日間の収益などの長期的な指標に関心がある場合があります。 これらのメトリックは、月額サブスクリプションを調査し、無料トライアルまたは割引を提供しているときに発生することがあります。 考えるべきことの1つは、早く停止することでどれだけの利益が得られるかということです。 たとえば、30日間の保持を検討している場合、1日間のデータを取得するには30日間待つ必要があります。 このため、これらの種類の実験は通常、数か月間実行されます。 実験を数日早く終了できれば、それは大きな勝利ではありません。 また、長期的な指標を選択する場合、30日間の保持を増やしても、60日間の保持を減らすと、それは成功しない可能性があるため、30日間の保持と60日間の保持の両方に関心がある場合があります。 実験をより速く繰り返すことができるように、60日ではなく30日の保持を選択することができます。 使用できる方法の1つは、30日間の保持の統計的有意性をテストしてから、60日間の保持の方向性をチェックすることです。
長期的な指標では、指標を観察するのを待つ必要があるため、早期に停止することはできません。 一般に、ユーザーを治療した直後に応答が返されると、順次テストの方がうまく機能します。
長期的な指標を使用してテストを実行するには、次の2つの方法があります。
- 必要なサンプルサイズに到達してから、実験をオフにします。 すべてのユーザーが30日間実験に参加するまで待ちます。
- 30日間実験を行ったユーザーに必要なサンプルサイズが得られるまで、実験を実行します。
順次テストの要点は、必要なサンプルサイズがわからないことであるため、通常、順次テストを実行している場合は、オプション#1を実行する必要はありません。 保守的になりたい場合はオプション1を実行し、治療が効果的でないと思われる場合は実験にあまり多くのユーザーをさらさないようにすることを検討してください。
もう1つ考えるべきことは、ユーザーを何回扱っているかということです。 ユーザーを数回しか治療していない場合は、治療とコントロールのわずか2、3の違いから、本当に大きな上昇が見られるかどうかを考える必要があります。 これにより、エフェクトサイズが小さくなります。
ノベルティ効果
目新しさの効果は、ユーザーに新しい機能を提供し、ユーザーがそれを頻繁に操作するが、その後は操作を停止する可能性がある場合です。 たとえば、大きなボタンがあり、最初に表示したときに多くの人がクリックしますが、後でクリックするのはやめます。 メトリックは必ずしも増加してから減少する必要はありません。逆方向に進むこともできます。 たとえば、ユーザーは変更を嫌い、最初は機能を操作しませんが、しばらくすると機能を操作し始め、その有用性を確認します。 新規性の影響に対する解決策は、実験をより長く実行し、ユーザーが実験にさらされた最初の数日からデータを削除することです。 これは、長期的な指標を使用するのと似ています。
実験結果
今年、Experimentの新機能であるExperiment Resultsをリリースしました。これにより、A / BデータをAmplitudeに直接アップロードして、実験の分析を開始できます。 実験の実行中にデータをアップロードし、順次テストでデータを分析できます。 または、別の使用例は、実験が終了するのを待ってから、データをAmplitudeにアップロードして分析することです。 これを行う場合、実験はすでに終了しており、早期打ち切りができないため、順次テストを使用することは意味がありません。したがって、T検定を使用する必要があります。
すべての実験にこれらの非標準的な問題があるわけではありません。 考えるべき質問は、すでに長期にわたる実験に取り組んでいる場合、実験を早期に終了することで本当に多くの時間を節約できるか、早期に停止したためにどのような分析を実行できないか、停止した場合です。早い段階で、どのような仮定を立てていますか。また、それらの仮定を立てても大丈夫ですか。 すべての実験が同じであるとは限りません。社内のビジネス専門家は、どのテストが適切であり、結果をどのように解釈するのが最適かを判断するのに役立ちます。
どこから始めればいいのかわからない? デモをリクエストすると、ビジネスに最適なオプションをご案内します。
