Test sequenziale vs. Fixed Horizon T-Test: quando usarli?

Pubblicato: 2022-06-10

La sperimentazione aiuta i team di prodotto a prendere decisioni migliori in base alla causalità anziché alle correlazioni . Puoi fare affermazioni come "la modifica di < questa parte del prodotto> ha causato un aumento della conversione del 5%". Senza sperimentazione, un approccio più comune consiste nell'apportare modifiche in base alla conoscenza del dominio o selezionare le richieste dei clienti. Ora, le aziende basate sui dati utilizzano la sperimentazione per rendere il processo decisionale più obiettivo. Una grande componente della causalità è un'analisi statistica dei dati della sperimentazione.

In Amplitude, abbiamo recentemente rilasciato un test T a orizzonte fisso oltre al test sequenziale, che abbiamo avuto dall'inizio dell'esperimento. Immaginiamo diversi clienti che chiedono "Come faccio a sapere quale test scegliere?"

In questo post tecnico, spiegheremo i pro ei contro del test sequenziale e del test T a orizzonte fisso.

Nota: in tutto questo post, quando diciamo T-test, ci riferiamo al T-test a orizzonte fisso.

Ci sono pro e contro per ogni approccio e non è un caso in cui un metodo è sempre migliore dell'altro.

Vantaggi del test sequenziale

In primo luogo, esploreremo i vantaggi del test sequenziale.

Sbirciando più volte → termina l'esperimento prima

Il vantaggio del test sequenziale è che puoi sbirciare più volte. La versione specifica del test sequenziale che utilizziamo in Amplitude, chiamata test del rapporto di probabilità sequenziale misto (mSPRT), ti consente di sbirciare tutte le volte che vuoi. Inoltre, non è necessario decidere prima dell'inizio del test quante volte sbirciare come si deve fare con un test sequenziale raggruppato. La conseguenza di ciò è che possiamo fare ciò che tutti i product manager (PM) vogliono fare, ovvero "eseguire un test finché non è statisticamente significativo e poi fermarsi". È simile all'approccio "impostalo e dimenticalo" con i fondi a scadenza. Nel quadro dell'orizzonte fisso, questo non dovrebbe essere fatto poiché aumenterai il tasso di falsi positivi. Sbirciando spesso, possiamo ridurre la durata dell'esperimento se la dimensione dell'effetto è molto maggiore dell'effetto minimo rilevabile (MDE).

Naturalmente, come esseri umani, vogliamo continuare a sbirciare i dati e implementare funzionalità che aiutino la nostra base di clienti il ​​più rapidamente possibile. Spesso, un PM chiede a un data scientist come sta andando un esperimento un paio di giorni dopo l'inizio dell'esperimento. Con il test a orizzonte fisso, il data scientist non può dire nulla statisticamente (intervalli di confidenza o valori p) sull'esperimento e può solo dire che questo è il numero di utenti esposti e questa è la media di trattamento e di controllo. Con i test sequenziali, il data scientist può sempre fornire intervalli di confidenza e valori p validi al PM in qualsiasi momento durante l'esperimento.

In alcuni cruscotti di sperimentazione, le grandezze statistiche (intervalli di confidenza e valori p) non sono nascoste agli utenti anche per i test a orizzonte fisso. Spesso ai data scientist viene chiesto perché non possiamo lanciare la variante vincente poiché la dashboard è "tutto verde". Quindi, il data scientist deve spiegare che l'esperimento non ha raggiunto la dimensione del campione richiesta e che se l'esperimento venisse implementato, potrebbe effettivamente avere un effetto negativo sugli utenti. Quindi, il PM si chiede perché il loro collega abbia lanciato un esperimento prima che raggiungesse la dimensione del campione richiesta. Questo crea molta incoerenza e le persone sono confuse sul fatto che i loro esperimenti non vengano lanciati. Con i test sequenziali, questa non è più una domanda a cui il data scientist deve rispondere. Nel caso dell'orizzonte fisso, Ampiezza mostra solo le esposizioni cumulative, la media del trattamento e la media di controllo per aiutare a risolvere questo problema. Una volta raggiunta la dimensione del campione desiderata, Ampiezza mostrerà i risultati statistici. Questo aiuta a controllare il tasso di falsi positivi prevenendo la sbirciatina.

Non è necessario utilizzare un calcolatore della dimensione del campione

Un altro vantaggio dei test sequenziali è che non è necessario utilizzare un calcolatore della dimensione del campione, da utilizzare per i test con orizzonte fisso. Spesso, le persone non tecniche hanno difficoltà a utilizzare un calcolatore della dimensione del campione e non sanno cosa significano tutti gli input o come calcolare i numeri che devono inserire. Ad esempio, conoscere la deviazione standard di una metrica non è qualcosa che la maggior parte delle persone conosce dalla sommità delle loro teste. Inoltre, si verificano problemi se non si immettono i numeri corretti nel calcolatore della dimensione del campione. Ad esempio, hai inserito un tasso di conversione di base del 5%, ma il tasso di conversione di base effettivo era del 10%. Puoi ricalcolare la dimensione del campione di cui hai bisogno a metà del test? Hai bisogno di riavviare il tuo esperimento? Un modo in cui Amplitude attenua questo problema è precompilare il calcolatore della dimensione del campione con le impostazioni predefinite standard del settore (livello di confidenza del 95% e potenza dell'80%) e calcolare la media di controllo e la deviazione standard (se necessario) negli ultimi 7 giorni. Nei calcolatori della dimensione del campione, c'è un campo chiamato "potenza" (1- tasso di falsi negativi). Con i test sequenziali, questo campo viene essenzialmente sostituito con "per quanti giorni sei disposto a eseguire il test". Questo è un numero molto più interpretabile e un numero facile da trovare per le persone.

Prova di potenza 1

Un altro vantaggio è che il test sequenziale è un test che ha potenza 1. In termini non tecnici, ciò significa che se c'è una vera differenza non creata a caso tra la media di trattamento e la media di controllo, il test alla fine la troverà (cioè , diventano statisticamente significative). Invece di dire al tuo capo che il test è stato inconcludente, puoi dire che possiamo aspettare più a lungo per vedere se otteniamo un risultato statisticamente significativo.

Osservando il primo vantaggio, esploriamo cosa può accadere in un esperimento con la relazione tra la dimensione reale dell'effetto e l'effetto minimo rilevabile (MDE). I tre casi sono quando si sottostima l'MDE, si stima esattamente l'MDE o si sovrastima l'MDE.

Risolto il problema con il test dell'orizzonte Test sequenziali Che è migliore?
Sottostima MDE (ad esempio, scegli 1 come MDE ma 2 è la dimensione dell'effetto) Eseguire il test più a lungo del necessario. Avere una potenza maggiore di quella che volevi. Interrompi il test in anticipo. Test sequenziali.
Stimare esattamente l'MDE (ad esempio, scegliere 1 come MDE prima dell'esperimento e 1 è la dimensione dell'effetto) Ottieni un intervallo di confidenza più piccolo. Ottieni la potenza esatta che volevi prima dell'esperimento. Intervallo di confidenza più ampio. È necessario attendere più a lungo per ottenere la significatività statistica (ad es. eseguire il test più a lungo). Risolto, ma ricorda che c'è ancora la possibilità di ottenere un falso negativo con un test a orizzonte fisso.
Sovrastima MDE (ad esempio, scegli 1 come MDE ma .5 è la dimensione dell'effetto) Prova sottodimensionata. Probabilmente otterrà un test inconcludente e dovrà interrompere il test. Probabilmente otterrà un test inconcludente. Ma puoi mantenere il test in esecuzione più a lungo per ottenere un risultato statisticamente significativo. La domanda allora è che ti interessa se ottieni un risultato statisticamente significativo perché l'ascensore è così piccolo? Vale la pena lo sforzo ingegneristico per implementarlo? Test sequenziali, ma solo leggermente.

In genere, non si conosce la dimensione dell'effetto (se lo sapessi, non avrebbe senso sperimentare). Pertanto, non sai in quale dei 3 casi ti troverai. Vuoi provare a stimare qual è la possibilità che sarai in ciascuno dei 3 casi.

Regola di base : qui esamineremo una regola per riassumere la tabella sopra. Se hai esperienza con i test a orizzonte fisso, allora sei a tuo agio con il concetto di un effetto minimo rilevabile. Estendiamo questo concetto per definire un effetto massimo rilevabile, che è la dimensione massima dell'effetto che si potrebbe teoricamente ottenere dall'esperimento. Per scegliere l'effetto massimo rilevabile, puoi utilizzare la dimensione massima dell'effetto degli esperimenti precedenti o, se hai una conoscenza del dominio, puoi utilizzarla per scegliere un valore ragionevole. Ad esempio, se stai cambiando il colore di un pulsante, sai che la percentuale di clic non aumenterà di oltre il 20%. In sostanza, l'effetto minimo rilevabile fornisce lo scenario peggiore e l'effetto massimo rilevabile lo scenario migliore. Quindi, utilizzare il calcolatore della dimensione del campione a orizzonte fisso e collegare sia l'effetto minimo rilevabile che l'effetto massimo rilevabile. Prendi la differenza nel numero di campioni necessari tra entrambe le situazioni. Ti va bene aspettare il tempo extra tra questi due valori? Forse devi solo aspettare altri 3 giorni, quindi è probabilmente meglio utilizzare un test a orizzonte fisso perché con i test sequenziali puoi risparmiare al massimo solo 3 giorni. Forse hai la possibilità di risparmiare 10 giorni, quindi potresti voler utilizzare il test sequenziale.

Riassumendo, i vantaggi del test sequenziale sono:

  • C'è una barriera inferiore all'ingresso dal non dover utilizzare un calcolatore della dimensione del campione e non dover sapere di sbirciare.
  • È consentito sbirciare.
  • Gli esperimenti finiscono più velocemente in alcuni casi.

Vantaggi del test T con orizzonte fisso

Ora cambieremo marcia ed esamineremo alcuni casi in cui il test T è vantaggioso. Con t-test devi porre la domanda: se il test sequenziale mi dicesse di fermarmi presto, mi fermerei davvero?

Grande azienda

In generale, se sei una grande azienda, hai fatto molti esperimenti e probabilmente sai qual è un effetto minimo rilevabile buono o ragionevole. Inoltre, probabilmente stai apportando miglioramenti dell'1% o del 2%, quindi è improbabile che la dimensione dell'effetto reale sia molto lontana dall'effetto minimo rilevabile. In altre parole, la differenza tra l'effetto massimo rilevabile e l'effetto minimo rilevabile è piccola. Pertanto, preferiresti utilizzare un test a orizzonte fisso.

Hai già un'organizzazione di data science

Il test T a orizzonte fisso è la metodologia standard di Stats 101 da manuale. La maggior parte dei data scientist dovrebbe avere familiarità con questa metodologia, quindi ci sarebbe meno attrito nell'uso di questo metodo.

Piccole dimensioni del campione

Se si dispone di campioni di dimensioni davvero ridotte, non è sempre chiaro quale sia la metodologia migliore. Se stai testando modifiche importanti (cosa che dovresti fare se la tua azienda/base di clienti è piccola), il sequenziale sarebbe vantaggioso perché la differenza tra l'effetto massimo rilevabile e l'effetto minimo rilevabile è grande. D'altra parte, vuoi essere molto preciso e vuoi intervalli di confidenza più piccoli a causa della piccola dimensione del campione, quindi in questo caso un test con orizzonte fisso sarebbe buono. Se disponi di dati davvero piccoli, allora vuoi chiederti se raggiungerai la significatività statistica in un ragionevole lasso di tempo. Se la risposta è no, allora il test A/B potrebbe non essere la metodologia giusta in questo caso. Potrebbe essere un uso migliore del tuo tempo per fare uno studio sugli utenti o apportare le modifiche richieste dai clienti e presumere che avranno un aumento positivo.

Stagionalità

Per stagionalità intendiamo variazioni a intervalli regolari. La stagionalità non deve essere su un intervallo molto lungo come un mese. Potrebbe essere anche a livello di giorno della settimana. A seconda del prodotto, gli utenti che utilizzano il prodotto nel fine settimana possono essere diversi dalle persone che utilizzano il prodotto nei giorni feriali. Un esempio è per un motore di mappe, in cui nei giorni feriali le persone potrebbero cercare di più indirizzi rispetto al fine settimana, le persone potrebbero cercare di più ristoranti. È possibile che gli utenti che vengono trattati nel giorno feriale abbiano un aumento positivo e gli utenti che vengono trattati nel fine settimana abbiano un aumento negativo o viceversa.

La domanda che devi porre qui è se il test T dice di funzionare per 1 settimana e il test sequenziale raggiunge la significatività statistica dopo 4 giorni, ti fermeresti davvero a 4 giorni? Qui sarebbe meglio eseguire un T-test se ritieni che ci sia un effetto giorno della settimana. Se ti sei fermato dopo 4 giorni, stai partendo dal presupposto che la data che hai ottenuto in quei 4 giorni sia rappresentativa dei dati che avresti visto se avessi eseguito l'esperimento per una o due settimane.

In genere, si desidera eseguire esperimenti per un numero intero di cicli aziendali. In caso contrario, potresti essere in sovrappeso in determinati giorni. Ad esempio, se avvii un esperimento il lunedì e lo esegui per 10 giorni, dai ai dati di lunedì un peso di 2/10, ma un peso di 1/10 per i dati di domenica. Man mano che si esegue l'esperimento più a lungo, l'effetto del giorno della settimana diminuisce. Questo è uno dei motivi per cui potresti vedere la regola generale della tua azienda di eseguire un esperimento per 2 settimane.

screenshot di un grafico che mostra i modelli stagionali nei dati
Ecco un esempio di grafico con la stagionalità.

Studiare una metrica a lungo termine

A volte potresti essere interessato a una metrica a lungo termine come la fidelizzazione di 30 giorni o le entrate di 60 giorni. Queste metriche a volte si verificano quando studi abbonamenti mensili e distribuisci prove o sconti gratuiti. Una cosa a cui pensare è quanto guadagno stai ottenendo fermandoti presto? Ad esempio, se stai studiando la conservazione di 30 giorni, devi attendere 30 giorni per ottenere 1 giorno di dati. Per questo motivo, questo tipo di esperimenti generalmente viene eseguito per un paio di mesi. Se riesci a terminare un esperimento con un paio di giorni di anticipo, non è una grande vittoria. Inoltre, quando scegli una metrica a lungo termine, potresti essere interessato sia alla conservazione di 30 giorni che a quella di 60 giorni perché se aumenti la conservazione di 30 giorni ma diminuisci la conservazione di 60 giorni, forse non è un successo. Puoi scegliere la conservazione di 30 giorni invece di 60 giorni in modo da poter ripetere più velocemente i tuoi esperimenti. Un metodo che potresti utilizzare è testare la significatività statistica per la conservazione di 30 giorni e quindi verificare la direzionalità per la conservazione di 60 giorni.

Con le metriche a lungo termine, non puoi fermarti presto perché devi aspettare per osservare la metrica. Il test sequenziale generalmente funziona meglio quando si ottiene una risposta immediatamente dopo aver trattato l'utente.

Esistono due modi per eseguire i tuoi esperimenti con le metriche a lungo termine:

  1. Ottieni la dimensione del campione di cui hai bisogno e quindi disattiva l'esperimento. Attendi che tutti gli utenti siano stati coinvolti nell'esperimento per 30 giorni.
  2. Lascia che l'esperimento venga eseguito finché non ottieni la dimensione del campione necessaria per gli utenti che hanno partecipato all'esperimento per 30 giorni.

In genere, non si desidera eseguire l'opzione n. 1 se si esegue un test sequenziale perché il punto centrale del test sequenziale è che non si sa quale dimensione del campione è necessaria. Potresti prendere in considerazione l'opzione n. 1 se vuoi essere prudente e non esporre troppi utenti al tuo esperimento se ritieni che il trattamento potrebbe non essere positivo.

Un'altra cosa a cui pensare è quante volte stai trattando l'utente. Se stai trattando un utente solo un paio di volte, devi pensare se vedresti davvero un grande miglioramento da solo un paio di differenze tra trattamento e controllo. Questo porta a dimensioni dell'effetto più piccole.

Effetti novità

Un effetto di novità è quando offri agli utenti una nuova funzionalità e loro interagiscono molto con essa, ma poi potrebbero smettere di interagire con essa. Ad esempio, hai un pulsante grande e le persone fanno clic su di esso molto la prima volta che lo vedono, ma smettono di fare clic su di esso in seguito. La metrica non deve sempre aumentare e poi diminuire, ma può anche andare nell'altra direzione. Ad esempio, gli utenti sono contrari al cambiamento e inizialmente non interagiscono con la funzione, ma dopo qualche tempo inizieranno a interagire con essa e ne vedranno l'utilità. La soluzione agli effetti della novità consiste nell'eseguire esperimenti più a lungo e possibilmente rimuovere i dati dai primi giorni in cui gli utenti sono esposti all'esperimento. Questo è simile all'utilizzo di una metrica a lungo termine.

Risultati dell'esperimento

Quest'anno abbiamo rilasciato Experiment Results, una nuova funzionalità all'interno di Experiment che ti consente di caricare i dati A/B direttamente su Amplitude e iniziare ad analizzare il tuo esperimento. Puoi caricare i dati mentre l'esperimento è in esecuzione e analizzare i dati con test sequenziali. Oppure un altro caso d'uso è attendere il termine dell'esperimento, quindi caricare i dati su Amplitude per analizzarli. Se lo fai, non ha senso usare il test sequenziale poiché l'esperimento è già terminato e non è possibile interrompere anticipatamente, quindi dovresti usare un T-test.

Non tutti gli esperimenti avranno questi problemi non standard. Le domande a cui pensare sono se ti stai già impegnando in un esperimento di lunga durata, risparmierai davvero così tanto tempo terminando l'esperimento in anticipo, che tipo di analisi non puoi fare perché ti sei fermato presto e se smetti all'inizio, che tipo di ipotesi stai facendo e ti va bene fare quelle ipotesi. Non tutti gli esperimenti sono uguali e gli esperti aziendali all'interno della tua azienda possono aiutarti a determinare quale test sarebbe appropriato e come interpretare al meglio i risultati.


Non sai da dove cominciare? Richiedi una demo e ti guideremo attraverso le opzioni che funzionano meglio per la tua attività!

Inizia con l'analisi dei prodotti