Test secvenţial vs. Test T-Horizon fix: Când să folosiţi fiecare?
Publicat: 2022-06-10Experimentarea ajută echipele de produse să ia decizii mai bune bazate pe cauzalitate, nu pe corelații . Puteți face afirmații precum „schimbarea < această parte a produsului> a determinat creșterea conversiei cu 5 %”. Fără experimentare, o abordare mai comună este de a face modificări pe baza cunoștințelor domeniului sau de a selecta solicitările clienților. Acum, companiile bazate pe date folosesc experimentarea pentru a face luarea deciziilor mai obiectivă. O mare componentă a cauzalității este o analiză statistică a datelor de experimentare.
La Amplitude, am lansat recent un test T cu orizont fix pe lângă testarea secvenţială, pe care le-am avut de la începutul Experimentului. Ne imaginăm câțiva clienți care se întreabă „De unde știu ce test să aleg?”
În această postare tehnică, vom explica avantajele și dezavantajele testului secvenţial și testului T cu orizont fix.
Notă: Pe tot parcursul acestei postări, când spunem T-test, ne referim la testul T cu orizont fix.
Există argumente pro și contra pentru fiecare abordare și nu este un caz în care o metodă este întotdeauna mai bună decât cealaltă.
Avantajele testării secvenţiale
În primul rând, vom explora avantajele testării secvențiale.
Privire de mai multe ori → termina experimentul mai devreme
Avantajul testării secvențiale este că puteți arunca o privire de mai multe ori. Versiunea specifică a testării secvențiale pe care o folosim la Amplitude, numită mixture Sequential Probability Ratio Test (mSPRT), vă permite să aruncați o privire de câte ori doriți. De asemenea, nu trebuie să decideți înainte de începerea testului de câte ori veți arunca o privire, așa cum ați face cu un test secvenţial grupat. Consecința acestui lucru este că putem face ceea ce toți managerii de produs (PM) doresc să facă, și anume „rulați un test până când este semnificativ statistic și apoi opriți”. Este similar cu abordarea „setează-l și uită-l” cu fonduri la data țintă. În cadrul cu orizont fix, acest lucru nu ar trebui făcut, deoarece veți crește rata fals pozitive. Privind des, putem reduce durata experimentului dacă dimensiunea efectului este mult mai mare decât efectul minim detectabil (MDE).
Desigur, ca oameni, dorim să continuăm să aruncăm o privire asupra datelor și să lansăm funcții care ne ajută baza de clienți cât mai repede posibil. Adesea, un PM va întreba un cercetător de date cum merge un experiment la câteva zile după ce experimentul a început. Cu testarea cu orizont fix, cercetătorul de date nu poate spune nimic statistic (intervale de încredere sau valori p) despre experiment și poate spune doar că acesta este numărul de utilizatori expuși și aceasta este media de tratament și media de control. Cu testarea secvențială, cercetătorul de date poate oferi întotdeauna intervale de încredere valide și valori p pentru PM în orice moment în timpul experimentului.
În unele tablouri de bord de experimentare, mărimile statistice (intervale de încredere și valori p) nu sunt ascunse utilizatorilor nici măcar pentru testarea cu orizont fix. Adesea, oamenii de știință sunt întrebați de ce nu putem lansa varianta câștigătoare, deoarece tabloul de bord este „tot verde”. Apoi, cercetătorul de date trebuie să explice că experimentul nu a atins dimensiunea necesară a eșantionului și că, dacă experimentul este lansat, ar putea avea de fapt un efect negativ asupra utilizatorilor. Apoi, PM se întreabă de ce colegul lor a lansat un experiment înainte ca acesta să atingă dimensiunea necesară a eșantionului. Acest lucru creează o mulțime de inconsecvență și oamenii sunt confuzi cu privire la faptul că experimentele lor nu sunt lansate. Cu testarea secvenţială, aceasta nu mai este o întrebare la care trebuie să răspundă cercetătorul de date. În cazul cu orizont fix, Amplitude arată doar expunerile cumulate, media de tratament și media de control pentru a ajuta la rezolvarea acestei probleme. Odată ce dimensiunea dorită a eșantionului este atinsă, Amplitude va afișa rezultatele statistice. Acest lucru ajută la controlul ratei fals pozitive prin prevenirea peeking-ului.
Nu este nevoie să utilizați un calculator pentru dimensiunea eșantionului
Un alt avantaj al testării secvențiale este că nu trebuie să utilizați un calculator pentru dimensiunea eșantionului, pe care ar trebui să-l utilizați pentru teste cu orizont fix. Adesea, persoanele netehnice întâmpină dificultăți în utilizarea unui calculator pentru dimensiunea eșantionului și nu știu ce înseamnă toate intrările sau cum să calculeze numerele pe care trebuie să le introducă. De exemplu, cunoașterea abaterii standard a unei valori nu este ceva ce majoritatea oamenilor știu din vârful capului lor. În plus, întâmpinați probleme dacă nu ați introdus numerele corecte în calculatorul pentru dimensiunea eșantionului. De exemplu, ați introdus o rată de conversie de bază de 5%, dar rata de conversie de bază reală a fost de 10%. Aveți voie să recalculați dimensiunea eșantionului de care aveți nevoie la mijlocul testului? Trebuie să reporniți experimentul? O modalitate prin care Amplitude atenuează această problemă este prepopularea calculatorului pentru dimensiunea eșantionului cu valori implicite standard ale industriei (nivel de încredere de 95% și putere de 80%) și calculează media de control și abaterea standard (dacă este necesar) în ultimele 7 zile. În calculatoarele de dimensiunea eșantionului, există un câmp numit „putere” (1- rata fals negative). Cu testarea secvențială, acest câmp este înlocuit în esență cu „pentru câte zile sunteți dispus să rulați testul”. Acesta este un număr mult mai interpretabil și un număr ușor de găsit pentru oameni.
Puterea 1 Test
Un alt avantaj este că testarea secvenţială este un test care are puterea 1. În termeni non-tehnici, aceasta înseamnă că dacă există o diferenţă adevărată necreată întâmplător între media de tratament şi media de control, atunci testul o va găsi în cele din urmă (adică , devin semnificative statistic). În loc să-i spui șefului tău că testul a fost neconcludent, poți spune că putem aștepta mai mult pentru a vedea dacă obținem un rezultat semnificativ statistic.
Privind primul avantaj, dezvăluim ce se poate întâmpla într-un experiment cu relația dintre dimensiunea reală a efectului și efectul minim detectabil (MDE). Cele trei cazuri sunt atunci când subestimați MDE, estimați exact MDE sau supraestimeți MDE.
| Testarea orizontului fix | Testare secvenţială | Care e mai bun? | |
| Subestimați MDE (de exemplu, alegeți 1 ca MDE, dar 2 este dimensiunea efectului) | Rulați testul mai mult decât este necesar. Aveți o putere mai mare decât v-ați dorit. | Opriți testul mai devreme. | Testare secvenţială. |
| Estimați exact MDE (de exemplu, alegeți 1 ca MDE înainte de experiment și 1 este dimensiunea efectului) | Obțineți un interval de încredere mai mic. Obțineți exact puterea pe care ați dorit-o înainte de experiment. | Interval de încredere mai mare. Trebuie să așteptați mai mult pentru a obține semnificația statistică (adică, rulați testul mai mult). | S-a rezolvat, dar rețineți că există încă șansa să obțineți un fals negativ cu un test cu orizont fix. |
| Supraestimați MDE (de exemplu, alegeți 1 ca MDE, dar .5 este dimensiunea efectului) | Test cu putere redusă. Probabil va primi un test neconcludent și va trebui să oprească testul. | Probabil va primi un test neconcludent. Dar puteți menține testul să ruleze mai mult pentru a obține un rezultat semnificativ statistic. Întrebarea este atunci îți pasă dacă obții un rezultat semnificativ din punct de vedere statistic, deoarece liftul este atât de mic? Merită efortul de inginerie pentru a-l lansa? | Testare secvențială, dar doar puțin. |
În general, nu cunoști dimensiunea efectului (dacă ai face-o, nu ar avea rost să experimentezi). Astfel, nu știți în care dintre cele 3 cazuri vă veți afla. Vrei să încercați să estimați care este șansa să vă aflați în fiecare dintre cele 3 cazuri.
Regula de bază : Aici vom analiza o regulă pentru a rezuma tabelul de mai sus. Dacă aveți experiență cu testarea cu orizont fix, atunci vă simțiți confortabil cu conceptul unui efect minim detectabil. Extindem acest concept pentru a defini un efect maxim detectabil, care este dimensiunea maximă a efectului pe care, teoretic, credeți că ar putea avea loc în urma experimentului. Pentru a alege efectul maxim detectabil, puteți utiliza dimensiunea maximă a efectului experimentelor anterioare sau, dacă aveți cunoștințe de domeniu, puteți utiliza aceasta pentru a alege o valoare rezonabilă. De exemplu, dacă schimbați culoarea unui buton, știți că rata de clic nu va crește cu mai mult de 20%. În esență, efectul minim detectabil vă oferă cel mai rău scenariu, iar efectul maxim detectabil vă oferă cel mai bun scenariu. Apoi, utilizați calculatorul pentru dimensiunea eșantionului cu orizont fix și conectați atât efectul minim detectabil, cât și efectul maxim detectabil. Luați diferența în numărul de mostre necesare între ambele situații. Ești de acord să aștepți timpul suplimentar dintre aceste două valori? Poate că trebuie să așteptați încă 3 zile — atunci probabil că este mai bine să utilizați un test cu orizont fix, deoarece cu testarea secvenţială puteți economisi cel mult 3 zile. Poate că aveți șansa de a economisi 10 zile, atunci s-ar putea să doriți să utilizați testarea secvențială.

Pentru a rezuma, avantajele testării secvenţiale sunt:
- Există o barieră mai mică în calea accesului, de a nu fi nevoie să utilizați un calculator pentru dimensiunea eșantionului și de a nu fi nevoit să știți despre peeking.
- Privirea cu ochiul este permisă.
- Experimentele se termină mai repede în unele cazuri.
Avantajele testului T cu orizont fix
Acum, vom schimba vitezele și vom analiza unele cazuri în care testul T este avantajos. Cu testul t trebuie să puneți întrebarea: dacă testarea secvențială mi-ar spune să mă opresc devreme, m-aș opri de fapt?
Companie mare
În general, dacă sunteți o companie mare, ați făcut o mulțime de experimente și probabil știți ce este un efect minim detectabil bun sau rezonabil. De asemenea, probabil că faceți îmbunătățiri cu 1% sau 2%, așa că este puțin probabil ca dimensiunea reală a efectului să fie foarte departe de efectul minim detectabil. Cu alte cuvinte, diferența dintre efectul maxim detectabil și efectul minim detectabil este mică. Astfel, ați prefera să utilizați un test cu orizont fix.
Aveți deja o organizație de știință a datelor
Testul T cu orizont fix este metodologia standard Stats 101 pentru manuale. Majoritatea cercetătorilor de date ar trebui să fie familiarizați cu această metodologie, astfel încât ar exista mai puține frecări pentru a utiliza această metodă.
Dimensiuni mici ale mostrelor
Dacă aveți eșantion de dimensiuni foarte mici, atunci nu este întotdeauna clar care metodologie este mai bună. Dacă testați modificări majore (ceea ce ar trebui să faceți dacă compania/baza de clienți este mică), atunci secvențial ar fi avantajos, deoarece diferența dintre efectul maxim detectabil și efectul minim detectabil este mare. Pe de altă parte, doriți să fiți foarte precis și doriți intervale de încredere mai mici din cauza dimensiunii mici a eșantionului, așa că un test cu orizont fix ar fi bun în acest caz. Dacă aveți date cu adevărat mici, atunci doriți să vă întrebați dacă veți ajunge măcar la semnificația statistică într-un timp rezonabil. Dacă răspunsul este nu, atunci este posibil ca testarea A/B să nu fie metodologia potrivită în acest caz. Ar putea fi o mai bună folosire a timpului dvs. pentru a face un studiu asupra utilizatorilor sau pentru a face modificări pe care clienții le solicită și pentru a presupune că vor avea o creștere pozitivă.
Sezonalitatea
Prin sezonalitate, ne referim la variații la intervale regulate. Sezonalitatea nu trebuie să fie pe un interval foarte lung, cum ar fi o lună. Ar putea fi chiar și la nivelul zilei săptămânii. În funcție de produs, utilizatorii care folosesc produsul în weekend pot fi diferiți de cei care folosesc produsul în zilele lucrătoare. Un exemplu este pentru un motor de hărți, în care în timpul săptămânii, oamenii pot căuta mai mult adrese decât în weekend, oamenii pot căuta mai mult restaurante. Este posibil ca utilizatorii care sunt tratați în ziua săptămânii să aibă o creștere pozitivă, iar utilizatorii care sunt tratați în weekend să aibă o creștere negativă sau invers.
Întrebarea pe care trebuie să o puneți aici este dacă testul T spune să rulați timp de 1 săptămână și testul secvenţial ajunge la semnificaţie statistică după 4 zile, chiar v-aţi opri la 4 zile? Aici ar fi mai bine să rulați un test T dacă credeți că există un efect de zi a săptămânii. Dacă ați oprit după 4 zile, presupuneți că data pe care ați obținut-o în acele 4 zile este reprezentativă pentru datele pe care le-ați fi văzut dacă ați rula experimentul timp de o săptămână sau două săptămâni.
În general, doriți să efectuați experimente pentru un număr întreg de cicluri economice. Dacă nu, atunci este posibil să fii supraponderal în anumite zile. De exemplu, dacă începeți un experiment luni și îl rulați timp de 10 zile, atunci oferiți datelor de luni o pondere de 2/10, dar o pondere de 1/10 pentru datele de duminică. Pe măsură ce rulați experimentul mai mult timp, efectul zilei săptămânii scade. Acesta este unul dintre motivele pentru care s-ar putea să vedeți regula generală la compania dvs. de a desfășura un experiment timp de 2 săptămâni.

Studierea unei metrici pe termen lung
Uneori este posibil să fiți interesat de o valoare pe termen lung, cum ar fi păstrarea pe 30 de zile sau venitul pe 60 de zile. Aceste valori apar uneori atunci când studiați abonamentele lunare și oferiți probe sau reduceri gratuite. Un lucru la care să vă gândiți este cât de mult câștigați dacă vă opriți devreme? De exemplu, dacă studiați reținerea pe 30 de zile, atunci trebuie să așteptați 30 de zile pentru a obține 1 zi de date. Din acest motiv, aceste tipuri de experimente se desfășoară, în general, timp de câteva luni. Dacă puteți încheia un experiment cu câteva zile mai devreme, nu este un mare câștig. De asemenea, atunci când alegeți o valoare pe termen lung, este posibil să fiți interesat atât de reținerea de 30 de zile, cât și de reținerea de 60 de zile, deoarece dacă creșteți retenția de 30 de zile, dar reduceți retenția de 60 de zile, atunci poate că nu este un succes. Puteți alege păstrarea pe 30 de zile în loc de 60 de zile, astfel încât să puteți repeta mai rapid experimentele. O metodă pe care o puteți folosi este să testați semnificația statistică pentru reținerea pe 30 de zile și apoi să verificați direcționalitatea pentru reținerea pe 60 de zile.
Cu valorile pe termen lung, nu vă puteți opri devreme, deoarece trebuie să așteptați pentru a observa valoarea. Testarea secvențială funcționează în general mai bine atunci când primiți un răspuns imediat după tratarea utilizatorului.
Există două moduri în care vă puteți desfășura experimentele cu valori pe termen lung:
- Ajungeți la dimensiunea eșantionului de care aveți nevoie și apoi opriți experimentul. Așteptați până când toți utilizatorii au participat la experiment timp de 30 de zile.
- Lăsați experimentul să ruleze până când obțineți dimensiunea eșantionului de care aveți nevoie pentru utilizatorii care au participat la experiment timp de 30 de zile.
În general, nu doriți să faceți Opțiunea #1 dacă executați un test secvenţial, deoarece scopul testării secvenţiale este că nu știți ce dimensiune a eșantionului aveți nevoie. Puteți lua în considerare opțiunea nr. 1 dacă doriți să fiți conservatori și să nu expuneți prea mulți utilizatori la experiment, dacă credeți că tratamentul poate să nu fie pozitiv.
Un alt lucru la care trebuie să vă gândiți este de câte ori îl tratați pe utilizator. Dacă tratați un utilizator doar de câteva ori, trebuie să vă gândiți dacă ați vedea într-adevăr o creștere foarte mare de la doar câteva diferențe între tratament și control. Acest lucru duce la dimensiuni mai mici ale efectului.
Efecte de noutate
Un efect de noutate este atunci când oferiți utilizatorilor o funcție nouă și aceștia interacționează foarte mult cu ea, dar apoi pot înceta să interacționeze cu ea. De exemplu, aveți un buton mare și oamenii dau clic mult pe el prima dată când îl văd, dar nu mai dați clic pe el mai târziu. Valoarea nu trebuie întotdeauna să crească și apoi să scadă — poate merge și în cealaltă direcție. De exemplu, utilizatorii sunt contrarii la schimbare și nu interacționează inițial cu caracteristica, dar după un timp vor începe să interacționeze cu ea și vor vedea utilitatea acesteia. Soluția pentru efectele de noutate este de a rula experimente mai mult timp și, eventual, de a elimina datele din primele câteva zile în care utilizatorii sunt expuși experimentului. Acest lucru este similar cu utilizarea unei valori pe termen lung.
Rezultatele experimentului
Anul acesta am lansat Experiment Results, o nouă capacitate din cadrul Experiment care vă permite să încărcați date A/B direct în Amplitude și să începeți să analizați experimentul. Puteți încărca date pe măsură ce experimentul se desfășoară și puteți analiza datele prin testare secvențială. Sau un alt caz de utilizare este să așteptați ca experimentul să se termine, apoi să vă încărcați datele în Amplitude pentru a le analiza. Dacă faceți acest lucru, nu are sens să utilizați testarea secvențială, deoarece experimentul s-a încheiat deja și nu puteți face o oprire timpurie, așa că ar trebui să utilizați un test T.
Nu orice experiment va avea aceste probleme non-standard. Întrebările la care trebuie să te gândești sunt dacă te angajezi deja la un experiment de lungă durată, chiar vei economisi atât de mult timp încheind experimentul devreme, ce tipuri de analize nu poți face pentru că te-ai oprit devreme și dacă te oprești devreme, ce fel de presupuneri faci și ești de acord să faci acele presupuneri. Nu toate experimentele sunt la fel, iar experții în afaceri din cadrul companiei dvs. vă pot ajuta să determinați ce test ar fi potrivit și cum să interpreteze cel mai bine rezultatele.
Nu sunteți sigur de unde să începeți? Solicitați o demonstrație și vă vom prezenta opțiunile care funcționează cel mai bine pentru afacerea dvs.!
