Sıralı Test ve Sabit Ufuk T Testi: Her Biri Ne Zaman Kullanılır?

Yayınlanan: 2022-06-10

Deneme, ürün ekiplerinin korelasyonlar yerine nedenselliğe dayalı daha iyi kararlar almasına yardımcı olur . “< ürünün bu kısmını değiştirmek> dönüşümün %5 artmasına neden oldu” gibi açıklamalar yapabilirsiniz. Deneme olmadan, daha yaygın bir yaklaşım, etki alanı bilgisine veya belirli müşteri isteklerine dayalı değişiklikler yapmaktır. Artık veriye dayalı şirketler, karar vermeyi daha objektif hale getirmek için deneyleri kullanıyor. Nedenselliğin büyük bir bileşeni, deney verilerinin istatistiksel analizidir.

Amplitude'de, Deneyin başlangıcından beri sahip olduğumuz sıralı teste ek olarak yakın zamanda sabit bir ufuk T-testi yayınladık. Birkaç müşterinin "Hangi testi seçeceğimi nasıl bilebilirim?" diye sorduğunu hayal ediyoruz.

Bu teknik yazıda, sıralı test ve sabit ufuklu T testinin artılarını ve eksilerini açıklayacağız.

Not: Bu yazı boyunca T-testi dediğimizde, sabit ufuklu T-testinden bahsediyoruz.

Her yaklaşımın artıları ve eksileri vardır ve bir yöntemin her zaman diğerinden daha iyi olduğu bir durum değildir.

Sıralı test avantajları

İlk olarak, sıralı testin avantajlarını keşfedeceğiz.

Birkaç kez göz atma → deneyi daha erken sonlandır

Sıralı testin avantajı, birkaç kez göz atabilmenizdir. Genlik'te kullandığımız sıralı testin karışım Sıralı Olasılık Oranı Testi (mSPRT) adı verilen özel sürümü, istediğiniz kadar göz atmanıza olanak tanır. Ayrıca, gruplandırılmış sıralı bir testte yaptığınız gibi kaç kez göz atacağınıza test başlamadan önce karar vermek zorunda değilsiniz. Bunun sonucu olarak, tüm ürün yöneticilerinin (PM) yapmak istediği şeyi yapabiliriz, yani "istatistiksel olarak anlamlı olana kadar bir test yapın ve sonra durun." Hedef-tarih fonları ile “ayarla ve unut” yaklaşımına benzer. Sabit ufuk çerçevesinde, yanlış pozitif oranını artıracağınız için bu yapılmamalıdır. Etki boyutu minimum algılanabilir etkiden (MDE) çok daha büyükse, sık sık göz atarak deney süresini azaltabiliriz.

Doğal olarak, insanlar olarak, müşteri tabanımıza mümkün olduğunca çabuk yardımcı olacak verilere göz atmaya ve özellikleri kullanıma sunmaya devam etmek istiyoruz. Genellikle bir PM, bir veri bilimcisine, deney başladıktan birkaç gün sonra deneyin nasıl gittiğini sorar. Sabit ufuk testi ile, veri bilimcisi deney hakkında istatistiksel olarak (güven aralıkları veya p değerleri) hiçbir şey söyleyemez ve yalnızca bunun maruz kalan kullanıcı sayısı olduğunu ve bunun tedavi ortalaması ve kontrol ortalaması olduğunu söyleyebilir. Sıralı test ile veri bilimcisi, deney sırasında herhangi bir zamanda PM'ye her zaman geçerli güven aralıkları ve p değerleri verebilir.

Bazı deney panolarında, istatistiksel büyüklükler (güven aralıkları ve p değerleri) sabit ufuk testi için bile kullanıcılardan gizlenmez. Çoğu zaman, veri bilimcilerine, gösterge tablosu "tamamen yeşil" olduğu için kazanan varyantı neden sunamadığımız sorulur. Ardından, veri bilimcisi, deneyin gerekli örnek boyutuna ulaşmadığını ve deneyin kullanıma sunulması durumunda kullanıcılar üzerinde gerçekten olumsuz bir etkisi olabileceğini açıklamalıdır. Ardından, PM, meslektaşlarının neden gerekli örnek boyutuna ulaşmadan önce bir deney başlattığını sorgular. Bu, çok fazla tutarsızlık yaratır ve insanların deneylerinin uygulanmaması konusunda kafası karışır. Sıralı testlerle, bu artık veri bilimcisinin yanıtlaması gereken bir soru değil. Sabit ufuk durumunda, Genlik, bu sorunun çözülmesine yardımcı olmak için yalnızca kümülatif maruziyetleri, tedavi ortalamasını ve kontrol ortalamasını gösterir. İstenen örnek boyutuna ulaşıldığında, Amplitude istatistiksel sonuçları gösterecektir. Bu, gözetlemeyi önleyerek yanlış pozitif oranın kontrol edilmesine yardımcı olur.

Örnek boyutu hesaplayıcı kullanmanıza gerek yok

Sıralı testin bir diğer avantajı, sabit ufuklu testler için kullanmanız gereken bir örnek boyutu hesaplayıcısı kullanmak zorunda kalmamanızdır. Teknik bilgisi olmayan kişiler genellikle örneklem boyutu hesaplayıcı kullanmakta zorluk çekerler ve tüm girdilerin ne anlama geldiğini veya girmeleri gereken sayıları nasıl hesaplayacaklarını bilmezler. Örneğin, bir metriğin standart sapmasını bilmek çoğu kişinin bildiği bir şey değildir. başlarının üstünden. Ayrıca, numune boyutu hesaplayıcısına doğru sayıları girmediyseniz sorunlarla karşılaşırsınız. Örneğin, %5'lik bir temel dönüşüm oranı girdiniz, ancak gerçek temel dönüşüm oranı %10'du. İhtiyacınız olan numune boyutunu testin ortasında yeniden hesaplamanıza izin veriliyor mu? Denemenizi yeniden başlatmanız mı gerekiyor? Amplitude'ün bu sorunu azaltmasının bir yolu, numune boyutu hesaplayıcısını standart endüstri varsayılanlarıyla (%95 güven düzeyi ve %80 güç) önceden doldurmak ve son 7 gün içindeki kontrol ortalamasını ve standart sapmayı (gerekirse) hesaplamaktır. Örneklem büyüklüğü hesaplayıcılarda “güç” (1- yanlış negatif oran) diye bir alan vardır. Sıralı test ile, bu alan esas olarak "testi kaç gün boyunca çalıştırmak istediğiniz" ile değiştirilir. Bu çok daha yorumlanabilir bir sayı ve insanların kolayca bulabileceği bir sayı.

Güç 1 Testi

Diğer bir avantaj, sıralı testin gücü 1 olan bir test olmasıdır. Teknik olmayan terimlerle, bu, tedavi ortalaması ile kontrol ortalaması arasında tesadüfen yaratılmamış gerçek bir fark varsa, o zaman testin sonunda onu bulacağı anlamına gelir (örn. , istatistiksel olarak anlamlı hale gelir). Patronunuza testin sonuçsuz olduğunu söylemek yerine, istatistiksel olarak anlamlı bir sonuç alıp almadığımızı görmek için daha uzun süre bekleyebileceğimizi söyleyebilirsiniz.

İlk avantaja baktığımızda, gerçek etki boyutu ile Minimum Tespit Edilebilir Etki (MDE) arasındaki ilişkiyle bir deneyde neler olabileceğini ortaya çıkarıyoruz. Üç durum, MDE'yi hafife aldığınız, MDE'yi tam olarak tahmin ettiğiniz veya MDE'yi olduğundan fazla tahmin ettiğiniz durumlardır.

Sabit Ufuk Testi Sıralı Test Hangisi daha iyi?
MDE'yi hafife alın (örneğin, MDE olarak 1'i seçin, ancak efekt boyutu 2'dir) Testi gereğinden uzun süre çalıştırın. İstediğinizden daha fazla güce sahip olun. Testi erken durdurun. Sıralı Test.
MDE'yi tam olarak tahmin edin (örneğin, deneyden önce MDE olarak 1'i seçin ve etki büyüklüğü 1'dir) Daha küçük bir güven aralığı elde edin. Denemeden önce tam olarak istediğiniz gücü elde edin. Daha büyük güven aralığı. İstatistiksel anlamlılık elde etmek için daha uzun süre beklemeniz gerekir (yani testi daha uzun süre çalıştırın). Düzeltildi, ancak sabit bir ufuk testiyle hala yanlış negatif alma şansınız olduğunu unutmayın.
MDE'yi fazla tahmin edin (örneğin, MDE olarak 1'i seçin, ancak etki büyüklüğü 0,5'tir) Güçsüz test. Muhtemelen sonuçsuz bir test alacak ve testi durdurmak zorunda kalacak. Muhtemelen sonuçsuz bir test alacak. Ancak istatistiksel olarak anlamlı bir sonuç elde etmek için testi daha uzun süre çalıştırabilirsiniz. O zaman soru şu ki, artış çok küçük olduğu için istatistiksel olarak anlamlı bir sonuç almanız umurunda mı? Bunu ortaya çıkarmak için mühendislik çabasına değer mi? Sıralı Test, ancak sadece biraz.

Genel olarak, etki büyüklüğünü bilmiyorsunuz (bilseydiniz, denemenin bir anlamı olmazdı). Bu nedenle 3 vakadan hangisine gireceğinizi bilmiyorsunuz. 3 vakanın her birinde olma şansınızın ne olduğunu tahmin etmeye çalışmak istiyorsunuz.

Temel Kural : Burada yukarıdaki tabloyu özetlemek için bir kurala bakacağız. Sabit ufuk testi konusunda deneyiminiz varsa, minimum algılanabilir etki kavramı konusunda rahatsınızdır. Bu kavramı, teorik olarak deneyden olabileceğini düşündüğünüz maksimum etki boyutu olan, saptanabilir bir maksimum etkiyi tanımlamak için genişletiyoruz. Algılanabilir maksimum etkiyi seçmek için, önceki deneylerin maksimum etki boyutlarını kullanabilir veya alan bilginiz varsa, bunu makul bir değer seçmek için kullanabilirsiniz. Örneğin, bir düğme rengini değiştiriyorsanız, tıklama oranının %20'den fazla artmayacağını bilirsiniz. Esasen, minimum algılanabilir etki size en kötü durum senaryosunu verir ve maksimum algılanabilir etki size en iyi durum senaryosunu verir. Ardından, sabit ufuklu örnek boyutu hesaplayıcısını kullanın ve hem minimum algılanabilir etkiyi hem de maksimum algılanabilir etkiyi takın. Her iki durum arasında ihtiyaç duyulan numune sayısındaki farkı alın. Bu iki değer arasındaki fazladan süreyi beklemekte sakınca var mı? Belki sadece 3 gün daha beklemeniz gerekir - o zaman muhtemelen sabit bir ufuk testi kullanmak daha iyidir çünkü sıralı test ile en fazla 3 gün kazanabilirsiniz. Belki 10 gün tasarruf etme şansınız vardır, o zaman sıralı test kullanmak isteyebilirsiniz.

Özetlemek gerekirse, sıralı testin avantajları şunlardır:

  • Numune boyutu hesaplayıcı kullanmak zorunda olmamaktan ve gözetleme hakkında bilgi sahibi olmamaktan daha düşük bir giriş engeli vardır.
  • Göz atmaya izin verilir.
  • Bazı durumlarda deneyler daha hızlı tamamlanır.

Sabit ufuk T-testi avantajları

Şimdi vites değiştireceğiz ve T testinin avantajlı olduğu bazı durumlara bakacağız. T-testi ile şu soruyu sormanız gerekir: Sıralı testler bana erken durmamı söyleseydi, gerçekten erken bırakır mıydım?

Büyük şirket

Genel olarak, büyük bir şirketseniz, birçok deney yaptınız ve muhtemelen iyi veya makul bir minimum saptanabilir etkinin ne olduğunu biliyorsunuzdur. Ayrıca, muhtemelen %1 veya %2 iyileştirmeler yapıyorsunuzdur, bu nedenle gerçek etki boyutunun saptanabilir minimum etkiden çok uzak olması pek olası değildir. Başka bir deyişle, maksimum algılanabilir etki ile minimum algılanabilir etki arasındaki fark küçüktür. Bu nedenle, sabit bir ufuk testi kullanmayı tercih edersiniz.

Halihazırda bir veri bilimi organizasyonuna sahip olmak

Sabit ufuklu T-testi, standart ders kitabı Stats 101 metodolojisidir. Çoğu veri bilimcisi bu metodolojiye aşina olmalıdır, bu nedenle bu yöntemi kullanmak için daha az sürtüşme olacaktır.

Küçük numune boyutları

Gerçekten küçük numune boyutlarınız varsa, hangi metodolojinin daha iyi olduğu her zaman net değildir. Büyük değişiklikleri test ediyorsanız (şirketiniz/müşteri tabanınız küçükse bunu yapmanız gerekir), maksimum algılanabilir etki ile minimum algılanabilir etki arasındaki fark büyük olduğundan sıralı yöntem avantajlı olacaktır. Öte yandan, küçük örnek boyutu nedeniyle çok kesin olmak ve daha küçük güven aralıkları istersiniz, bu nedenle bu durumda sabit bir ufuk testi iyi olur. Gerçekten küçük verileriniz varsa, makul bir süre içinde istatistiksel anlamlılığa ulaşıp ulaşamayacağınızı sorgulamak istersiniz. Cevap hayır ise, bu durumda A/B testi doğru metodoloji olmayabilir. Bir kullanıcı çalışması yapmak veya müşterilerin talep ettiği değişiklikleri yapmak ve olumlu bir artış olacağını varsaymak zamanınızı daha iyi kullanmak olabilir.

mevsimsellik

Mevsimsellik ile düzenli aralıklarla varyasyonları kastediyoruz. Mevsimsellik, bir ay gibi çok uzun bir aralığın üzerinde olmak zorunda değildir. Haftanın günü seviyesinde bile olabilir. Ürüne bağlı olarak, ürünü hafta sonu kullanan kullanıcılar, ürünü hafta içi kullanan kişilerden farklı olabilir. Bir örnek, insanların hafta içi haftasonlarına kıyasla daha fazla adres aradığı, insanların daha fazla restoran aradığı bir harita motorudur. Hafta içi tedavi gören kullanıcılarda pozitif artış, hafta sonu tedavi gören kullanıcılarda negatif artış veya tam tersi olabilir.

Burada sormanız gereken soru şudur: T-testi 1 hafta çalış dese ve sıralı test 4 gün sonra istatistiksel anlamlılığa ulaşırsa, gerçekten 4 günde bırakır mıydınız? Haftanın bir günü etkisi olduğuna inanıyorsanız, burada bir T testi yapmak daha iyi olacaktır. 4 gün sonra durduysanız, o 4 gün içinde elde ettiğiniz tarihin, deneyi bir veya iki hafta boyunca çalıştırmış olsaydınız göreceğiniz verileri temsil ettiğini varsayıyorsunuz.

Genellikle, tam sayıda iş döngüsü için denemeler yapmak istersiniz. Aksi takdirde, belirli günlerde aşırı kilolu olabilirsiniz. Örneğin, bir denemeyi Pazartesi günü başlatır ve 10 gün boyunca çalıştırırsanız, Pazartesi günü veriye 2/10, Pazar gününe ise 1/10 ağırlık vermiş olursunuz. Denemeyi daha uzun süre çalıştırdıkça haftanın günü etkisi azalır. Bu, şirketinizde 2 hafta boyunca bir deneme çalıştırmanın genel kuralını görmenizin nedenlerinden biridir.

verilerdeki mevsimsel kalıpları gösteren bir grafiğin ekran görüntüsü
İşte mevsimsellik içeren bir grafik örneği.

Uzun vadeli bir metriği incelemek

Bazen 30 günlük elde tutma veya 60 günlük gelir gibi uzun vadeli bir ölçümle ilgilenebilirsiniz. Bu ölçümler bazen aylık abonelikleri incelerken ve ücretsiz denemeler veya indirimler verirken ortaya çıkar. Düşünülmesi gereken bir şey, erken durarak ne kadar kazanç elde ettiğinizdir? Örneğin, 30 günlük saklama eğitimi alıyorsanız, 1 günlük veri almak için 30 gün beklemeniz gerekir. Bu nedenle, bu tür deneyler genellikle birkaç ay sürer. Bir deneyi birkaç gün erken bitirebilirseniz, bu büyük bir kazanç değildir. Ayrıca, uzun vadeli bir metrik seçerken, hem 30 günlük saklama hem de 60 günlük saklama ile ilgilenebilirsiniz çünkü 30 günlük saklamayı artırırken 60 günlük saklamayı azaltırsanız, o zaman bu bir başarı olmayabilir. Denemelerinizi daha hızlı yineleyebilmeniz için 60 gün yerine 30 günlük saklamayı seçebilirsiniz. Kullanabileceğiniz bir yöntem, 30 günlük kalıcılık için istatistiksel anlamlılığı test etmek ve ardından 60 günlük kalıcılık için yönlülüğü kontrol etmektir.

Uzun vadeli metriklerde erken duramazsınız çünkü metriği gözlemlemek için beklemeniz gerekir. Kullanıcıyı tedavi ettikten hemen sonra bir yanıt aldığınızda, sıralı testler genellikle daha iyi çalışır.

Denemelerinizi uzun vadeli metriklerle çalıştırmanın iki yolu vardır:

  1. İhtiyacınız olan örnek boyutuna ulaşın ve ardından deneyi kapatın. Tüm kullanıcılar 30 gün boyunca denemede bulunana kadar bekleyin.
  2. 30 gündür denemede bulunan kullanıcılar için ihtiyaç duyduğunuz örnek boyutunu elde edene kadar denemenin çalışmasına izin verin.

Genel olarak, sıralı bir test yapıyorsanız Seçenek 1'i yapmak istemezsiniz çünkü sıralı testin tüm amacı, hangi örneklem boyutuna ihtiyacınız olduğunu bilmemenizdir. Tedavinin olumlu olmayabileceğini düşünüyorsanız, ihtiyatlı olmak ve çok fazla kullanıcıyı denemenize maruz bırakmamak istiyorsanız 1. seçeneği yapmayı düşünebilirsiniz.

Düşünülmesi gereken başka bir şey, kullanıcıyı kaç kez tedavi ettiğinizdir. Bir kullanıcıyı yalnızca birkaç kez tedavi ediyorsanız, tedavi ve kontrol arasındaki yalnızca birkaç farktan gerçekten çok büyük bir artış görüp göremeyeceğinizi düşünmeniz gerekir. Bu, daha küçük etki boyutlarına yol açar.

Yenilik efektleri

Bir yenilik etkisi, kullanıcılara yeni bir özellik verdiğinizde ve onunla çok fazla etkileşime girdiğinde, ancak daha sonra onunla etkileşimi kestiğinde ortaya çıkar. Örneğin, büyük bir düğmeniz var ve insanlar onu ilk gördüklerinde çok tıklıyorlar, ancak daha sonra tıklamayı bırakıyorlar. Metrik her zaman artıp sonra azalmak zorunda değildir - diğer yöne de gidebilir. Örneğin, kullanıcılar değişiklikten hoşlanmazlar ve başlangıçta özellikle etkileşime girmezler, ancak bir süre sonra onunla etkileşime başlayacak ve faydasını göreceklerdir. Yenilik etkilerinin çözümü, denemeleri daha uzun süre çalıştırmak ve muhtemelen kullanıcıların denemeye maruz kaldığı ilk birkaç güne ait verileri kaldırmaktır. Bu, uzun vadeli bir metrik kullanmaya benzer.

deney sonuçları

Bu yıl, A/B verilerini doğrudan Amplitude'e yüklemenize ve denemenizi analiz etmeye başlamanıza olanak tanıyan, Deneme içinde yeni bir özellik olan Deneme Sonuçlarını yayınladık. Denemeniz çalışırken verileri yükleyebilir ve sıralı testler ile verileri analiz edebilirsiniz. Veya başka bir kullanım durumu, deneyin bitmesini beklemek ve ardından analiz etmek için verilerinizi Amplitude'e yüklemektir. Bunu yaparsanız, deney zaten bittiğinden ve yapabileceğiniz erken bir durdurma olmadığından sıralı test kullanmanın bir anlamı yoktur, bu nedenle bir T testi kullanmalısınız.

Her deneyde bu standart dışı sorunlar olmaz. Düşünülmesi gereken sorular, eğer uzun süredir devam eden bir deneyi taahhüt ediyorsanız, deneyi erken bitirerek gerçekten bu kadar zaman kazanacak mısınız, erken bıraktığınız için ne tür analizler yapamazsınız ve durdurursanız ne tür analizler yapamazsınız? erken, ne tür varsayımlarda bulunuyorsunuz ve bu varsayımları yapmakta sorun yok mu? Her deney aynı değildir ve şirketinizdeki iş uzmanları hangi testin uygun olacağını ve sonuçların en iyi nasıl yorumlanacağını belirlemenize yardımcı olabilir.


Nereden başlayacağınızdan emin değil misiniz? Bir demo talep edin, işletmeniz için en uygun seçeneklerde size yol gösterelim!

Ürün analizine başlayın