การทดสอบตามลำดับกับการทดสอบ Horizon T-Test คงที่: ควรใช้เมื่อใด

เผยแพร่แล้ว: 2022-06-10

การทดลองช่วยให้ทีมผลิตภัณฑ์ตัดสินใจได้ดีขึ้นโดยพิจารณาจากความเป็นเหตุเป็นผลแทนที่จะเป็นความสัมพันธ์ คุณสามารถสร้างข้อความเช่น "การเปลี่ยนแปลง < ส่วนนี้ของผลิตภัณฑ์> ทำให้ Conversion เพิ่มขึ้น 5%" หากไม่มีการทดลอง แนวทางทั่วไปคือการเปลี่ยนแปลงตามความรู้ของโดเมนหรือเลือกคำขอของลูกค้า ปัจจุบัน บริษัทที่ขับเคลื่อนด้วยข้อมูลใช้การทดลองเพื่อทำให้การตัดสินใจมีจุดมุ่งหมายมากขึ้น องค์ประกอบสำคัญของเวรกรรมคือการวิเคราะห์ทางสถิติของข้อมูลการทดลอง

ที่ Amplitude เราเพิ่งเปิดตัว T-test แบบจำกัดขอบฟ้า นอกเหนือจากการทดสอบตามลำดับ ซึ่งเรามีตั้งแต่เริ่มการทดสอบ เรานึกภาพลูกค้าหลายคนถามว่า "ฉันจะรู้ได้อย่างไรว่าควรเลือกแบบทดสอบอะไร"

ในบทความทางเทคนิคนี้ เราจะอธิบายข้อดีและข้อเสียของการทดสอบตามลำดับและการทดสอบ T-ขอบฟ้าคงที่

หมายเหตุ: ตลอดโพสต์นี้ เมื่อเราพูดถึง T-test เราหมายถึง T-test ที่ขอบฟ้าคงที่

มีข้อดีและข้อเสียสำหรับแต่ละวิธี และไม่ใช่กรณีที่วิธีหนึ่งดีกว่าอีกวิธีหนึ่งเสมอ

ข้อดีของการทดสอบตามลำดับ

อันดับแรก เราจะสำรวจข้อดีของการทดสอบตามลำดับ

แอบดูหลายครั้ง → สิ้นสุดการทดลองก่อนหน้านี้

ข้อดีของการทดสอบตามลำดับคือสามารถเปิดดูได้หลายครั้ง เวอร์ชันเฉพาะของการทดสอบตามลำดับที่เราใช้ที่ Amplitude เรียกว่าการทดสอบอัตราส่วนความน่าจะเป็นแบบผสม (mSPRT) แบบผสม ช่วยให้คุณดูได้หลายครั้งเท่าที่ต้องการ นอกจากนี้ คุณไม่จำเป็นต้องตัดสินใจก่อนที่การทดสอบจะเริ่มต้นขึ้นว่าคุณจะต้องดูกี่ครั้ง เหมือนต้องทำการทดสอบตามลำดับที่จัดกลุ่มไว้ ผลที่ตามมาคือเราสามารถทำสิ่งที่ผู้จัดการผลิตภัณฑ์ (PM) ทุกคนต้องการทำ นั่นคือ "ทำการทดสอบจนกว่าจะมีนัยสำคัญทางสถิติแล้วจึงหยุด" คล้ายกับวิธีการ "ตั้งค่าและลืมมัน" กับกองทุนวันที่เป้าหมาย ในกรอบขอบฟ้าคงที่ ไม่ควรทำเช่นนี้เพราะคุณจะเพิ่มอัตราการบวกลวง โดยการแอบดูบ่อยๆ เราสามารถลดระยะเวลาการทดสอบได้หากขนาดของเอฟเฟกต์ใหญ่กว่าเอฟเฟกต์ที่ตรวจพบขั้นต่ำ (MDE) มาก

ตามปกติแล้ว ในฐานะมนุษย์ เราต้องการดูข้อมูลและเปิดตัวคุณลักษณะที่ช่วยให้ฐานลูกค้าของเราโดยเร็วที่สุด บ่อยครั้ง PM จะถามนักวิทยาศาสตร์ข้อมูลว่าการทดลองมีการดำเนินการอย่างไรหลังจากเริ่มการทดลองไปสองสามวันหลังจากเริ่มการทดลอง ด้วยการทดสอบขอบฟ้าแบบตายตัว นักวิทยาศาสตร์ข้อมูลไม่สามารถพูดอะไรในเชิงสถิติ (ช่วงความเชื่อมั่นหรือค่า p) เกี่ยวกับการทดลอง และสามารถบอกได้เพียงว่านี่คือจำนวนผู้ใช้ที่เปิดเผย และนี่คือค่าเฉลี่ยการรักษาและค่าเฉลี่ยการควบคุม ด้วยการทดสอบตามลำดับ นักวิทยาศาสตร์ข้อมูลสามารถให้ช่วงความเชื่อมั่นที่ถูกต้องและค่า p แก่ PM ได้ตลอดเวลาระหว่างการทดลอง

ในแดชบอร์ดการทดสอบบางรายการ ปริมาณทางสถิติ (ช่วงความเชื่อมั่นและค่า p) จะไม่ถูกซ่อนจากผู้ใช้แม้สำหรับการทดสอบขอบฟ้าคงที่ บ่อยครั้งที่นักวิทยาศาสตร์ด้านข้อมูลถูกถามว่าทำไมเราจึงไม่สามารถเปิดตัวตัวแปรที่ชนะได้ เนื่องจากแดชบอร์ด "เป็นสีเขียวทั้งหมด" จากนั้น Data Scientist ต้องอธิบายว่าการทดลองนั้นยังไม่ถึงขนาดกลุ่มตัวอย่างที่ต้องการ และถ้าการทดลองนี้เกิดขึ้นจริง อาจส่งผลเสียต่อผู้ใช้ได้ จากนั้น PM ตั้งคำถามว่าเหตุใดเพื่อนร่วมงานจึงเปิดตัวการทดสอบก่อนที่จะถึงขนาดกลุ่มตัวอย่างที่ต้องการ สิ่งนี้ทำให้เกิดความไม่สอดคล้องกันมากมาย และผู้คนสับสนเกี่ยวกับการทดลองที่ไม่ได้เปิดตัว ด้วยการทดสอบตามลำดับ นี่ไม่ใช่คำถามที่นักวิทยาศาสตร์ข้อมูลต้องตอบอีกต่อไป ในกรณีเส้นขอบฟ้าคงที่ Amplitude จะแสดงเฉพาะการรับแสงสะสม ค่าเฉลี่ยการรักษา และค่าเฉลี่ยการควบคุมเพื่อช่วยแก้ปัญหานี้ เมื่อถึงขนาดตัวอย่างที่ต้องการแล้ว Amplitude จะแสดงผลทางสถิติ ซึ่งจะช่วยควบคุมอัตราการบวกลวงโดยป้องกันการแอบดู

ไม่ต้องใช้เครื่องคำนวณขนาดตัวอย่าง

ข้อดีอีกประการของการทดสอบตามลำดับคือ คุณไม่จำเป็นต้องใช้เครื่องคำนวณขนาดตัวอย่าง ซึ่งคุณควรใช้สำหรับการทดสอบขอบฟ้าคงที่ บ่อยครั้ง คนที่ไม่ใช้เทคนิคมักมีปัญหาในการใช้เครื่องคำนวณขนาดตัวอย่าง และไม่รู้ว่าอินพุตทั้งหมดหมายความว่าอย่างไร หรือจะคำนวณตัวเลขที่ต้องป้อนอย่างไร ตัวอย่างเช่น การรู้ค่าเบี่ยงเบนมาตรฐานของเมตริกไม่ใช่สิ่งที่คนส่วนใหญ่รู้ จากด้านบนของหัวของพวกเขา นอกจากนี้ คุณประสบปัญหาหากคุณไม่ได้ป้อนตัวเลขที่ถูกต้องในเครื่องคำนวณขนาดตัวอย่าง ตัวอย่างเช่น คุณป้อนอัตรา Conversion พื้นฐานที่ 5% แต่อัตรา Conversion พื้นฐานที่แท้จริงคือ 10% คุณได้รับอนุญาตให้คำนวณขนาดตัวอย่างที่คุณต้องการใหม่ในระหว่างการทดสอบหรือไม่ คุณต้องเริ่มการทดสอบใหม่หรือไม่ วิธีหนึ่งที่แอมพลิจูดบรรเทาปัญหานี้ได้คือการเติมข้อมูลเครื่องคำนวณขนาดตัวอย่างล่วงหน้าด้วยค่าเริ่มต้นของอุตสาหกรรมมาตรฐาน (ระดับความเชื่อมั่น 95% และกำลัง 80%) และคำนวณค่าเฉลี่ยการควบคุมและค่าเบี่ยงเบนมาตรฐาน (หากจำเป็น) ในช่วง 7 วันที่ผ่านมา ในเครื่องคำนวณขนาดตัวอย่าง จะมีฟิลด์ที่เรียกว่า "กำลัง" (1- อัตราลบเท็จ) ด้วยการทดสอบตามลำดับ ฟิลด์นี้จะถูกแทนที่ด้วย "จำนวนวันที่คุณต้องการทำการทดสอบ" ตัวเลขนี้เป็นตัวเลขที่ตีความได้มากกว่าและเป็นตัวเลขง่ายๆ ที่ผู้คนจะคิดได้

พลัง 1 การทดสอบ

ข้อดีอีกประการหนึ่งคือการทดสอบตามลำดับคือการทดสอบที่มีอำนาจ 1 ในแง่ที่ไม่ใช่ด้านเทคนิค หมายความว่าหากมีความแตกต่างที่แท้จริงที่ไม่ได้เกิดขึ้นโดยบังเอิญระหว่างค่าเฉลี่ยการรักษาและค่าเฉลี่ยการควบคุม การทดสอบก็จะพบได้ในที่สุด (กล่าวคือ กลายเป็นนัยสำคัญทางสถิติ) แทนที่จะบอกเจ้านายของคุณว่าการทดสอบยังไม่สามารถสรุปผลได้ คุณสามารถบอกได้ว่าเราสามารถรอนานกว่านี้เพื่อดูว่าเราได้ผลลัพธ์ที่มีนัยสำคัญทางสถิติหรือไม่

เมื่อพิจารณาถึงข้อได้เปรียบประการแรก เราแยกแยะสิ่งที่สามารถเกิดขึ้นได้ในการทดสอบที่มีความสัมพันธ์ระหว่างขนาดเอฟเฟกต์จริงและเอฟเฟกต์ที่ตรวจพบขั้นต่ำ (MDE) สามกรณีคือเมื่อคุณประเมิน MDE ต่ำไป ประเมิน MDE อย่างแม่นยำ หรือประเมินค่า MDE สูงเกินไป

	การทดสอบขอบฟ้าคงที่	การทดสอบตามลำดับ	ไหนดีกว่ากัน?
ประเมิน MDE ต่ำไป (เช่น เลือก 1 เป็น MDE แต่ 2 คือขนาดเอฟเฟกต์)	ทำการทดสอบนานเกินความจำเป็น มีพลังมากกว่าที่คุณต้องการ	หยุดการทดสอบก่อน	การทดสอบตามลำดับ
ประมาณการ MDE อย่างแม่นยำ (เช่น เลือก 1 เป็น MDE ก่อนการทดสอบ และ 1 คือขนาดเอฟเฟกต์)	รับช่วงความมั่นใจที่น้อยลง รับพลังที่แน่นอนที่คุณต้องการก่อนการทดลอง	ช่วงความมั่นใจที่ใหญ่ขึ้น ต้องรอนานขึ้นจึงจะได้รับนัยสำคัญทางสถิติ (เช่น ทำการทดสอบนานขึ้น)	แก้ไขแล้ว แต่จำไว้ว่ายังมีโอกาสที่คุณจะได้รับผลลบลวงจากการทดสอบขอบฟ้าคงที่
ประเมินค่า MDE สูงเกินไป (เช่น เลือก 1 เป็น MDE แต่ .5 คือขนาดเอฟเฟกต์)	การทดสอบที่ไร้กำลัง มีแนวโน้มที่จะได้รับการทดสอบที่สรุปไม่ได้และต้องหยุดการทดสอบ	มีแนวโน้มที่จะได้รับการทดสอบที่สรุปไม่ได้ แต่คุณสามารถให้การทดสอบทำงานต่อไปได้นานขึ้นเพื่อให้ได้ผลลัพธ์ที่มีนัยสำคัญทางสถิติ คำถามคือ คุณสนใจไหมว่าคุณจะได้ผลลัพธ์ที่มีนัยสำคัญทางสถิติเพราะลิฟต์มีขนาดเล็กมาก คุ้มกับความพยายามทางวิศวกรรมในการเปิดตัวหรือไม่?	การทดสอบตามลำดับแต่เพียงเล็กน้อยเท่านั้น

โดยทั่วไปแล้ว คุณไม่ทราบขนาดเอฟเฟกต์ (หากคุณทราบ จะไม่มีประโยชน์ในการทดลอง) ดังนั้น คุณจึงไม่ทราบว่าคุณจะอยู่ใน 3 กรณีใด คุณต้องลองประเมินว่าโอกาสที่คุณจะอยู่ในแต่ละกรณีทั้ง 3 กรณีนี้เป็นอย่างไร

กฎพื้นฐาน : ในที่นี้ เราจะพิจารณากฎเพื่อสรุปตารางข้างต้น หากคุณมีประสบการณ์กับการทดสอบขอบฟ้าตายตัว แสดงว่าคุณพอใจกับแนวคิดเรื่องเอฟเฟกต์ขั้นต่ำที่ตรวจจับได้ เราขยายแนวคิดนี้เพื่อกำหนดผลสูงสุดที่ตรวจจับได้ ซึ่งเป็นขนาดเอฟเฟกต์สูงสุดที่คุณคิดว่าอาจเกิดขึ้นจากการทดสอบในทางทฤษฎี ในการเลือกเอฟเฟกต์ที่ตรวจจับได้สูงสุด คุณสามารถใช้ขนาดเอฟเฟกต์สูงสุดของการทดลองก่อนหน้า หรือหากคุณมีความรู้เกี่ยวกับโดเมน คุณสามารถใช้ค่านั้นเพื่อเลือกค่าที่เหมาะสมได้ ตัวอย่างเช่น หากคุณกำลังเปลี่ยนสีปุ่ม คุณรู้ว่าอัตราการคลิกผ่านจะไม่เพิ่มขึ้นมากกว่า 20% โดยพื้นฐานแล้ว เอฟเฟกต์ที่ตรวจจับได้ขั้นต่ำจะทำให้คุณมีสถานการณ์กรณีที่แย่ที่สุด และเอฟเฟกต์ที่ตรวจจับได้สูงสุดจะให้สถานการณ์กรณีที่ดีที่สุดแก่คุณ จากนั้น ใช้เครื่องคำนวณขนาดตัวอย่างเส้นขอบฟ้าคงที่ และเสียบทั้งเอฟเฟกต์ขั้นต่ำที่ตรวจจับได้และเอฟเฟกต์สูงสุดที่ตรวจจับได้ หาผลต่างในจำนวนตัวอย่างที่ต้องการระหว่างทั้งสองสถานการณ์ คุณโอเคกับการรอเวลาพิเศษระหว่างสองค่านี้หรือไม่? บางทีคุณอาจต้องรออีก 3 วัน—จากนั้นก็อาจจะดีกว่าถ้าใช้การทดสอบขอบฟ้าคงที่เพราะด้วยการทดสอบแบบต่อเนื่อง คุณจะประหยัดเวลาได้มากที่สุดเพียง 3 วันเท่านั้น บางทีคุณอาจมีโอกาสประหยัดเวลาได้ 10 วัน จากนั้นคุณอาจต้องการใช้การทดสอบตามลำดับ

สรุปข้อดีของการทดสอบตามลำดับคือ:

มีสิ่งกีดขวางที่ต่ำกว่าในการไม่ต้องใช้เครื่องคำนวณขนาดตัวอย่างและไม่ต้องรู้เกี่ยวกับการแอบดู
อนุญาตให้แอบดู
การทดสอบเสร็จสิ้นเร็วขึ้นในบางกรณี

ข้อดีการทดสอบ T-test ขอบฟ้าคงที่

ตอนนี้ เราจะเปลี่ยนเกียร์และดูกรณีที่การทดสอบ T มีประโยชน์ ด้วย t-test คุณต้องถามคำถาม: ถ้าการทดสอบตามลำดับบอกให้ฉันหยุดก่อน ฉันจะหยุดเร็วจริงหรือไม่

บริษัทใหญ่

โดยทั่วไปแล้ว หากคุณเป็นบริษัทใหญ่ คุณได้ทำการทดลองมากมายและอาจรู้ว่าผลที่ตรวจพบขั้นต่ำที่ดีหรือสมเหตุสมผลคืออะไร นอกจากนี้ คุณอาจกำลังปรับปรุง 1% หรือ 2% ดังนั้นจึงไม่น่าเป็นไปได้ที่ขนาดเอฟเฟกต์ที่แท้จริงจะห่างไกลจากเอฟเฟกต์ขั้นต่ำที่ตรวจพบได้ กล่าวอีกนัยหนึ่ง ความแตกต่างระหว่างเอฟเฟกต์ที่ตรวจจับได้สูงสุดและเอฟเฟกต์ที่ตรวจจับได้ต่ำสุดนั้นเล็ก ดังนั้น คุณต้องการใช้การทดสอบขอบฟ้าคงที่

มีองค์กรด้านวิทยาศาสตร์ข้อมูลอยู่แล้ว

การทดสอบ T-Test ขอบฟ้าคงที่เป็นวิธีการแบบเรียนมาตรฐาน Stats 101 นักวิทยาศาสตร์ข้อมูลส่วนใหญ่ควรคุ้นเคยกับวิธีการนี้ ดังนั้นจึงมีแรงเสียดทานน้อยกว่าที่จะใช้วิธีนี้

ตัวอย่างขนาดเล็ก

หากคุณมีขนาดตัวอย่างที่เล็กมาก ก็ไม่แน่ชัดเสมอไปว่าวิธีการใดดีกว่ากัน หากคุณกำลังทดสอบการเปลี่ยนแปลงที่สำคัญ (ซึ่งคุณควรทำหากบริษัท/ฐานลูกค้าของคุณมีขนาดเล็ก) ลำดับจะเป็นประโยชน์เนื่องจากความแตกต่างระหว่างผลที่ตรวจพบสูงสุดและผลที่ตรวจพบต่ำสุดมีขนาดใหญ่ ในทางกลับกัน คุณต้องการความแม่นยำมากและต้องการช่วงความเชื่อมั่นที่น้อยลงเนื่องจากกลุ่มตัวอย่างมีขนาดเล็ก ดังนั้นการทดสอบขอบฟ้าคงที่จึงเป็นสิ่งที่ดีในกรณีนี้ หากคุณมีข้อมูลเพียงเล็กน้อย คุณต้องการตั้งคำถามว่าคุณจะไปถึงระดับที่มีนัยสำคัญทางสถิติในระยะเวลาที่เหมาะสมหรือไม่ หากคำตอบคือไม่ การทดสอบ A/B อาจไม่ใช่วิธีการที่ถูกต้องในกรณีนี้ อาจเป็นการใช้เวลาของคุณดีขึ้นในการศึกษาผู้ใช้หรือทำการเปลี่ยนแปลงที่ลูกค้าร้องขอและถือว่าพวกเขาจะได้ประโยชน์เพิ่มขึ้น

ฤดูกาล

ตามฤดูกาล เราหมายถึงการเปลี่ยนแปลงในช่วงเวลาปกติ ฤดูกาลไม่จำเป็นต้องยาวนานเหมือนหนึ่งเดือน อาจเป็นระดับวันในสัปดาห์ก็ได้ ผู้ใช้ที่ใช้ผลิตภัณฑ์ในช่วงสุดสัปดาห์อาจแตกต่างจากผู้ที่ใช้ผลิตภัณฑ์ในวันธรรมดา ทั้งนี้ขึ้นอยู่กับผลิตภัณฑ์ ตัวอย่างเช่น สำหรับเครื่องสร้างแผนที่ ซึ่งในวันธรรมดา ผู้คนอาจค้นหาที่อยู่มากกว่า เทียบกับในช่วงสุดสัปดาห์ ผู้คนอาจค้นหาร้านอาหารมากขึ้น เป็นไปได้ว่าผู้ใช้ที่รับการรักษาในวันธรรมดาจะมีการเพิ่มในเชิงบวก และผู้ใช้ที่ได้รับการรักษาในช่วงสุดสัปดาห์จะมีการเพิ่มขึ้นในเชิงลบหรือในทางกลับกัน

คำถามที่คุณต้องถามคือ ถ้า T-test บอกว่าให้ทำงาน 1 สัปดาห์ และการทดสอบตามลำดับมีนัยสำคัญทางสถิติหลังจาก 4 วัน คุณจะหยุดที่ 4 วันจริงหรือ ในที่นี้ จะดีกว่าถ้าคุณทำการทดสอบ T-test หากคุณเชื่อว่ามีผลวันในสัปดาห์ หากคุณหยุดหลังจาก 4 วัน แสดงว่าคุณกำลังตั้งสมมติฐานว่าวันที่คุณได้รับใน 4 วันดังกล่าวเป็นตัวแทนของข้อมูลที่คุณจะเห็นหากคุณทำการทดสอบเป็นเวลาหนึ่งหรือสองสัปดาห์

โดยทั่วไป คุณต้องการทำการทดสอบสำหรับรอบธุรกิจเป็นจำนวนเต็ม หากไม่เป็นเช่นนั้น คุณอาจมีน้ำหนักเกินในบางวัน ตัวอย่างเช่น หากคุณเริ่มการทดสอบในวันจันทร์และเรียกใช้เป็นเวลา 10 วัน แสดงว่าคุณให้ข้อมูลในวันจันทร์ที่มีน้ำหนัก 2/10 แต่ให้น้ำหนัก 1/10 สำหรับข้อมูลในวันอาทิตย์ เมื่อคุณทำการทดสอบนานขึ้น ผลกระทบของวันในสัปดาห์จะลดลง นี่เป็นหนึ่งในเหตุผลที่คุณอาจเห็นกฎทั่วไปของบริษัทคุณในการทำการทดสอบเป็นเวลา 2 สัปดาห์

สกรีนช็อตของแผนภูมิที่แสดงรูปแบบตามฤดูกาลในข้อมูล — นี่คือตัวอย่างแผนภูมิที่มีฤดูกาล

การเรียนเมตริกระยะยาว

บางครั้งคุณอาจสนใจเมตริกระยะยาว เช่น การรักษาผู้ใช้ไว้ 30 วันหรือรายได้ 60 วัน เมตริกเหล่านี้บางครั้งเกิดขึ้นเมื่อคุณกำลังศึกษาการสมัครรับข้อมูลรายเดือนและให้การทดลองใช้หรือส่วนลดฟรี สิ่งหนึ่งที่ต้องคิดคือคุณจะได้รับกำไรมากแค่ไหนจากการหยุดก่อนกำหนด? ตัวอย่างเช่น หากคุณกำลังศึกษาการเก็บรักษาข้อมูล 30 วัน คุณต้องรอ 30 วันจึงจะได้รับข้อมูล 1 วัน ด้วยเหตุนี้ การทดสอบประเภทนี้จึงมักใช้เวลาสองสามเดือน หากคุณสามารถยุติการทดสอบก่อนกำหนดได้สองสามวัน นั่นไม่ใช่ชัยชนะครั้งใหญ่ นอกจากนี้ เมื่อคุณเลือกเมตริกระยะยาว คุณอาจสนใจทั้งการรักษาผู้ใช้ 30 วันและการรักษาผู้ใช้ 60 วัน เพราะหากคุณเพิ่มการคงผู้ใช้ไว้ 30 วันแต่ลดการรักษาผู้ใช้ 60 วัน นั่นอาจไม่ประสบความสำเร็จ คุณสามารถเลือกการเก็บรักษา 30 วันแทน 60 วัน เพื่อให้คุณสามารถทำซ้ำได้เร็วขึ้นในการทดสอบของคุณ วิธีหนึ่งที่คุณสามารถใช้ได้คือการทดสอบนัยสำคัญทางสถิติสำหรับการรักษาผู้ใช้ 30 วัน แล้วตรวจสอบทิศทางสำหรับการคงผู้ใช้ไว้ 60 วัน

ด้วยตัวชี้วัดระยะยาว คุณไม่สามารถหยุดแต่เนิ่นๆ เพราะคุณต้องรอเพื่อสังเกตตัวชี้วัด การทดสอบตามลำดับโดยทั่วไปจะได้ผลดีกว่าเมื่อคุณได้รับการตอบกลับทันทีหลังจากปฏิบัติต่อผู้ใช้

มีสองวิธีที่คุณสามารถเรียกใช้การทดสอบด้วยเมตริกระยะยาว:

ไปที่ขนาดตัวอย่างที่คุณต้องการแล้วปิดการทดสอบ รอจนกว่าผู้ใช้ทั้งหมดจะอยู่ในการทดสอบเป็นเวลา 30 วัน
ปล่อยให้การทดสอบทำงานจนกว่าคุณจะได้ขนาดตัวอย่างที่คุณต้องการสำหรับผู้ใช้ที่อยู่ในการทดสอบเป็นเวลา 30 วัน

โดยทั่วไป คุณไม่ต้องการทำตัวเลือก #1 หากคุณกำลังทำการทดสอบตามลำดับ เนื่องจากจุดรวมของการทดสอบตามลำดับคือคุณไม่ทราบว่าคุณต้องการขนาดตัวอย่างเท่าใด คุณอาจพิจารณาทำตัวเลือก #1 หากคุณต้องการอนุรักษ์นิยมและไม่เปิดเผยผู้ใช้จำนวนมากเกินไปในการทดลองของคุณ หากคุณเชื่อว่าการรักษาอาจไม่เป็นผลดี

สิ่งที่ควรพิจารณาอีกอย่างหนึ่งคือจำนวนครั้งที่คุณปฏิบัติต่อผู้ใช้ หากคุณปฏิบัติต่อผู้ใช้เพียงสองสามครั้ง คุณต้องคิดว่าคุณจะเห็นการเพิ่มขึ้นอย่างมากจากความแตกต่างเพียงเล็กน้อยระหว่างการรักษาและการควบคุมหรือไม่ สิ่งนี้นำไปสู่ขนาดเอฟเฟกต์ที่เล็กลง

เอฟเฟกต์แปลกใหม่

เอฟเฟกต์ที่แปลกใหม่คือเมื่อคุณให้คุณสมบัติใหม่แก่ผู้ใช้และพวกเขาโต้ตอบกับมันมาก แต่อาจหยุดโต้ตอบกับมัน ตัวอย่างเช่น คุณมีปุ่มขนาดใหญ่และมีคนคลิกมากในครั้งแรกที่เห็น แต่หยุดคลิกในภายหลัง เมตริกไม่จำเป็นต้องเพิ่มขึ้นแล้วลดลงเสมอไป—สามารถไปในทิศทางอื่นได้เช่นกัน ตัวอย่างเช่น ผู้ใช้ไม่ชอบการเปลี่ยนแปลงและไม่ได้โต้ตอบกับคุณลักษณะนี้ในตอนแรก แต่หลังจากนั้นครู่หนึ่งจะเริ่มโต้ตอบกับคุณลักษณะนี้และเห็นประโยชน์ของคุณลักษณะดังกล่าว วิธีแก้ปัญหาสำหรับเอฟเฟกต์แปลกใหม่คือทำการทดลองให้นานขึ้นและอาจลบข้อมูลในสองสามวันแรกที่ผู้ใช้สัมผัสกับการทดลอง ซึ่งคล้ายกับการใช้เมตริกระยะยาว

ผลการทดลอง

ในปีนี้ เราได้เปิดตัวผลการทดสอบ ซึ่งเป็นความสามารถใหม่ในการทดสอบที่ให้คุณอัปโหลดข้อมูล A/B ไปยัง Amplitude ได้โดยตรง และเริ่มวิเคราะห์การทดสอบของคุณ คุณสามารถอัปโหลดข้อมูลขณะที่การทดสอบของคุณกำลังทำงาน และวิเคราะห์ข้อมูลด้วยการทดสอบตามลำดับ หรือกรณีการใช้งานอื่นคือรอให้การทดสอบเสร็จสิ้น จากนั้นอัปโหลดข้อมูลของคุณไปที่ Amplitude เพื่อวิเคราะห์ หากคุณทำเช่นนี้ ไม่ควรใช้การทดสอบตามลำดับเนื่องจากการทดสอบสิ้นสุดลงแล้ว และไม่มีการหยุดแต่เนิ่นๆ ที่คุณสามารถทำได้ ดังนั้นคุณควรใช้การทดสอบ T

ไม่ใช่ทุกการทดสอบที่จะมีปัญหาที่ไม่ได้มาตรฐานเหล่านี้ คำถามที่ควรพิจารณาคือ หากคุณทำการทดสอบที่ใช้เวลานานอยู่แล้ว คุณจะประหยัดเวลาได้มากจริง ๆ หรือไม่โดยการสิ้นสุดการทดสอบก่อนกำหนด การวิเคราะห์ประเภทใดที่คุณไม่สามารถทำได้เพราะคุณหยุดก่อนกำหนด และหากคุณหยุด ในระยะแรก คุณกำลังตั้งสมมติฐานประเภทใด และคุณโอเคกับการตั้งสมมติฐานเหล่านั้นหรือไม่ ไม่ใช่ว่าทุกการทดสอบจะเหมือนกัน และผู้เชี่ยวชาญทางธุรกิจภายในบริษัทของคุณสามารถช่วยตัดสินว่าการทดสอบใดเหมาะสมและวิธีตีความผลลัพธ์ได้ดีที่สุด

ไม่แน่ใจว่าจะเริ่มต้นที่ไหน? ขอตัวอย่างแล้วเราจะแนะนำตัวเลือกที่เหมาะกับธุรกิจของคุณที่สุด!