الاختبار المتسلسل مقابل اختبار الأفق الثابت: متى تستخدم كل منهما؟
نشرت: 2022-06-10يساعد التجريب فرق المنتج على اتخاذ قرارات أفضل بناءً على السببية بدلاً من الارتباطات . يمكنك إصدار عبارات مثل "أدى تغيير < هذا الجزء من المنتج> إلى زيادة التحويل بنسبة 5٪". بدون التجريب ، فإن الأسلوب الأكثر شيوعًا هو إجراء تغييرات بناءً على معرفة المجال أو تحديد طلبات العملاء. الآن ، تستخدم الشركات القائمة على البيانات التجريب لجعل اتخاذ القرار أكثر موضوعية. أحد المكونات الكبيرة للسببية هو التحليل الإحصائي لبيانات التجربة.
في Amplitude ، أصدرنا مؤخرًا اختبار T للأفق الثابت بالإضافة إلى الاختبار المتسلسل ، والذي أجريناه منذ بداية التجربة. نتخيل العديد من العملاء يسألون "كيف أعرف الاختبار الذي يجب اختياره؟"
في هذا المنشور الفني ، سنشرح إيجابيات وسلبيات الاختبار التسلسلي واختبار T للأفق الثابت.
ملاحظة: خلال هذا المنشور ، عندما نقول اختبار T ، فإننا نشير إلى اختبار T للأفق الثابت.
هناك إيجابيات وسلبيات لكل نهج ، وليست الحالة التي تكون فيها إحدى الطرق دائمًا أفضل من الأخرى.
مزايا الاختبار المتسلسل
أولاً ، سوف نستكشف مزايا الاختبار التسلسلي.
اختلاس النظر عدة مرات ← إنهاء التجربة في وقت سابق
تتمثل ميزة الاختبار التسلسلي في أنه يمكنك إلقاء نظرة خاطفة عدة مرات. يسمح لك الإصدار المحدد من الاختبار المتسلسل الذي نستخدمه في Amplitude ، والذي يُسمى الخليط اختبار نسبة الاحتمالية المتسلسلة (mSPRT) ، بإلقاء نظرة خاطفة على عدد المرات التي تريدها. أيضًا ، ليس عليك أن تقرر قبل بدء الاختبار عدد المرات التي ستلقي فيها نظرة خاطفة كما يجب أن تفعل باختبار متسلسل مجمع. والنتيجة هي أنه يمكننا القيام بما يريد جميع مديري المنتجات (PM) القيام به ، وهو "إجراء اختبار حتى يصبح ذا دلالة إحصائية ثم التوقف." إنه مشابه لنهج "اضبطه وانساه" مع أموال التاريخ المستهدف. في إطار الأفق الثابت ، لا ينبغي القيام بذلك لأنك ستزيد من المعدل الإيجابي الخاطئ. من خلال النظرة الخاطفة في كثير من الأحيان ، يمكننا تقليل مدة التجربة إذا كان حجم التأثير أكبر بكثير من الحد الأدنى للتأثير القابل للاكتشاف (MDE).
بطبيعة الحال ، كبشر ، نريد أن نستمر في إلقاء نظرة خاطفة على البيانات وطرح الميزات التي تساعد قاعدة عملائنا في أسرع وقت ممكن. في كثير من الأحيان ، يسأل رئيس الوزراء عالم البيانات كيف تجري التجربة بعد يومين من بدء التجربة. مع اختبار الأفق الثابت ، لا يمكن لعالم البيانات أن يقول أي شيء إحصائيًا (فترات الثقة أو قيم p) حول التجربة ويمكنه فقط أن يقول هذا هو عدد المستخدمين المعرضين وهذا هو وسيلة العلاج ووسيلة التحكم. من خلال الاختبار المتسلسل ، يمكن لعالم البيانات دائمًا إعطاء فترات ثقة صالحة وقيم p إلى PM في أي وقت أثناء التجربة.
في بعض لوحات معلومات التجريب ، لا يتم إخفاء الكميات الإحصائية (فترات الثقة وقيم p) عن المستخدمين حتى بالنسبة لاختبار الأفق الثابت. في كثير من الأحيان ، يُسأل علماء البيانات عن سبب عدم قدرتنا على طرح المتغير الفائز نظرًا لأن لوحة القيادة "خضراء بالكامل". بعد ذلك ، يتعين على عالم البيانات أن يشرح أن التجربة لم تصل إلى حجم العينة المطلوب وأنه إذا تم تنفيذ التجربة ، فقد يكون لها تأثير سلبي على المستخدمين. بعد ذلك ، يتساءل رئيس الوزراء عن سبب قيام زميلهم بإجراء تجربة قبل أن تصل إلى حجم العينة المطلوب. ينتج عن هذا الكثير من عدم الاتساق والارتباك بشأن عدم طرح تجاربهم. مع الاختبار المتسلسل ، لم يعد هذا سؤالًا يتعين على عالم البيانات الإجابة عليه. في حالة الأفق الثابت ، يُظهر Amplitude فقط التعرضات التراكمية ووسيلة العلاج ووسيلة التحكم للمساعدة في حل هذه المشكلة. بمجرد الوصول إلى حجم العينة المطلوب ، سيعرض السعة النتائج الإحصائية. يساعد هذا في التحكم في المعدل الإيجابي الكاذب عن طريق منع اختلاس النظر.
لا تحتاج إلى استخدام آلة حاسبة لحجم العينة
ميزة أخرى للاختبار المتسلسل هي أنك لست مضطرًا إلى استخدام آلة حاسبة لحجم العينة ، والتي يجب عليك استخدامها لاختبارات الأفق الثابت. في كثير من الأحيان ، يواجه الأشخاص غير التقنيين صعوبة في استخدام آلة حاسبة لحجم العينة ولا يعرفون ما تعنيه جميع المدخلات أو كيفية حساب الأرقام التي يحتاجون إلى إدخالها. على سبيل المثال ، معرفة الانحراف المعياري للمقياس ليس شيئًا يعرفه معظم الناس من على رؤوسهم. بالإضافة إلى ذلك ، ستواجه مشكلات إذا لم تقم بإدخال الأرقام الصحيحة في حاسبة حجم العينة. على سبيل المثال ، قمت بإدخال معدل تحويل أساسي قدره 5٪ ، لكن معدل التحويل الأساسي الحقيقي كان 10٪. هل يُسمح لك بإعادة حساب حجم العينة الذي تحتاجه في منتصف الاختبار؟ هل تحتاج إلى إعادة تشغيل تجربتك؟ تتمثل إحدى الطرق التي يخفف بها السعة من هذه المشكلة في ملء حاسبة حجم العينة مسبقًا بالإعدادات الافتراضية للصناعة القياسية (95٪ مستوى ثقة و 80٪ طاقة) وحساب متوسط التحكم والانحراف المعياري (إذا لزم الأمر) خلال آخر 7 أيام. في حاسبات حجم العينة ، يوجد مجال يسمى "القوة" (1- معدل سلبي خاطئ). من خلال الاختبار المتسلسل ، يتم استبدال هذا الحقل أساسًا بـ "عدد الأيام التي ترغب في إجراء الاختبار خلالها". هذا رقم أكثر قابلية للتفسير ورقم يسهل على الناس التوصل إليه.
اختبار القوة 1
ميزة أخرى هي أن الاختبار التسلسلي هو اختبار له القوة 1. في المصطلحات غير الفنية ، هذا يعني أنه إذا كان هناك فرق حقيقي لم يتم إنشاؤه بالصدفة بين متوسط العلاج ومتوسط التحكم ، فسيجده الاختبار في النهاية (أي. ، تصبح ذات دلالة إحصائية). بدلاً من إخبار رئيسك بأن الاختبار كان غير حاسم ، يمكنك القول إنه يمكننا الانتظار لفترة أطول لمعرفة ما إذا كنا سنحصل على نتيجة ذات دلالة إحصائية.
بالنظر إلى الميزة الأولى ، نكتشف ما يمكن أن يحدث في تجربة بالعلاقة بين حجم التأثير الحقيقي والحد الأدنى من التأثير القابل للاكتشاف (MDE). الحالات الثلاث هي عندما تقلل من تقدير MDE ، أو تقدر MDE بالضبط ، أو تبالغ في تقدير MDE.
| اختبار الأفق الثابت | الاختبار المتسلسل | ايهما افضل؟ | |
| قلل من تقدير MDE (على سبيل المثال ، اختر 1 باعتباره MDE ولكن 2 يمثل حجم التأثير) | قم بإجراء الاختبار لمدة أطول من اللازم. لديك قوة أكبر مما تريد. | أوقف الاختبار مبكرًا. | الاختبار المتسلسل. |
| تقدير MDE بالضبط (على سبيل المثال ، اختر 1 باعتباره MDE قبل التجربة و 1 هو حجم التأثير) | احصل على فاصل ثقة أصغر. احصل على القوة الدقيقة التي تريدها قبل التجربة. | فاصل ثقة أكبر. يجب أن تنتظر لفترة أطول للحصول على دلالة إحصائية (على سبيل المثال ، قم بإجراء الاختبار لفترة أطول). | تم الإصلاح ، ولكن تذكر أنه لا تزال هناك فرصة للحصول على نتيجة سلبية زائفة باختبار أفق ثابت. |
| المبالغة في تقدير MDE (على سبيل المثال ، اختر 1 كـ MDE ولكن .5 هو حجم التأثير) | اختبار القوة الضعيفة. من المحتمل أن تحصل على اختبار غير حاسم وسيتعين عليك إيقاف الاختبار. | من المحتمل أن تحصل على اختبار غير حاسم. ولكن يمكنك الاستمرار في تشغيل الاختبار لفترة أطول للحصول على نتيجة ذات دلالة إحصائية. السؤال إذن ، هل تهتم إذا حصلت على نتيجة ذات دلالة إحصائية لأن المصعد صغير جدًا؟ هل يستحق الجهد الهندسي لطرحه؟ | اختبار متسلسل ، ولكن بشكل طفيف فقط. |
بشكل عام ، أنت لا تعرف حجم التأثير (إذا كنت تعرف ذلك ، فلن يكون هناك فائدة من التجربة). وبالتالي ، فأنت لا تعرف أيًا من الحالات الثلاث ستكون فيها. فأنت تريد محاولة تقدير فرصتك في كل حالة من الحالات الثلاث.
القاعدة الأساسية : سننظر هنا في قاعدة لتلخيص الجدول أعلاه. إذا كانت لديك خبرة في اختبار الأفق الثابت ، فأنت مرتاح لمفهوم الحد الأدنى من التأثير القابل للاكتشاف. نقوم بتوسيع هذا المفهوم لتحديد أقصى تأثير يمكن اكتشافه ، وهو الحد الأقصى لحجم التأثير الذي تعتقد نظريًا أنه يمكن أن يحدث من التجربة. لاختيار أقصى تأثير يمكن اكتشافه ، يمكنك استخدام الحد الأقصى من أحجام تأثير التجارب السابقة ، أو إذا كان لديك معرفة بالمجال ، يمكنك استخدام ذلك لاختيار قيمة معقولة. على سبيل المثال ، إذا كنت تقوم بتغيير لون الزر ، فأنت تعلم أن نسبة النقر إلى الظهور لن تزيد بأكثر من 20٪. بشكل أساسي ، يمنحك الحد الأدنى من التأثير القابل للاكتشاف أسوأ سيناريو ، ويمنحك أقصى تأثير يمكن اكتشافه أفضل سيناريو. بعد ذلك ، استخدم حاسبة حجم عينة الأفق الثابت وقم بتوصيل كل من الحد الأدنى من التأثير القابل للاكتشاف وأقصى تأثير يمكن اكتشافه. خذ الفرق في عدد العينات المطلوبة بين كلتا الحالتين. هل أنت بخير مع انتظار الوقت الإضافي بين هاتين القيمتين؟ ربما تحتاج فقط إلى الانتظار لمدة 3 أيام أخرى - فربما يكون من الأفضل استخدام اختبار أفقي ثابت لأنه مع الاختبار المتسلسل يمكنك توفير 3 أيام فقط على الأكثر. ربما تكون لديك فرصة توفير 10 أيام ، فقد ترغب في استخدام الاختبار التسلسلي.
للتلخيص ، مزايا الاختبار التسلسلي هي:
- هناك عائق أقل للدخول من عدم الاضطرار إلى استخدام حاسبة حجم العينة وعدم الاضطرار إلى معرفة التطفل.
- يسمح بالطلاء الخاطف.
- تنتهي التجارب بشكل أسرع في بعض الحالات.
مزايا اختبار T- الأفق الثابت
الآن ، سنغير التروس وننظر في بعض الحالات التي يكون فيها اختبار T مفيدًا. مع اختبار t ، تحتاج إلى طرح السؤال التالي: إذا طلب مني الاختبار التسلسلي أن أتوقف مبكرًا ، فهل سأتوقف مبكرًا؟

شركة كبيرة
بشكل عام ، إذا كنت شركة كبيرة ، فقد أجريت الكثير من التجارب وربما تعرف ما هو الحد الأدنى المناسب أو المعقول من التأثير القابل للاكتشاف. أيضًا ، من المحتمل أنك تقوم بإجراء تحسينات بنسبة 1٪ أو 2٪ ، لذلك من غير المحتمل أن يكون حجم التأثير الحقيقي بعيدًا جدًا عن الحد الأدنى للتأثير القابل للاكتشاف. بمعنى آخر ، الفرق بين الحد الأقصى للتأثير القابل للاكتشاف والحد الأدنى من التأثير القابل للاكتشاف صغير. وبالتالي ، تفضل استخدام اختبار الأفق الثابت.
لديك بالفعل منظمة لعلوم البيانات
الأفق الثابت T-test هو منهجية كتاب Stats 101 القياسية. يجب أن يكون معظم علماء البيانات على دراية بهذه المنهجية ، لذلك سيكون هناك احتكاك أقل لاستخدام هذه الطريقة.
أحجام العينات الصغيرة
إذا كان لديك حجم عينة صغير حقًا ، فليس من الواضح دائمًا المنهجية الأفضل. إذا كنت تختبر تغييرات كبيرة (وهو ما يجب أن تقوم به إذا كانت شركتك / قاعدة عملائك صغيرة) ، فسيكون التسلسل مفيدًا لأن الفرق بين الحد الأقصى للتأثير القابل للاكتشاف والحد الأدنى من التأثير القابل للاكتشاف كبير. من ناحية أخرى ، تريد أن تكون دقيقًا جدًا وتريد فترات ثقة أصغر نظرًا لحجم العينة الصغير ، لذلك سيكون اختبار الأفق الثابت جيدًا في هذه الحالة. إذا كانت لديك بيانات صغيرة حقًا ، فأنت تريد أن تسأل عما إذا كنت ستصل إلى دلالة إحصائية في فترة زمنية معقولة. إذا كانت الإجابة بالنفي ، فقد لا يكون اختبار أ / ب هو المنهجية الصحيحة في هذه الحالة. قد يكون من الأفضل استخدام وقتك في إجراء دراسة على المستخدم أو إجراء تغييرات يطلبها العملاء وافترض أنه سيكون لديهم تأثير إيجابي.
الموسمية
حسب الموسمية ، فإننا نعني الاختلافات على فترات منتظمة. لا يجب أن تكون الموسمية على مدى فترة طويلة جدًا مثل الشهر. يمكن أن يكون حتى على مستوى يوم من الأسبوع. اعتمادًا على المنتج ، قد يختلف المستخدمون الذين يستخدمون المنتج في عطلة نهاية الأسبوع عن الأشخاص الذين يستخدمون المنتج في أيام الأسبوع. من الأمثلة على ذلك محرك الخرائط ، حيث قد يبحث الأشخاص في أيام الأسبوع بشكل أكبر عن العناوين مقارنة بعطلة نهاية الأسبوع ، حيث قد يبحث الأشخاص أكثر عن المطاعم. من الممكن أن يحصل المستخدمون الذين يتلقون العلاج في أيام الأسبوع على تحسن إيجابي وأن المستخدمين الذين يتلقون العلاج في عطلة نهاية الأسبوع لديهم تأثير سلبي أو العكس.
السؤال الذي يجب أن تطرحه هنا هو ما إذا كان اختبار T ينص على أنه يعمل لمدة أسبوع واحد ويصل الاختبار التسلسلي إلى دلالة إحصائية بعد 4 أيام ، فهل ستتوقف حقًا عند 4 أيام؟ سيكون من الأفضل هنا إجراء اختبار T إذا كنت تعتقد أن هناك تأثيرًا ليومًا من أيام الأسبوع. إذا توقفت بعد 4 أيام ، فأنت تفترض أن التاريخ الذي حصلت عليه في تلك الأيام الأربعة يمثل البيانات التي كنت ستراها إذا أجريت التجربة لمدة أسبوع أو أسبوعين.
بشكل عام ، تريد إجراء تجارب لعدد صحيح من دورات العمل. إذا لم تفعل ذلك ، فقد تعاني من زيادة الوزن في أيام معينة. على سبيل المثال ، إذا بدأت تجربة يوم الاثنين وقمت بتشغيلها لمدة 10 أيام ، فأنت تعطي بيانات يوم الاثنين بوزن 2/10 ، ولكن وزن 1/10 للبيانات يوم الأحد. أثناء تشغيل التجربة لفترة أطول ، يقل تأثير يوم من الأسبوع. هذا هو أحد الأسباب التي قد تجعلك ترى القاعدة العامة في شركتك لإجراء تجربة لمدة أسبوعين.

دراسة مقياس طويل المدى
قد تكون مهتمًا في بعض الأحيان بمقياس طويل الأجل مثل الاحتفاظ لمدة 30 يومًا أو عائد 60 يومًا. تظهر هذه المقاييس أحيانًا عند دراسة الاشتراكات الشهرية وإعطاء تجارب مجانية أو خصومات. شيء واحد يجب التفكير فيه هو مقدار الربح الذي تحصل عليه بالتوقف مبكرًا؟ على سبيل المثال ، إذا كنت تدرس الاحتفاظ لمدة 30 يومًا ، فأنت بحاجة إلى الانتظار 30 يومًا للحصول على يوم واحد من البيانات. لهذا السبب ، تستمر هذه الأنواع من التجارب عمومًا لمدة شهرين. إذا تمكنت من إنهاء تجربة قبل يومين ، فهذا ليس فوزًا كبيرًا. أيضًا ، عندما تختار مقياسًا طويل الأجل ، قد تكون مهتمًا بكل من الاحتفاظ لمدة 30 يومًا والاحتفاظ لمدة 60 يومًا لأنك إذا قمت بزيادة الاحتفاظ لمدة 30 يومًا ولكن قللت الاستبقاء لمدة 60 يومًا ، فربما لا يكون هذا نجاحًا. يمكنك اختيار الاحتفاظ لمدة 30 يومًا بدلاً من 60 يومًا حتى تتمكن من تكرار تجاربك بشكل أسرع. إحدى الطرق التي يمكنك استخدامها هي اختبار الأهمية الإحصائية للاحتفاظ لمدة 30 يومًا ثم التحقق من الاتجاه للاحتفاظ لمدة 60 يومًا.
مع المقاييس طويلة المدى ، لا يمكنك التوقف مبكرًا لأنك بحاجة إلى الانتظار لمراقبة المقياس. يعمل الاختبار المتسلسل بشكل أفضل بشكل عام عندما تحصل على رد فورًا بعد علاج المستخدم.
هناك طريقتان يمكنك من خلالهما إجراء تجاربك باستخدام المقاييس طويلة المدى:
- احصل على حجم العينة الذي تحتاجه ثم أوقف تشغيل التجربة. انتظر حتى ينتهي كل المستخدمين من التجربة لمدة 30 يومًا.
- دع التجربة تعمل حتى تحصل على حجم العينة الذي تحتاجه للمستخدمين الذين خاضوا التجربة لمدة 30 يومًا.
بشكل عام ، لا تريد إجراء الخيار رقم 1 إذا كنت تجري اختبارًا متسلسلًا لأن بيت القصيد من الاختبار المتسلسل هو أنك لا تعرف حجم العينة التي تحتاجها. يمكنك التفكير في تنفيذ الخيار رقم 1 إذا كنت تريد أن تكون متحفظًا ولا تعرض الكثير من المستخدمين لتجربتك إذا كنت تعتقد أن العلاج قد لا يكون إيجابيًا.
شيء آخر يجب التفكير فيه هو عدد المرات التي تعامل فيها المستخدم. إذا كنت تعالج مستخدمًا بضع مرات فقط ، فأنت بحاجة إلى التفكير فيما إذا كنت ستشهد حقًا زيادة كبيرة جدًا من خلال اختلافين فقط بين العلاج والتحكم. هذا يؤدي إلى أحجام تأثير أصغر.
تأثيرات الجدة
التأثير الجديد هو عندما تمنح المستخدمين ميزة جديدة ويتفاعلون معها كثيرًا ولكن بعد ذلك قد يتوقفون عن التفاعل معها. على سبيل المثال ، لديك زر كبير وينقر عليه الأشخاص كثيرًا في المرة الأولى التي يرون فيها ، لكن توقفوا عن النقر فوقه لاحقًا. ليس من الضروري دائمًا زيادة المقياس ثم تقليله - يمكن أن يسير في الاتجاه الآخر أيضًا. على سبيل المثال ، يكره المستخدمون التغيير ولا يتفاعلون مع الميزة في البداية ، ولكن بعد مرور بعض الوقت سيبدأون في التفاعل معها ويرون فائدتها. يتمثل حل تأثيرات الجدة في إجراء تجارب لفترة أطول وربما إزالة البيانات من الأيام القليلة الأولى التي يتعرض فيها المستخدمون للتجربة. هذا مشابه لاستخدام مقياس طويل المدى.
نتائج التجربة
أصدرنا هذا العام نتائج التجربة ، وهي قدرة جديدة ضمن التجربة تسمح لك بتحميل بيانات A / B مباشرة إلى Amplitude والبدء في تحليل تجربتك. يمكنك تحميل البيانات أثناء تشغيل تجربتك وتحليل البيانات باختبار تسلسلي. أو هناك حالة استخدام أخرى وهي انتظار انتهاء التجربة ، ثم تحميل بياناتك إلى Amplitude لتحليلها. إذا قمت بذلك ، فليس من المنطقي استخدام الاختبار التسلسلي نظرًا لأن التجربة قد انتهت بالفعل ولا يوجد توقف مبكر يمكنك القيام به ، لذلك يجب عليك استخدام اختبار T.
لن تحتوي كل تجربة على هذه المشكلات غير القياسية. الأسئلة التي يجب التفكير فيها هي ما إذا كنت ملتزمًا بالفعل بتجربة طويلة الأمد ، هل ستوفر حقًا الكثير من الوقت بإنهاء التجربة مبكرًا ، وما أنواع التحليلات التي لا يمكنك القيام بها لأنك توقفت مبكرًا وإذا توقفت في وقت مبكر ، ما أنواع الافتراضات التي تضعها وهل أنت بخير مع هذه الافتراضات. ليست كل تجربة هي نفسها ويمكن لخبراء الأعمال داخل شركتك المساعدة في تحديد الاختبار المناسب وأفضل طريقة لتفسير النتائج.
لست متأكدا من أين تبدأ؟ اطلب عرضًا توضيحيًا وسنرشدك إلى الخيارات التي تعمل بشكل أفضل لعملك!
