Test séquentiel vs test T à horizon fixe : quand utiliser chacun ?

Publié: 2022-06-10

L'expérimentation aide les équipes produit à prendre de meilleures décisions basées sur la causalité plutôt que sur les corrélations . Vous êtes en mesure de faire des déclarations telles que "la modification de < cette partie du produit> a entraîné une augmentation de la conversion de 5 %". Sans expérimentation, une approche plus courante consiste à apporter des modifications en fonction de la connaissance du domaine ou de sélectionner les demandes des clients. Aujourd'hui, les entreprises axées sur les données utilisent l'expérimentation pour rendre la prise de décision plus objective. Une grande composante de la causalité est une analyse statistique des données d'expérimentation.

Chez Amplitude, nous avons récemment publié un test T à horizon fixe en plus des tests séquentiels, que nous avons depuis le début d'Experiment. Nous envisageons plusieurs clients demandant "Comment puis-je savoir quel test choisir?"

Dans cet article technique, nous expliquerons les avantages et les inconvénients du test séquentiel et du test T à horizon fixe.

Remarque : Tout au long de cet article, lorsque nous parlons de test T, nous faisons référence au test T à horizon fixe.

Il y a des avantages et des inconvénients pour chaque approche, et ce n'est pas un cas où une méthode est toujours meilleure que l'autre.

Avantages des tests séquentiels

Dans un premier temps, nous allons explorer les avantages des tests séquentiels.

Regarder plusieurs fois → terminer l'expérience plus tôt

L'avantage des tests séquentiels est que vous pouvez jeter un coup d'œil plusieurs fois. La version spécifique des tests séquentiels que nous utilisons chez Amplitude, appelée test de rapport de probabilité séquentiel de mélange (mSPRT), vous permet de jeter un coup d'œil autant de fois que vous le souhaitez. De plus, vous n'avez pas à décider avant le début du test combien de fois vous allez jeter un coup d'œil comme vous le feriez avec un test séquentiel groupé. La conséquence de cela est que nous pouvons faire ce que tous les chefs de produit (PM) veulent faire, c'est-à-dire "exécuter un test jusqu'à ce qu'il soit statistiquement significatif, puis s'arrêter". Elle est similaire à l'approche « fixez-la et oubliez-la » avec des fonds à date cible. Dans le cadre à horizon fixe, cela ne devrait pas être fait car vous augmenterez le taux de faux positifs. En jetant un coup d'œil souvent, nous pouvons réduire la durée de l'expérience si la taille de l'effet est beaucoup plus grande que l'effet minimum détectable (MDE).

Naturellement, en tant qu'êtres humains, nous voulons continuer à consulter les données et déployer des fonctionnalités qui aident notre clientèle le plus rapidement possible. Souvent, un chef de projet demande à un scientifique des données comment se déroule une expérience quelques jours après le début de l'expérience. Avec les tests à horizon fixe, le scientifique des données ne peut rien dire statistiquement (intervalles de confiance ou valeurs p) sur l'expérience et peut seulement dire qu'il s'agit du nombre d'utilisateurs exposés et qu'il s'agit de la moyenne du traitement et de la moyenne de contrôle. Avec les tests séquentiels, le spécialiste des données peut toujours donner des intervalles de confiance et des valeurs p valides au PM à tout moment de l'expérience.

Dans certains tableaux de bord d'expérimentation, les grandeurs statistiques (intervalles de confiance et valeurs p) ne sont pas cachées aux utilisateurs même pour les tests à horizon fixe. On demande souvent aux scientifiques des données pourquoi nous ne pouvons pas déployer la variante gagnante puisque le tableau de bord est "tout vert". Ensuite, le data scientist doit expliquer que l'expérience n'a pas atteint la taille d'échantillon requise et que si l'expérience est déployée, elle pourrait en fait avoir un effet négatif sur les utilisateurs. Ensuite, le PM demande pourquoi son collègue a déployé une expérience avant qu'elle n'atteigne la taille d'échantillon requise. Cela crée beaucoup d'incohérence et les gens sont confus quant au fait que leurs expériences ne sont pas déployées. Avec les tests séquentiels, ce n'est plus une question à laquelle le data scientist doit répondre. Dans le cas d'un horizon fixe, Amplitude affiche uniquement les expositions cumulées, la moyenne de traitement et la moyenne de contrôle pour aider à résoudre ce problème. Une fois la taille d'échantillon souhaitée atteinte, Amplitude affichera les résultats statistiques. Cela aide à contrôler le taux de faux positifs en empêchant le furetage.

Pas besoin d'utiliser un calculateur de taille d'échantillon

Un autre avantage des tests séquentiels est que vous n'avez pas besoin d'utiliser un calculateur de taille d'échantillon, que vous devriez utiliser pour les tests à horizon fixe. Souvent, les personnes non techniques ont des difficultés à utiliser un calculateur de taille d'échantillon et ne savent pas ce que signifient toutes les entrées ou comment calculer les nombres qu'elles doivent entrer. Par exemple, connaître l'écart type d'une métrique n'est pas quelque chose que la plupart des gens savent. du haut de leur tête. De plus, vous rencontrez des problèmes si vous n'entrez pas les bons chiffres dans le calculateur de taille d'échantillon. Par exemple, vous avez saisi un taux de conversion de référence de 5 %, mais le véritable taux de conversion de référence était de 10 %. Êtes-vous autorisé à recalculer la taille de l'échantillon dont vous avez besoin au milieu du test ? Avez-vous besoin de recommencer votre test ? Amplitude atténue ce problème en pré-remplissant le calculateur de taille d'échantillon avec les valeurs par défaut standard de l'industrie (niveau de confiance de 95 % et puissance de 80 %) et en calculant la moyenne de contrôle et l'écart type (si nécessaire) au cours des 7 derniers jours. Dans les calculateurs de taille d'échantillon, il y a un champ appelé "puissance" (1-taux de faux négatifs). Avec les tests séquentiels, ce champ est essentiellement remplacé par "combien de jours vous êtes prêt à exécuter le test". C'est un nombre beaucoup plus interprétable et un nombre facile à trouver pour les gens.

Essai de puissance 1

Un autre avantage est que le test séquentiel est un test qui a la puissance 1. En termes non techniques, cela signifie que s'il existe une vraie différence non créée par hasard entre la moyenne du traitement et la moyenne du contrôle, alors le test finira par la trouver (c'est-à-dire , deviennent statistiquement significatifs). Au lieu de dire à votre patron que le test n'a pas été concluant, vous pouvez dire que nous pouvons attendre plus longtemps pour voir si nous obtenons un résultat statistiquement significatif.

En examinant le premier avantage, nous détaillons ce qui peut arriver dans une expérience avec la relation entre la taille réelle de l'effet et l'effet minimum détectable (MDE). Les trois cas sont lorsque vous sous-estimez le MDE, estimez le MDE exactement ou surestimez le MDE.

Essais à horizon fixe Tests séquentiels Ce qui est mieux?
Sous-estimez le MDE (par exemple, choisissez 1 comme MDE mais 2 est la taille de l'effet) Exécutez le test plus longtemps que nécessaire. Avoir une plus grande puissance que vous vouliez. Arrêtez le test plus tôt. Essais séquentiels.
Estimez le MDE exactement (par exemple, choisissez 1 comme MDE avant l'expérience et 1 est la taille de l'effet) Obtenez un intervalle de confiance plus petit. Obtenez la puissance exacte que vous vouliez avant l'expérience. Intervalle de confiance plus grand. Il faut attendre plus longtemps pour obtenir une signification statistique (c'est-à-dire exécuter le test plus longtemps). Corrigé, mais rappelez-vous qu'il y a toujours une chance que vous obteniez un faux négatif avec un test à horizon fixe.
Surestimez le MDE (par exemple, choisissez 1 comme MDE mais 0,5 est la taille de l'effet) Test sous-alimenté. Il obtiendra probablement un test non concluant et devra arrêter le test. Obtiendra probablement un test non concluant. Mais vous pouvez faire durer le test plus longtemps pour obtenir un résultat statistiquement significatif. La question est alors de savoir si vous obtenez un résultat statistiquement significatif parce que l'ascenseur est si petit ? Cela vaut-il la peine de déployer des efforts d'ingénierie? Tests séquentiels, mais seulement légèrement.

Généralement, vous ne connaissez pas la taille de l'effet (si vous la connaissiez, cela ne servirait à rien d'expérimenter). Ainsi, vous ne savez pas dans lequel des 3 cas vous serez. Vous voulez essayer d'estimer quelle est la probabilité que vous soyez dans chacun des 3 cas.

Règle de base : Ici, nous allons nous pencher sur une règle pour résumer le tableau ci-dessus. Si vous avez de l'expérience avec les tests à horizon fixe, vous êtes à l'aise avec le concept d'un effet minimum détectable. Nous étendons ce concept pour définir un effet maximum détectable, qui est la taille d'effet maximum que vous pensez théoriquement pouvoir se produire à partir de l'expérience. Pour choisir l'effet maximum détectable, vous pouvez utiliser le maximum des tailles d'effet des expériences précédentes, ou si vous avez une connaissance du domaine, vous pouvez l'utiliser pour choisir une valeur raisonnable. Par exemple, si vous modifiez la couleur d'un bouton, vous savez que le taux de clics n'augmentera pas de plus de 20 %. Essentiellement, l'effet détectable minimum vous donne le pire scénario et l'effet détectable maximum vous donne le meilleur scénario. Ensuite, utilisez le calculateur de taille d'échantillon à horizon fixe et branchez à la fois l'effet détectable minimum et l'effet détectable maximum. Prenez la différence dans le nombre d'échantillons nécessaires entre les deux situations. Êtes-vous d'accord pour attendre le temps supplémentaire entre ces deux valeurs ? Peut-être n'avez-vous besoin que d'attendre 3 jours de plus, alors il est probablement préférable d'utiliser un test à horizon fixe, car avec les tests séquentiels, vous ne pouvez gagner que 3 jours au maximum. Peut-être avez-vous la possibilité de gagner 10 jours, alors vous voudrez peut-être utiliser des tests séquentiels.

Pour résumer, les avantages des tests séquentiels sont :

  • Il y a une barrière à l'entrée plus faible car il n'est pas nécessaire d'utiliser un calculateur de taille d'échantillon et de ne pas avoir à connaître le furetage.
  • Le furetage est autorisé.
  • Les expériences se terminent plus rapidement dans certains cas.

Avantages du test T à horizon fixe

Maintenant, nous allons changer de vitesse et examiner certains cas où le test T est avantageux. Avec le test t, vous devez vous poser la question : si les tests séquentiels me disaient d'arrêter tôt, est-ce que j'arrêterais vraiment tôt ?

Grande entreprise

En règle générale, si vous êtes une grande entreprise, vous avez fait de nombreuses expériences et savez probablement ce qu'est un effet minimum détectable bon ou raisonnable. De plus, vous apportez probablement des améliorations de 1% ou 2%, il est donc peu probable que la véritable taille de l'effet soit très éloignée de l'effet minimum détectable. En d'autres termes, la différence entre l'effet maximum détectable et l'effet minimum détectable est faible. Ainsi, vous préféreriez utiliser un test à horizon fixe.

Avoir déjà une organisation de science des données

Le test T à horizon fixe est la méthodologie standard du manuel Stats 101. La plupart des scientifiques des données devraient être familiarisés avec cette méthodologie, il y aurait donc moins de friction à utiliser cette méthode.

Petits échantillons

Si vous avez de très petites tailles d'échantillons, il n'est pas toujours clair quelle méthodologie est la meilleure. Si vous testez des changements majeurs (ce que vous devriez faire si votre entreprise/votre clientèle est petite), alors séquentiel serait avantageux car la différence entre l'effet détectable maximum et l'effet détectable minimum est grande. D'autre part, vous voulez être très précis et souhaitez des intervalles de confiance plus petits en raison de la petite taille de l'échantillon, donc un test à horizon fixe serait bon dans ce cas. Si vous avez de très petites données, alors vous voulez vous demander si vous atteindrez même une signification statistique dans un laps de temps raisonnable. Si la réponse est non, alors les tests A/B peuvent ne pas être la bonne méthodologie dans ce cas. Il serait peut-être préférable d'utiliser votre temps pour faire une étude sur les utilisateurs ou apporter les modifications demandées par les clients et supposer qu'ils auront un impact positif.

Saisonnalité

Par saisonnalité, on entend des variations à intervalles réguliers. La saisonnalité n'a pas besoin d'être sur un très long intervalle comme un mois. Cela pourrait même être au niveau du jour de la semaine. Selon le produit, les utilisateurs qui utilisent le produit le week-end peuvent être différents de ceux qui utilisent le produit en semaine. Un exemple est pour un moteur de cartes, où les jours de semaine, les gens peuvent rechercher davantage des adresses par rapport au week-end, les gens peuvent rechercher davantage des restaurants. Il est possible que les utilisateurs traités en semaine aient un lift positif et que les utilisateurs traités le week-end aient un lift négatif ou vice versa.

La question que vous devez vous poser ici est la suivante : si le test T dit de fonctionner pendant 1 semaine et que le test séquentiel atteint une signification statistique après 4 jours, vous arrêteriez-vous vraiment à 4 jours ? Ici, il serait préférable d'exécuter un test T si vous pensez qu'il y a un effet du jour de la semaine. Si vous avez arrêté après 4 jours, vous partez du principe que la date que vous avez obtenue au cours de ces 4 jours est représentative des données que vous auriez vues si vous aviez mené l'expérience pendant une semaine ou deux semaines.

En règle générale, vous souhaitez exécuter des expériences pendant un nombre entier de cycles économiques. Si vous ne le faites pas, vous pourriez être en surpoids certains jours. Par exemple, si vous démarrez une expérience le lundi et que vous l'exécutez pendant 10 jours, vous attribuez aux données du lundi une pondération de 2/10, mais une pondération de 1/10 pour les données du dimanche. Au fur et à mesure que vous exécutez l'expérience plus longtemps, l'effet du jour de la semaine diminue. C'est l'une des raisons pour lesquelles vous pouvez voir la règle générale dans votre entreprise d'exécuter une expérience pendant 2 semaines.

capture d'écran d'un graphique montrant les tendances saisonnières dans les données
Voici un exemple de graphique avec saisonnalité.

Étudier une métrique à long terme

Parfois, vous pouvez être intéressé par une métrique à long terme comme la rétention sur 30 jours ou les revenus sur 60 jours. Ces mesures surviennent parfois lorsque vous étudiez les abonnements mensuels et offrez des essais gratuits ou des remises. Une chose à laquelle il faut penser est de savoir quel gain obtenez-vous en vous arrêtant tôt ? Par exemple, si vous étudiez la rétention de 30 jours, vous devez attendre 30 jours pour obtenir 1 jour de données. Pour cette raison, ces types d'expériences durent généralement quelques mois. Si vous pouvez mettre fin à une expérience quelques jours plus tôt, ce n'est pas une grande victoire. De plus, lorsque vous choisissez une métrique à long terme, vous pouvez être intéressé à la fois par la rétention de 30 jours et la rétention de 60 jours, car si vous augmentez la rétention de 30 jours mais diminuez la rétention de 60 jours, alors ce n'est peut-être pas un succès. Vous pouvez choisir une rétention de 30 jours au lieu de 60 jours afin de pouvoir itérer plus rapidement sur vos expériences. Une méthode que vous pouvez utiliser consiste à tester la signification statistique pour la rétention de 30 jours, puis à vérifier la directionnalité pour la rétention de 60 jours.

Avec les métriques à long terme, vous ne pouvez pas vous arrêter tôt car vous devez attendre pour observer la métrique. Les tests séquentiels fonctionnent généralement mieux lorsque vous obtenez une réponse immédiatement après avoir traité l'utilisateur.

Vous pouvez exécuter vos tests avec des métriques à long terme de deux manières :

  1. Obtenez la taille d'échantillon dont vous avez besoin, puis désactivez l'expérience. Attendez que tous les utilisateurs participent au test depuis 30 jours.
  2. Laissez le test s'exécuter jusqu'à ce que vous obteniez la taille d'échantillon dont vous avez besoin pour les utilisateurs qui participent au test depuis 30 jours.

En règle générale, vous ne voulez pas faire l'option 1 si vous exécutez un test séquentiel, car l'intérêt du test séquentiel est que vous ne savez pas de quelle taille d'échantillon vous avez besoin. Vous pouvez envisager de faire l'option n ° 1 si vous voulez être prudent et ne pas exposer trop d'utilisateurs à votre expérience si vous pensez que le traitement peut ne pas être positif.

Une autre chose à laquelle il faut penser est le nombre de fois que vous traitez l'utilisateur. Si vous ne traitez un utilisateur que quelques fois, vous devez vous demander si vous verriez vraiment une très grande amélioration à partir de seulement quelques différences entre le traitement et le contrôle. Cela conduit à des tailles d'effet plus petites.

Effets de nouveauté

Un effet de nouveauté se produit lorsque vous donnez aux utilisateurs une nouvelle fonctionnalité et qu'ils interagissent beaucoup avec elle, mais qu'ils peuvent ensuite cesser d'interagir avec elle. Par exemple, vous avez un gros bouton et les gens cliquent beaucoup dessus la première fois qu'ils le voient, mais arrêtent de cliquer dessus plus tard. La métrique ne doit pas toujours augmenter puis diminuer - elle peut également aller dans l'autre sens. Par exemple, les utilisateurs sont opposés au changement et n'interagissent pas avec la fonctionnalité au départ, mais après un certain temps, ils commenceront à interagir avec elle et verront son utilité. La solution aux effets de nouveauté consiste à exécuter des expériences plus longtemps et éventuellement à supprimer les données des premiers jours où les utilisateurs sont exposés à l'expérience. Ceci est similaire à l'utilisation d'une métrique à long terme.

Résultats de l'expérience

Cette année, nous avons lancé Experiment Results, une nouvelle fonctionnalité d'Experiment qui vous permet de télécharger des données A/B directement dans Amplitude et de commencer à analyser votre expérience. Vous pouvez télécharger des données pendant l'exécution de votre expérience et analyser les données avec des tests séquentiels. Ou un autre cas d'utilisation consiste à attendre la fin de l'expérience, puis à télécharger vos données sur Amplitude pour les analyser. Si vous faites cela, cela n'a pas de sens d'utiliser des tests séquentiels puisque l'expérience est déjà terminée et qu'il n'y a pas d'arrêt anticipé que vous pouvez faire, vous devez donc utiliser un test T.

Toutes les expériences ne présentent pas ces problèmes non standard. Les questions auxquelles il faut réfléchir sont les suivantes : si vous vous engagez déjà dans une expérience de longue durée, allez-vous vraiment gagner autant de temps en mettant fin à l'expérience plus tôt, quels types d'analyses ne pouvez-vous pas faire parce que vous vous êtes arrêté tôt et si vous arrêtez tôt, quels types d'hypothèses faites-vous et êtes-vous d'accord pour faire ces hypothèses. Toutes les expériences ne sont pas identiques et les experts métier de votre entreprise peuvent vous aider à déterminer quel test serait approprié et comment interpréter au mieux les résultats.


Vous ne savez pas par où commencer ? Demandez une démo et nous vous guiderons à travers les options qui conviennent le mieux à votre entreprise !

Démarrer avec l'analyse des produits