Prueba secuencial frente a prueba T de horizonte fijo: ¿cuándo usar cada una?

Publicado: 2022-06-10

La experimentación ayuda a los equipos de productos a tomar mejores decisiones basadas en la causalidad en lugar de las correlaciones . Puede hacer afirmaciones como "cambiar < esta parte del producto> hizo que la conversión aumentara en un 5%". Sin experimentación, un enfoque más común es realizar cambios basados ​​en el conocimiento del dominio o seleccionar las solicitudes de los clientes. Ahora, las empresas basadas en datos utilizan la experimentación para que la toma de decisiones sea más objetiva. Un gran componente de la causalidad es un análisis estadístico de los datos de experimentación.

En Amplitude, lanzamos recientemente una prueba T de horizonte fijo además de la prueba secuencial, que hemos tenido desde el comienzo de Experiment. Prevemos que varios clientes pregunten "¿Cómo sé qué prueba elegir?"

En esta publicación técnica, explicaremos los pros y los contras de la prueba secuencial y la prueba T de horizonte fijo.

Nota: A lo largo de esta publicación, cuando decimos prueba T, nos referimos a la prueba T de horizonte fijo.

Hay ventajas y desventajas para cada enfoque, y no es un caso en el que un método sea siempre mejor que el otro.

Ventajas de las pruebas secuenciales

Primero, exploraremos las ventajas de las pruebas secuenciales.

Mirar varias veces → finalizar el experimento antes

La ventaja de las pruebas secuenciales es que puede mirar varias veces. La versión específica de prueba secuencial que usamos en Amplitude, llamada prueba de relación de probabilidad secuencial mixta (mSPRT), le permite mirar tantas veces como desee. Además, no tienes que decidir antes de que comience la prueba cuántas veces vas a mirar como si tuvieras que hacerlo con una prueba secuencial agrupada. La consecuencia de esto es que podemos hacer lo que todos los gerentes de producto (PM) quieren hacer, que es “ejecutar una prueba hasta que sea estadísticamente significativa y luego parar”. Es similar al enfoque de "configúrelo y olvídese" con fondos de fecha objetivo. En el marco de horizonte fijo, esto no debe hacerse ya que aumentará la tasa de falsos positivos. Al mirar a menudo, podemos disminuir la duración del experimento si el tamaño del efecto es mucho mayor que el efecto mínimo detectable (MDE).

Naturalmente, como seres humanos, queremos seguir observando los datos e implementar funciones que ayuden a nuestra base de clientes lo más rápido posible. A menudo, un PM le preguntará a un científico de datos cómo va un experimento un par de días después de que haya comenzado. Con las pruebas de horizonte fijo, el científico de datos no puede decir nada estadísticamente (intervalos de confianza o valores p) sobre el experimento y solo puede decir que esta es la cantidad de usuarios expuestos y esta es la media del tratamiento y la media del control. Con las pruebas secuenciales, el científico de datos siempre puede proporcionar intervalos de confianza y valores p válidos al PM en cualquier momento durante el experimento.

En algunos paneles de experimentación, las cantidades estadísticas (intervalos de confianza y valores p) no se ocultan a los usuarios, incluso para las pruebas de horizonte fijo. A menudo, a los científicos de datos se les pregunta por qué no podemos implementar la variante ganadora, ya que el tablero es "todo verde". Luego, el científico de datos debe explicar que el experimento no ha alcanzado el tamaño de muestra requerido y que, si se implementa, podría tener un efecto negativo en los usuarios. Luego, el PM pregunta por qué su colega lanzó un experimento antes de que alcanzara el tamaño de muestra requerido. Esto crea mucha inconsistencia y la gente se confunde acerca de que sus experimentos no se implementan. Con las pruebas secuenciales, esta ya no es una pregunta que el científico de datos deba responder. En el caso de horizonte fijo, Amplitud solo muestra las exposiciones acumuladas, la media de tratamiento y la media de control para ayudar a resolver este problema. Una vez que se alcance el tamaño de muestra deseado, Amplitude mostrará los resultados estadísticos. Esto ayuda a controlar la tasa de falsos positivos al evitar el espionaje.

No es necesario utilizar una calculadora de tamaño de muestra

Otra ventaja de las pruebas secuenciales es que no tiene que usar una calculadora de tamaño de muestra, que debería usar para las pruebas de horizonte fijo. A menudo, las personas sin conocimientos técnicos tienen dificultades para usar una calculadora de tamaño de muestra y no saben qué significan todas las entradas o cómo calcular los números que deben ingresar. Por ejemplo, conocer la desviación estándar de una métrica no es algo que la mayoría de la gente sepa. de la parte superior de sus cabezas. Además, tendrá problemas si no ingresó los números correctos en la calculadora del tamaño de la muestra. Por ejemplo, ingresó una tasa de conversión de referencia del 5 %, pero la tasa de conversión de referencia real fue del 10 %. ¿Se le permite volver a calcular el tamaño de la muestra que necesita en medio de la prueba? ¿Necesita reiniciar su experimento? Una forma en que Amplitude mitiga este problema es rellenando previamente la calculadora de tamaño de muestra con los valores predeterminados estándar de la industria (95 % de nivel de confianza y 80 % de potencia) y calcula la media de control y la desviación estándar (si es necesario) durante los últimos 7 días. En las calculadoras de tamaño de muestra, hay un campo llamado "potencia" (1- tasa de falsos negativos). Con las pruebas secuenciales, este campo se reemplaza esencialmente con "cuántos días está dispuesto a realizar la prueba". Este es un número mucho más interpretable y un número fácil de encontrar para las personas.

Prueba de potencia 1

Otra ventaja es que la prueba secuencial es una prueba que tiene potencia 1. En términos no técnicos, esto significa que si hay una verdadera diferencia no creada por casualidad entre la media del tratamiento y la media del control, la prueba finalmente la encontrará (es decir, , se vuelven estadísticamente significativos). En lugar de decirle a su jefe que la prueba no fue concluyente, puede decirle que podemos esperar más para ver si obtenemos un resultado estadísticamente significativo.

En cuanto a la primera ventaja, desglosamos lo que puede suceder en un experimento con la relación entre el tamaño del efecto real y el efecto mínimo detectable (MDE). Los tres casos son cuando subestimas el MDE, estimas exactamente el MDE o sobreestimas el MDE.

Pruebas de horizonte fijo Pruebas secuenciales ¿Cual es mejor?
Subestimar MDE (p. ej., elija 1 como MDE pero 2 es el tamaño del efecto) Ejecute la prueba durante más tiempo del necesario. Tener un poder más grande de lo que querías. Detenga la prueba antes de tiempo. Pruebas secuenciales.
Estime el MDE exactamente (p. ej., elija 1 como el MDE antes del experimento y 1 como el tamaño del efecto) Obtenga un intervalo de confianza más pequeño. Obtén la potencia exacta que querías antes del experimento. Mayor intervalo de confianza. Tiene que esperar más tiempo para obtener significación estadística (es decir, ejecutar la prueba por más tiempo). Corregido, pero recuerde que todavía existe la posibilidad de que obtenga un falso negativo con una prueba de horizonte fijo.
Sobreestimar MDE (p. ej., elegir 1 como MDE pero 0,5 es el tamaño del efecto) Prueba de poca potencia. Probablemente obtendrá una prueba no concluyente y tendrá que detener la prueba. Probablemente obtendrá una prueba no concluyente. Pero puede hacer que la prueba se ejecute durante más tiempo para obtener un resultado estadísticamente significativo. Entonces, la pregunta es: ¿le importa si obtiene un resultado estadísticamente significativo porque el aumento es muy pequeño? ¿Vale la pena el esfuerzo de ingeniería para implementarlo? Pruebas secuenciales, pero solo ligeramente.

Generalmente, no conoce el tamaño del efecto (si lo supiera, no tendría sentido experimentar). Por lo tanto, no sabe en cuál de los 3 casos estará. Quiere intentar estimar cuál es la probabilidad de que esté en cada uno de los 3 casos.

Regla básica : aquí veremos una regla para resumir la tabla anterior. Si tiene experiencia con pruebas de horizonte fijo, entonces se siente cómodo con el concepto de un efecto mínimo detectable. Extendemos este concepto para definir un efecto máximo detectable, que es el tamaño máximo del efecto que, teóricamente, cree que podría ocurrir a partir del experimento. Para elegir el efecto máximo detectable, puede usar el máximo de los tamaños de efecto de los experimentos anteriores, o si tiene conocimiento del dominio, puede usarlo para elegir un valor razonable. Por ejemplo, si está cambiando el color de un botón, sabe que la tasa de clics no aumentará más del 20%. Esencialmente, el efecto mínimo detectable le brinda el peor de los casos, y el máximo efecto detectable le brinda el mejor de los casos. Luego, utilice la calculadora de tamaño de muestra de horizonte fijo e introduzca tanto el efecto detectable mínimo como el efecto detectable máximo. Tome la diferencia en el número de muestras necesarias entre ambas situaciones. ¿Está de acuerdo con esperar el tiempo adicional entre esos dos valores? Tal vez solo necesite esperar 3 días más, entonces probablemente sea mejor usar una prueba de horizonte fijo porque con la prueba secuencial solo puede ahorrar 3 días como máximo. Tal vez tenga la oportunidad de ahorrar 10 días, entonces es posible que desee utilizar pruebas secuenciales.

En resumen, las ventajas de las pruebas secuenciales son:

  • Hay una barrera de entrada más baja al no tener que usar una calculadora de tamaño de muestra y no tener que saber acerca de mirar a escondidas.
  • Se permite mirar a escondidas.
  • Los experimentos terminan más rápido en algunos casos.

Ventajas de la prueba T de horizonte fijo

Ahora, cambiaremos de marcha y analizaremos algunos casos en los que la prueba T es ventajosa. Con la prueba t, debe hacer la pregunta: si la prueba secuencial me dijera que me detuviera antes, ¿realmente me detendría antes?

Gran compañía

En general, si usted es una gran empresa, ha realizado muchos experimentos y probablemente sepa qué es un efecto detectable mínimo bueno o razonable. Además, probablemente esté logrando mejoras del 1% o 2%, por lo que es poco probable que el tamaño del efecto real esté muy lejos del efecto mínimo detectable. En otras palabras, la diferencia entre el efecto máximo detectable y el efecto mínimo detectable es pequeña. Por lo tanto, preferiría utilizar una prueba de horizonte fijo.

Ya tiene una organización de ciencia de datos

La prueba T de horizonte fijo es la metodología estándar de Stats 101 de los libros de texto. La mayoría de los científicos de datos deberían estar familiarizados con esta metodología, por lo que habría menos fricción para usar este método.

Tamaños de muestra pequeños

Si tiene tamaños de muestra realmente pequeños, no siempre está claro qué metodología es mejor. Si está probando cambios importantes (que debería estar haciendo si su empresa/base de clientes es pequeña), entonces sería ventajoso secuencial porque la diferencia entre el efecto máximo detectable y el efecto mínimo detectable es grande. Por otro lado, desea ser muy preciso y quiere intervalos de confianza más pequeños debido al pequeño tamaño de la muestra, por lo que una prueba de horizonte fijo sería buena en este caso. Si tiene datos realmente pequeños, entonces querrá preguntarse si alcanzará una significación estadística en un período de tiempo razonable. Si la respuesta es no, es posible que las pruebas A/B no sean la metodología adecuada en este caso. Podría ser un mejor uso de su tiempo hacer un estudio de usuario o realizar cambios que los clientes solicitan y asumen que tendrán un impulso positivo.

estacionalidad

Por estacionalidad, nos referimos a variaciones a intervalos regulares. La estacionalidad no tiene que ser durante un intervalo muy largo como un mes. Podría ser incluso en el nivel del día de la semana. Dependiendo del producto, los usuarios que usan el producto los fines de semana pueden ser diferentes de las personas que usan el producto entre semana. Un ejemplo es para un motor de mapas, donde entre semana, las personas pueden buscar más direcciones que durante el fin de semana, las personas pueden buscar más restaurantes. Es posible que los usuarios que reciben tratamiento entre semana tengan un aumento positivo y los usuarios que reciben tratamiento un fin de semana tengan un aumento negativo o viceversa.

La pregunta que debe hacerse aquí es si la prueba T dice que se ejecute durante 1 semana y la prueba secuencial alcanza la significación estadística después de 4 días, ¿realmente se detendría en 4 días? Aquí sería mejor ejecutar una prueba T si cree que hay un efecto de día de la semana. Si se detuvo después de 4 días, asume que la fecha que obtuvo en esos 4 días es representativa de los datos que habría visto si hubiera realizado el experimento durante una o dos semanas.

Por lo general, desea ejecutar experimentos para un número entero de ciclos comerciales. Si no lo hace, es posible que tenga sobrepeso en ciertos días. Por ejemplo, si comienza un experimento el lunes y lo ejecuta durante 10 días, entonces le está dando a los datos del lunes un peso de 2/10, pero un peso de 1/10 para los datos del domingo. A medida que ejecuta el experimento durante más tiempo, el efecto del día de la semana disminuye. Esta es una de las razones por las que puede ver la regla general en su empresa de realizar un experimento durante 2 semanas.

captura de pantalla de un gráfico que muestra patrones estacionales en los datos
Aquí hay un ejemplo de un gráfico con estacionalidad.

Estudiar una métrica a largo plazo

A veces, puede estar interesado en una métrica a largo plazo como la retención de 30 días o los ingresos de 60 días. Estas métricas a veces surgen cuando estudias suscripciones mensuales y ofreces pruebas gratuitas o descuentos. Una cosa en la que pensar es ¿cuánta ganancia está obteniendo al detenerse temprano? Por ejemplo, si está estudiando la retención de 30 días, debe esperar 30 días para obtener 1 día de datos. Debido a esto, este tipo de experimentos generalmente duran un par de meses. Si puede finalizar un experimento un par de días antes, no es una gran victoria. Además, cuando elige una métrica a largo plazo, puede estar interesado tanto en la retención de 30 días como en la retención de 60 días porque si aumenta la retención de 30 días pero disminuye la retención de 60 días, entonces tal vez eso no sea un éxito. Puede elegir una retención de 30 días en lugar de 60 días para que pueda iterar más rápido en sus experimentos. Un método que podría usar es probar la significancia estadística para la retención de 30 días y luego verificar la direccionalidad para la retención de 60 días.

Con las métricas a largo plazo, no puede detenerse antes porque necesita esperar para observar la métrica. Las pruebas secuenciales generalmente funcionan mejor cuando obtiene una respuesta inmediatamente después de tratar al usuario.

Hay dos formas de ejecutar sus experimentos con métricas a largo plazo:

  1. Obtenga el tamaño de muestra que necesita y luego apague el experimento. Espere hasta que todos los usuarios hayan estado en el experimento durante 30 días.
  2. Deje que el experimento se ejecute hasta que obtenga el tamaño de muestra que necesita para los usuarios que han estado en el experimento durante 30 días.

En general, no desea hacer la Opción n. ° 1 si está ejecutando una prueba secuencial porque el punto central de la prueba secuencial es que no sabe qué tamaño de muestra necesita. Puede considerar hacer la opción n.º 1 si desea ser conservador y no exponer a demasiados usuarios a su experimento si cree que el tratamiento puede no ser positivo.

Otra cosa a tener en cuenta es cuántas veces estás tratando al usuario. Si solo está tratando a un usuario un par de veces, debe pensar si realmente verá un gran aumento con solo un par de diferencias entre el tratamiento y el control. Esto conduce a tamaños de efecto más pequeños.

Efectos novedosos

Un efecto novedoso es cuando les das a los usuarios una nueva función e interactúan mucho con ella, pero luego pueden dejar de interactuar con ella. Por ejemplo, tiene un botón grande y las personas hacen clic en él mucho la primera vez que lo ven, pero luego dejan de hacerlo. La métrica no siempre tiene que aumentar y luego disminuir, también puede ir en la otra dirección. Por ejemplo, los usuarios son reacios a los cambios y no interactúan con la función inicialmente, pero luego de un tiempo comenzarán a interactuar con ella y verán su utilidad. La solución a los efectos de novedad es realizar experimentos durante más tiempo y posiblemente eliminar los datos de los primeros días que los usuarios están expuestos al experimento. Esto es similar a usar una métrica a largo plazo.

Resultados del experimento

Este año lanzamos Experiment Results, una nueva capacidad dentro de Experiment que le permite cargar datos A/B directamente a Amplitude y comenzar a analizar su experimento. Puede cargar datos mientras se ejecuta su experimento y analizar los datos con pruebas secuenciales. Otro caso práctico es esperar a que finalice el experimento y luego cargar los datos en Amplitude para analizarlos. Si hace esto, no tiene sentido usar pruebas secuenciales ya que el experimento ya terminó y no puede detenerse antes de tiempo, por lo que debe usar una prueba T.

No todos los experimentos tendrán estos problemas no estándar. Las preguntas en las que debe pensar son si ya se está comprometiendo con un experimento de larga duración, ¿realmente va a ahorrar tanto tiempo al finalizar el experimento antes de tiempo?, ¿qué tipo de análisis no puede hacer porque lo detuvo antes? temprano, qué tipo de suposiciones está haciendo y si está de acuerdo con hacer esas suposiciones. No todos los experimentos son iguales y los expertos comerciales de su empresa pueden ayudar a determinar qué prueba sería adecuada y cuál es la mejor manera de interpretar los resultados.


¿No estás seguro por dónde empezar? ¡Solicite una demostración y lo guiaremos a través de las opciones que funcionan mejor para su negocio!

Comience con el análisis de productos