Teste seqüencial versus teste T de horizonte fixo: quando usar cada um?

Publicados: 2022-06-10

A experimentação ajuda as equipes de produto a tomar melhores decisões com base na causalidade em vez de correlações . Você pode fazer declarações como “alterar < esta parte do produto> causou um aumento de 5% na conversão”. Sem experimentação, uma abordagem mais comum é fazer alterações com base no conhecimento do domínio ou selecionar solicitações de clientes. Agora, as empresas orientadas por dados usam a experimentação para tornar a tomada de decisões mais objetiva. Um grande componente da causalidade é uma análise estatística dos dados de experimentação.

Na Amplitude, lançamos recentemente um teste T de horizonte fixo, além dos testes sequenciais, que temos desde o início do Experimento. Prevemos vários clientes perguntando “Como sei qual teste escolher?”

Neste post técnico, explicaremos os prós e contras do teste sequencial e do teste T de horizonte fixo.

Nota: Ao longo deste post, quando dizemos teste T, estamos nos referindo ao teste T de horizonte fixo.

Existem prós e contras para cada abordagem, e não é um caso em que um método é sempre melhor que o outro.

Vantagens do teste sequencial

Primeiro, exploraremos as vantagens do teste sequencial.

Espreitar várias vezes → terminar a experiência mais cedo

A vantagem do teste sequencial é que você pode espiar várias vezes. A versão específica do teste sequencial que usamos na Amplitude, chamada de Mix Sequential Probability Ratio Test (mSPRT), permite espiar quantas vezes quiser. Além disso, você não precisa decidir antes do início do teste quantas vezes você vai espiar como você tem que fazer com um teste sequencial agrupado. A consequência disso é que podemos fazer o que todos os gerentes de produto (GP) querem fazer, que é “executar um teste até que seja estatisticamente significativo e depois parar”. É semelhante à abordagem “configure e esqueça” com fundos na data-alvo. Na estrutura de horizonte fixo, isso não deve ser feito, pois você aumentará a taxa de falsos positivos. Ao espiar com frequência, podemos diminuir a duração do experimento se o tamanho do efeito for muito maior que o efeito mínimo detectável (MDE).

Naturalmente, como seres humanos, queremos continuar espiando os dados e lançar recursos que ajudem nossa base de clientes o mais rápido possível. Muitas vezes, um PM perguntará a um cientista de dados como um experimento está se saindo alguns dias após o início do experimento. Com o teste de horizonte fixo, o cientista de dados não pode dizer nada estatisticamente (intervalos de confiança ou valores de p) sobre o experimento e pode apenas dizer que este é o número de usuários expostos e esta é a média de tratamento e a média de controle. Com o teste sequencial, o cientista de dados sempre pode fornecer intervalos de confiança e valores p válidos ao PM a qualquer momento durante o experimento.

Em alguns painéis de experimentação, as quantidades estatísticas (intervalos de confiança e valores p) não são ocultadas dos usuários, mesmo para testes de horizonte fixo. Muitas vezes, os cientistas de dados são questionados por que não podemos lançar a variante vencedora, já que o painel é “tudo verde”. Em seguida, o cientista de dados precisa explicar que o experimento não atingiu o tamanho de amostra necessário e que, se o experimento for implementado, poderá realmente ter um efeito negativo nos usuários. Em seguida, o PM questiona por que seu colega lançou um experimento antes de atingir o tamanho de amostra necessário. Isso cria muita inconsistência e as pessoas ficam confusas sobre seus experimentos não serem implementados. Com o teste sequencial, essa não é mais uma pergunta que o cientista de dados precisa responder. No caso de horizonte fixo, Amplitude mostra apenas as exposições cumulativas, média de tratamento e média de controle para ajudar a resolver esse problema. Assim que o tamanho de amostra desejado for alcançado, Amplitude mostrará os resultados estatísticos. Isso ajuda a controlar a taxa de falsos positivos, evitando espiar.

Não precisa usar uma calculadora de tamanho de amostra

Outra vantagem do teste sequencial é que você não precisa usar uma calculadora de tamanho de amostra, que deve ser usada para testes de horizonte fixo. Muitas vezes, pessoas não técnicas têm dificuldade em usar uma calculadora de tamanho de amostra e não sabem o que significam todas as entradas ou como calcular os números que precisam inserir. Por exemplo, saber o desvio padrão de uma métrica não é algo que a maioria das pessoas sabe do topo de suas cabeças. Além disso, você terá problemas se não inserir os números corretos na calculadora de tamanho de amostra. Por exemplo, você inseriu uma taxa de conversão de linha de base de 5%, mas a taxa de conversão de linha de base real foi de 10%. Você tem permissão para recalcular o tamanho da amostra necessário no meio do teste? Você precisa reiniciar seu experimento? Uma maneira de o Amplitude atenuar esse problema é pré-preencher a calculadora de tamanho de amostra com os padrões padrão do setor (nível de confiança de 95% e poder de 80%) e calcular a média de controle e o desvio padrão (se necessário) nos últimos 7 dias. Nas calculadoras de tamanho de amostra, existe um campo chamado “power” (1- taxa de falsos negativos). Com o teste sequencial, esse campo é essencialmente substituído por “quantos dias você está disposto a executar o teste”. Este é um número muito mais interpretável e um número fácil para as pessoas criarem.

Teste de Potência 1

Outra vantagem é que o teste sequencial é um teste que tem poder 1. Em termos não técnicos, isso significa que se houver uma diferença real não criada por acaso entre a média de tratamento e a média de controle, então o teste acabará por encontrá-la (ou seja, , tornam-se estatisticamente significativos). Em vez de dizer ao seu chefe que o teste foi inconclusivo, você pode dizer que podemos esperar mais para ver se obtemos um resultado estatisticamente significativo.

Olhando para a primeira vantagem, mostramos o que pode acontecer em um experimento com a relação entre o tamanho real do efeito e o efeito mínimo detectável (MDE). Os três casos são quando você subestima o MDE, estima o MDE exatamente ou superestima o MDE.

Teste de horizonte fixo Teste Sequencial Qual é melhor?
Subestimar o MDE (por exemplo, escolha 1 como o MDE, mas 2 é o tamanho do efeito) Execute o teste por mais tempo do que o necessário. Tenha maior poder do que você queria. Pare o teste mais cedo. Testes Sequenciais.
Estime o MDE exatamente (por exemplo, escolha 1 como o MDE antes do experimento e 1 é o tamanho do efeito) Obtenha um intervalo de confiança menor. Obtenha a potência exata que você queria antes do experimento. Maior intervalo de confiança. Ter que esperar mais tempo para obter significância estatística (ou seja, executar o teste por mais tempo). Corrigido, mas lembre-se de que ainda há uma chance de você obter um falso negativo com um teste de horizonte fixo.
Superestimar o MDE (por exemplo, escolha 1 como MDE, mas 0,5 é o tamanho do efeito) Teste de baixa potência. Provavelmente fará um teste inconclusivo e terá que interromper o teste. Provavelmente terá um teste inconclusivo. Mas você pode manter o teste em execução por mais tempo para obter um resultado estatisticamente significativo. A questão então é: você se importa se obtiver um resultado estatisticamente significativo porque o elevador é tão pequeno? Vale a pena o esforço de engenharia para implementá-lo? Testes sequenciais, mas apenas ligeiramente.

Geralmente, você não sabe o tamanho do efeito (se soubesse, não faria sentido experimentar). Assim, você não sabe em qual dos 3 casos você estará. Você quer tentar estimar qual é a chance que você terá em cada um dos 3 casos.

Regra Básica : Aqui vamos olhar para uma regra para resumir a tabela acima. Se você tem experiência com testes de horizonte fixo, então você está confortável com o conceito de um efeito mínimo detectável. Estendemos esse conceito para definir um efeito máximo detectável, que é o tamanho máximo do efeito que você teoricamente acha que poderia acontecer com o experimento. Para escolher o efeito máximo detectável, você pode usar o máximo dos tamanhos de efeito dos experimentos anteriores ou, se tiver conhecimento do domínio, pode usar isso para escolher um valor razoável. Por exemplo, se você estiver alterando a cor de um botão, sabe que a taxa de cliques não aumentará em mais de 20%. Essencialmente, o efeito mínimo detectável fornece o pior cenário e o efeito máximo detectável fornece o melhor cenário. Em seguida, use a calculadora de tamanho de amostra de horizonte fixo e conecte o efeito detectável mínimo e o efeito detectável máximo. Pegue a diferença no número de amostras necessárias entre as duas situações. Você está bem em esperar o tempo extra entre esses dois valores? Talvez você só precise esperar mais 3 dias - então provavelmente é melhor usar um teste de horizonte fixo porque com o teste sequencial você pode economizar no máximo 3 dias. Talvez você tenha a chance de economizar 10 dias, então você pode querer usar o teste sequencial.

Para resumir, as vantagens do teste sequencial são:

  • Há uma barreira menor à entrada de não ter que usar uma calculadora de tamanho de amostra e não ter que saber sobre espiar.
  • Espiar é permitido.
  • Os experimentos terminam mais rápido em alguns casos.

Vantagens do teste T de horizonte fixo

Agora, vamos mudar de marcha e analisar alguns casos em que o teste T é vantajoso. Com o teste t, você precisa fazer a pergunta: se o teste sequencial me dissesse para parar mais cedo, eu realmente pararia mais cedo?

Grande companhia

Geralmente, se você é uma grande empresa, já fez muitos experimentos e provavelmente sabe o que é um efeito detectável mínimo bom ou razoável. Além disso, você provavelmente está fazendo melhorias de 1% ou 2%, portanto, é improvável que o tamanho real do efeito esteja muito longe do efeito mínimo detectável. Em outras palavras, a diferença entre o efeito máximo detectável e o efeito mínimo detectável é pequena. Assim, você preferiria usar um teste de horizonte fixo.

Já tem uma organização de ciência de dados

O teste T de horizonte fixo é a metodologia padrão do Stats 101. A maioria dos cientistas de dados deve estar familiarizada com essa metodologia, para que haja menos atrito ao usar esse método.

Tamanhos de amostra pequenos

Se você tem tamanhos de amostra muito pequenos, nem sempre fica claro qual metodologia é melhor. Se você estiver testando grandes mudanças (o que você deve fazer se sua empresa/base de clientes for pequena), então o sequencial seria vantajoso porque a diferença entre o efeito máximo detectável e o efeito mínimo detectável é grande. Por outro lado, você quer ser muito preciso e quer intervalos de confiança menores por causa do pequeno tamanho da amostra, então um teste de horizonte fixo seria bom nesse caso. Se você tem dados muito pequenos, então você quer questionar se alcançará significância estatística em um período de tempo razoável. Se a resposta for não, o teste A/B pode não ser a metodologia certa neste caso. Pode ser um melhor uso do seu tempo fazer um estudo de usuário ou fazer alterações que os clientes estão solicitando e presumir que terão um aumento positivo.

Sazonalidade

Por sazonalidade, queremos dizer variações em intervalos regulares. A sazonalidade não precisa ser em um intervalo muito longo, como um mês. Pode ser até mesmo no nível do dia da semana. Dependendo do produto, os usuários que usam o produto no fim de semana podem ser diferentes das pessoas que usam o produto durante a semana. Um exemplo é para um mecanismo de mapas, onde nos dias de semana as pessoas podem pesquisar mais endereços do que no fim de semana, as pessoas podem pesquisar mais restaurantes. É possível que os usuários tratados no dia da semana tenham um aumento positivo e os usuários tratados no fim de semana tenham um aumento negativo ou vice-versa.

A pergunta que você precisa fazer aqui é se o teste T disser para ser executado por 1 semana e o teste sequencial atingir significância estatística após 4 dias, você realmente pararia em 4 dias? Aqui seria melhor executar um teste T se você acredita que há um efeito de dia da semana. Se você parou após 4 dias, está assumindo que a data obtida nesses 4 dias é representativa dos dados que você teria visto se tivesse realizado o experimento por uma semana ou duas semanas.

Geralmente, você deseja executar experimentos para um número inteiro de ciclos de negócios. Se você não fizer isso, então você pode estar com excesso de peso em determinados dias. Por exemplo, se você iniciar um experimento na segunda-feira e executá-lo por 10 dias, estará dando aos dados de segunda-feira um peso de 2/10, mas um peso de 1/10 para dados de domingo. À medida que você executa o experimento por mais tempo, o efeito do dia da semana diminui. Essa é uma das razões pelas quais você pode ver a regra geral em sua empresa de realizar um experimento por 2 semanas.

captura de tela de um gráfico mostrando padrões sazonais nos dados
Aqui está um exemplo de um gráfico com sazonalidade.

Estudando uma métrica de longo prazo

Às vezes, você pode estar interessado em uma métrica de longo prazo, como retenção de 30 dias ou receita de 60 dias. Essas métricas às vezes surgem quando você estuda assinaturas mensais e distribui avaliações gratuitas ou descontos. Uma coisa a se pensar é quanto ganho você está obtendo parando cedo? Por exemplo, se você estiver estudando retenção de 30 dias, precisará aguardar 30 dias para obter 1 dia de dados. Por causa disso, esses tipos de experimentos geralmente duram alguns meses. Se você puder encerrar um experimento alguns dias antes, isso não é uma grande vitória. Além disso, ao escolher uma métrica de longo prazo, você pode estar interessado na retenção de 30 dias e na retenção de 60 dias, porque se você aumentar a retenção de 30 dias, mas diminuir a retenção de 60 dias, talvez isso não seja um sucesso. Você pode escolher a retenção de 30 dias em vez de 60 dias para poder iterar mais rapidamente em seus experimentos. Um método que você pode usar é testar a significância estatística para retenção de 30 dias e, em seguida, verificar a direcionalidade para retenção de 60 dias.

Com métricas de longo prazo, você não pode parar cedo porque precisa esperar para observar a métrica. O teste sequencial geralmente funciona melhor quando você recebe uma resposta imediatamente após o tratamento do usuário.

Há duas maneiras de executar seus experimentos com métricas de longo prazo:

  1. Obtenha o tamanho de amostra que você precisa e, em seguida, desative o experimento. Aguarde até que todos os usuários tenham participado do experimento por 30 dias.
  2. Deixe o experimento ser executado até obter o tamanho de amostra necessário para os usuários que participam do experimento há 30 dias.

Geralmente, você não deseja fazer a Opção nº 1 se estiver executando um teste sequencial porque o objetivo principal do teste sequencial é que você não sabe qual tamanho de amostra você precisa. Você pode considerar a opção nº 1 se quiser ser conservador e não expor muitos usuários ao seu experimento se acreditar que o tratamento pode não ser positivo.

Outra coisa a se pensar é quantas vezes você está tratando o usuário. Se você está tratando um usuário apenas algumas vezes, precisa pensar se realmente veria um aumento muito grande com apenas algumas diferenças entre tratamento e controle. Isso leva a tamanhos de efeito menores.

Efeitos de novidade

Um efeito de novidade é quando você oferece aos usuários um novo recurso e eles interagem muito com ele, mas podem parar de interagir com ele. Por exemplo, você tem um botão grande e as pessoas clicam muito nele na primeira vez que o veem, mas param de clicar nele depois. A métrica nem sempre precisa aumentar e depois diminuir - ela também pode ir na outra direção. Por exemplo, os usuários são avessos a mudanças e não interagem com o recurso inicialmente, mas depois de algum tempo começarão a interagir com ele e verão sua utilidade. A solução para os efeitos da novidade é executar experimentos por mais tempo e possivelmente remover dados dos primeiros dias em que os usuários são expostos ao experimento. Isso é semelhante ao uso de uma métrica de longo prazo.

Resultados do experimento

Este ano, lançamos os resultados do experimento, um novo recurso do experimento que permite fazer upload de dados A/B diretamente para o Amplitude e começar a analisar seu experimento. Você pode fazer upload de dados enquanto seu experimento está sendo executado e analisá-los com testes sequenciais. Ou outro caso de uso é aguardar o término do experimento e, em seguida, carregar seus dados no Amplitude para analisá-los. Se você fizer isso, não faz sentido usar o teste sequencial, pois o experimento já terminou e não há interrupção antecipada que você possa fazer, portanto, você deve usar um teste T.

Nem todos os experimentos terão esses problemas fora do padrão. As questões a serem pensadas são: se você já está se comprometendo com um experimento de longa duração, você realmente economizará tanto tempo terminando o experimento mais cedo, que tipos de análises você não pode fazer porque parou mais cedo e se parar? cedo, que tipos de suposições você está fazendo e você concorda em fazer essas suposições. Nem todos os experimentos são iguais e os especialistas em negócios da sua empresa podem ajudar a determinar qual teste seria apropriado e a melhor forma de interpretar os resultados.


Não sabe por onde começar? Solicite uma demonstração e nós o guiaremos pelas opções que funcionam melhor para o seu negócio!

Comece com a análise de produtos