Calculadora de Poder Estatístico para Teste A/B

Essa calculadora feita em Google Sheets segue os mesmos cálculos utilizados pelo A/B Test Guide para calcular o poder estatístico de qualquer teste A/B, mas acrescenta uma série de novos parâmetros e cálculos para potencializar a validação estatística de Testes A/B tanto unicaudais quanto bicaudais.

Download da Calculadora

As instruções para usar este arquivo do Google Sheets para calcular o poder estatístico são:

Selecione se o teste é de 1 cauda ou 2 caudas (na maioria dos casos, se você estiver realizando testes A/B usando as principais ferramentas disponíveis no mercado, deve ser 2 caudas).
Selecione o nível de confiança (geralmente é recomendado nas faixas de 90% / 95% / 99%).
Adicione os números de visitantes para seu controle e variação.
Adicione os números de conversão (NÃO a Taxa de Conversão) para seu controle e variação.

É isso! O arquivo mostrará o poder do teste – em outras palavras – a possibilidade de erros do Tipo II

Tópicos que serão abordados nesse artigo:

Vantagens e flexibilidade desta Calculadora

A vantagem dessa calculadora está na flexibilidade! Você consegue configurar o número de caudas do teste, o que permite fazer análises que não se limitam ao Teste A/B tradicional.

Tendo essa validação dentro do Google Sheets, consegue integrar automaticamente com ferramentas do Google Cloud Platform e automatizar esteiras de testes em suas bases de dados como no Big Query por exemplo!

Além disso consegue inputar qualquer nível de confiança no teste, o que geralmente é limitado a 3 graus (90%,95% e 99%) em calculadoras tradicionais.

Há também uma visão de cálculo de número de usuários necessários (cálculo amostral) para obter sucesso no teste para 90% e 90% de chances de encontrar uma diferença com uma projeção de dias.

Há também uma validação de SRM (Sample Ratio Mismatch) que é um indicador valiosíssimo que identifica se há um desbalanceamento no número de observações em cada amostra, o que pode invalidar um teste por completo!

Conte também com um espaço para documentação, modelagem e aprendizado dos seus testes! Pois não basta apenas fazer uma série de testes se esse conhecimento não for difundido em sua empresa e time!

Explicando os Parâmetros estatísticos da calculadora:

Visitantes

São os usuários ou potenciais clientes que acessam uma página, app ou landing page. Eles representam o volume total de tráfego utilizado em um experimento ou teste A/B para medir conversões.

Conversões

São as ações específicas que você deseja que os visitantes realizem, como completar uma compra, assinar uma newsletter, ou baixar um e-book. Em testes de CRO, as conversões são o comportamento desejado que você está tentando otimizar.

Taxa de Conversão

A taxa de conversão é a porcentagem de visitantes que realizam a ação desejada (conversão). É calculada dividindo o número de conversões pelo número de visitantes e multiplicando por 100 para obter a porcentagem.
Fórmula:

Erro Padrão

O erro padrão é uma medida da variabilidade ou dispersão da média da amostra em relação à verdadeira média da população. Ele ajuda a entender a precisão da estimativa da taxa de conversão e é fundamental para calcular intervalos de confiança e fazer inferências estatísticas.

Número de Caudas

Refere-se ao tipo de teste estatístico que está sendo conduzido:

Teste unilateral (uma cauda): avalia se uma métrica é maior ou menor do que um valor específico.
Teste bilateral (duas caudas): avalia se há uma diferença significativa entre dois valores, independentemente da direção (positivo ou negativo).

OBS Power – Positivo?

O poder do teste observado mede a capacidade de um teste estatístico detectar um efeito quando ele realmente existe. Um poder alto (geralmente acima de 80%) significa que há uma alta probabilidade de detectar uma diferença real, caso ela exista. “Positivo” refere-se a quando o teste indica que houve uma diferença significativa.

Confidence Level (Nível de Confiança)

O nível de confiança é a probabilidade de que o intervalo de confiança contenha o valor verdadeiro da taxa de conversão ou de outra métrica. Por exemplo, um nível de confiança de 95% significa que há 95% de chance de que os resultados encontrados sejam representativos da população.

Uplift Estimado

O uplift estimado é a previsão de melhoria percentual esperada entre a variação e o controle no teste A/B. Ele quantifica o impacto positivo esperado de uma mudança no comportamento dos usuários.

Z-Score

O Z-Score é uma medida estatística que indica quantos desvios padrão uma observação está acima ou abaixo da média populacional. No contexto de testes de CRO, o Z-Score ajuda a determinar se a diferença entre o controle e a variação é estatisticamente significativa.

Z-Table Value (Z-Critical)

O valor crítico da Z-Table é um ponto de corte que determina a área de rejeição para a hipótese nula em um teste Z. Dependendo do nível de confiança e do número de caudas, você consulta a tabela Z para determinar o valor Z que define a significância.

P-Value

O P-Value é a probabilidade de obter um resultado tão extremo ou mais extremo que o obtido, assumindo que a hipótese nula seja verdadeira. Um P-Value baixo (geralmente abaixo de 0,05) indica que os resultados são estatisticamente significativos e que a hipótese nula pode ser rejeitada.

Conversion Rate (Uplift)

A taxa de conversão com uplift é a mudança percentual positiva na taxa de conversão entre o grupo controle e a variação. Isso mede o impacto real de uma modificação na página ou campanha.

Power Input

Refere-se à entrada de dados de poder estatístico. É a probabilidade de rejeitar corretamente a hipótese nula quando ela for falsa. Usado para calcular o tamanho da amostra necessária para obter resultados confiáveis.

Poder do Teste Observado (Power)

O poder observado do teste é a probabilidade de que o teste detecte um efeito real (ou seja, rejeitar a hipótese nula quando ela for falsa). Um poder de 80% ou mais é considerado ideal para a maioria dos testes.

Confiança Atual

O nível de confiança atual é o nível de certeza de que os resultados atuais observados no teste são corretos e representativos da população. Isso está relacionado ao nível de confiança escolhido para o teste.

Conversion Rate Limits (Limites da Taxa de Conversão)

São os limites superiores e inferiores do intervalo de confiança para a taxa de conversão. Eles indicam a faixa dentro da qual a verdadeira taxa de conversão provavelmente se encontra, com base no nível de confiança.

Standard Error Difference (Diferença do Erro Padrão)

A diferença do erro padrão mede a variação entre as taxas de conversão de duas amostras (controle e variação). Isso ajuda a calcular a significância estatística entre os dois grupos.

Ho (Controle) Upper (To) e Lower (From)

Esses valores representam os limites superior (To) e inferior (From) do intervalo de confiança da taxa de conversão do grupo de controle, com base no nível de confiança definido.

H1 (Variação) Upper (To) e Lower (From)

Da mesma forma, esses valores representam os limites superior (To) e inferior (From) do intervalo de confiança da taxa de conversão da variação, com base no nível de confiança.

SRM (Sample Ratio Mismatch)

O SRM ocorre quando a proporção de amostras (visitantes) entre os grupos do teste (controle e variação) não corresponde à proporção esperada, o que pode invalidar os resultados do teste.

SRM Expected

É a proporção esperada de amostras entre os grupos (geralmente igual), usada como referência para verificar se o SRM está ocorrendo.

SRM P-value

Este P-value mede a significância do desvio entre a proporção esperada de amostras e a proporção real observada no teste. Um P-value baixo indica que há um SRM significativo.

Validação Temporal

A validação temporal é um processo de verificação de que os dados e resultados de um teste A/B são consistentes ao longo do tempo e não estão influenciados por variações sazonais ou mudanças temporárias no comportamento dos usuários. Isso garante que os resultados sejam robustos e não influenciados por fatores externos temporários.

Exemplo Prático: Usando a Calculadora de Poder Estatístico

Vamos imaginar que você está testando duas versões de um anúncio de Facebook. Você espera que a versão A tenha uma taxa de cliques (CTR) de 3%, enquanto a versão B deve ter uma CTR de 5%.

Tamanho do Efeito: A diferença esperada é de 2% (5% – 3%).
Tamanho da Amostra: Digamos que você planeja incluir 500 usuários em cada grupo.
Nível de Significância: Você define alpha como 0,05.
Desvio Padrão: Você estima o desvio padrão da sua CTR em 1%.

Agora, você pode usar uma calculadora de poder estatístico para teste A/B para determinar se esses parâmetros lhe darão um poder adequado para detectar a diferença entre os grupos. Se o resultado indicar que seu poder é inferior a 0,8 (80%), você precisará ajustar um ou mais parâmetros até atingir o poder desejado.

Erros Comuns ao Usar Testes A/B

Ignorar o Poder do Teste: Muitos marketers realizam testes A/B sem considerar o poder estatístico, o que pode levar a decisões baseadas em dados não confiáveis.
Tamanhos de Amostra Insuficientes: Testes com amostras muito pequenas podem não fornecer resultados significativos, mesmo que existam diferenças reais.
Definir Objetivos Irrealistas: Às vezes, os profissionais de marketing têm expectativas irreais sobre o tamanho do efeito que esperam detectar. É importante ser realista e usar dados históricos para orientar suas expectativas.
Desconsiderar o Tempo de Teste: Realizar testes por períodos muito curtos pode levar a resultados enviesados. Certifique-se de que seu teste abranja um período suficiente para captar variações.

Melhores Práticas para Testes A/B Eficazes

Defina Hipóteses Claras: Antes de iniciar um teste, tenha uma hipótese clara sobre o que você está testando e o que espera aprender.
Utilize a Calculadora de Poder: Sempre que planejar um teste A/B, utilize uma calculadora de poder estatístico para garantir que seu teste tenha uma probabilidade adequada de detectar diferenças reais.
Teste Uma Variável de Cada Vez: Para obter resultados claros, é importante testar uma única variável por vez. Isso ajuda a entender qual mudança está realmente impactando seus resultados.
Monitore e Analise os Resultados: Após o término do teste, analise os dados cuidadosamente. Use a calculadora de poder novamente para verificar se o teste teve um poder suficiente.
Documente Seus Testes: Mantenha um registro de todos os testes realizados, suas hipóteses, resultados e aprendizados. Isso ajudará em futuros testes e otimizações.

Conte com uma consultoria especializada para otimizar seus resultados com base em dados concretos

Agora que você sabe o quanto a significância estatística é vital para garantir que suas decisões são baseadas em fatos e não em suposições, que tal levar suas otimizações para o próximo nível?

Como consultor, eu posso ajudar você a identificar gargalos, aplicar testes A/B, otimizar a experiência do usuário e, claro, aumentar significativamente sua taxa de conversão.

Vamos juntos transformar seus visitantes em clientes fiéis! Entre em contato agora e descubra como posso ajudar sua empresa a crescer!

FAQ – Perguntas Frequentes

O que é uma calculadora de poder estatístico?

Uma calculadora de poder estatístico é uma ferramenta que ajuda a determinar a probabilidade de detectar um efeito real em um teste, com base em parâmetros como tamanho de amostra, tamanho do efeito e nível de significância.

Como posso melhorar o poder do meu teste A/B?

Para aumentar o poder do seu teste A/B, considere aumentar o tamanho da amostra, ajustar suas expectativas sobre o tamanho do efeito ou revisar o nível de significância que você está utilizando.

Qual é o poder estatístico ideal para testes A/B?

Um poder estatístico de 0,8 (80%) é geralmente considerado ideal, pois isso significa que você tem uma boa chance de detectar uma diferença significativa quando ela realmente existe.