Essa calculadora feita em Google Sheets segue os mesmos cálculos utilizados pelo A/B Test Guide para calcular o poder estatístico de qualquer teste A/B, mas acrescenta uma série de novos parâmetros e cálculos para potencializar a validação estatística de Testes A/B tanto unicaudais quanto bicaudais.
As instruções para usar este arquivo do Google Sheets para calcular o poder estatístico são:
- Selecione se o teste é de 1 cauda ou 2 caudas (na maioria dos casos, se você estiver realizando testes A/B usando as principais ferramentas disponíveis no mercado, deve ser 2 caudas).
- Selecione o nível de confiança (geralmente é recomendado nas faixas de 90% / 95% / 99%).
- Adicione os números de visitantes para seu controle e variação.
- Adicione os números de conversão (NÃO a Taxa de Conversão) para seu controle e variação.
É isso! O arquivo mostrará o poder do teste – em outras palavras – a possibilidade de erros do Tipo II
Vantagens e flexibilidade desta Calculadora
A vantagem dessa calculadora está na flexibilidade! Você consegue configurar o número de caudas do teste, o que permite fazer análises que não se limitam ao Teste A/B tradicional.
Tendo essa validação dentro do Google Sheets, consegue integrar automaticamente com ferramentas do Google Cloud Platform e automatizar esteiras de testes em suas bases de dados como no Big Query por exemplo!
Além disso consegue inputar qualquer nível de confiança no teste, o que geralmente é limitado a 3 graus (90%,95% e 99%) em calculadoras tradicionais.
Há também uma visão de cálculo de número de usuários necessários (cálculo amostral) para obter sucesso no teste para 90% e 90% de chances de encontrar uma diferença com uma projeção de dias.
Há também uma validação de SRM (Sample Ratio Mismatch) que é um indicador valiosíssimo que identifica se há um desbalanceamento no número de observações em cada amostra, o que pode invalidar um teste por completo!
Conte também com um espaço para documentação, modelagem e aprendizado dos seus testes! Pois não basta apenas fazer uma série de testes se esse conhecimento não for difundido em sua empresa e time!
Explicando os Parâmetros estatísticos da calculadora:
Visitantes
São os usuários ou potenciais clientes que acessam uma página, app ou landing page. Eles representam o volume total de tráfego utilizado em um experimento ou teste A/B para medir conversões.
Conversões
São as ações específicas que você deseja que os visitantes realizem, como completar uma compra, assinar uma newsletter, ou baixar um e-book. Em testes de CRO, as conversões são o comportamento desejado que você está tentando otimizar.
Taxa de Conversão
A taxa de conversão é a porcentagem de visitantes que realizam a ação desejada (conversão). É calculada dividindo o número de conversões pelo número de visitantes e multiplicando por 100 para obter a porcentagem.
Fórmula:
Erro Padrão
O erro padrão é uma medida da variabilidade ou dispersão da média da amostra em relação à verdadeira média da população. Ele ajuda a entender a precisão da estimativa da taxa de conversão e é fundamental para calcular intervalos de confiança e fazer inferências estatísticas.
Número de Caudas
Refere-se ao tipo de teste estatístico que está sendo conduzido:
- Teste unilateral (uma cauda): avalia se uma métrica é maior ou menor do que um valor específico.
- Teste bilateral (duas caudas): avalia se há uma diferença significativa entre dois valores, independentemente da direção (positivo ou negativo).
OBS Power – Positivo?
O poder do teste observado mede a capacidade de um teste estatístico detectar um efeito quando ele realmente existe. Um poder alto (geralmente acima de 80%) significa que há uma alta probabilidade de detectar uma diferença real, caso ela exista. “Positivo” refere-se a quando o teste indica que houve uma diferença significativa.
Confidence Level (Nível de Confiança)
O nível de confiança é a probabilidade de que o intervalo de confiança contenha o valor verdadeiro da taxa de conversão ou de outra métrica. Por exemplo, um nível de confiança de 95% significa que há 95% de chance de que os resultados encontrados sejam representativos da população.
Uplift Estimado
O uplift estimado é a previsão de melhoria percentual esperada entre a variação e o controle no teste A/B. Ele quantifica o impacto positivo esperado de uma mudança no comportamento dos usuários.
Z-Score
O Z-Score é uma medida estatística que indica quantos desvios padrão uma observação está acima ou abaixo da média populacional. No contexto de testes de CRO, o Z-Score ajuda a determinar se a diferença entre o controle e a variação é estatisticamente significativa.
Z-Table Value (Z-Critical)
O valor crítico da Z-Table é um ponto de corte que determina a área de rejeição para a hipótese nula em um teste Z. Dependendo do nível de confiança e do número de caudas, você consulta a tabela Z para determinar o valor Z que define a significância.
P-Value
O P-Value é a probabilidade de obter um resultado tão extremo ou mais extremo que o obtido, assumindo que a hipótese nula seja verdadeira. Um P-Value baixo (geralmente abaixo de 0,05) indica que os resultados são estatisticamente significativos e que a hipótese nula pode ser rejeitada.
Conversion Rate (Uplift)
A taxa de conversão com uplift é a mudança percentual positiva na taxa de conversão entre o grupo controle e a variação. Isso mede o impacto real de uma modificação na página ou campanha.
Power Input
Refere-se à entrada de dados de poder estatístico. É a probabilidade de rejeitar corretamente a hipótese nula quando ela for falsa. Usado para calcular o tamanho da amostra necessária para obter resultados confiáveis.
Poder do Teste Observado (Power)
O poder observado do teste é a probabilidade de que o teste detecte um efeito real (ou seja, rejeitar a hipótese nula quando ela for falsa). Um poder de 80% ou mais é considerado ideal para a maioria dos testes.
Confiança Atual
O nível de confiança atual é o nível de certeza de que os resultados atuais observados no teste são corretos e representativos da população. Isso está relacionado ao nível de confiança escolhido para o teste.
Conversion Rate Limits (Limites da Taxa de Conversão)
São os limites superiores e inferiores do intervalo de confiança para a taxa de conversão. Eles indicam a faixa dentro da qual a verdadeira taxa de conversão provavelmente se encontra, com base no nível de confiança.
Standard Error Difference (Diferença do Erro Padrão)
A diferença do erro padrão mede a variação entre as taxas de conversão de duas amostras (controle e variação). Isso ajuda a calcular a significância estatística entre os dois grupos.
Ho (Controle) Upper (To) e Lower (From)
Esses valores representam os limites superior (To) e inferior (From) do intervalo de confiança da taxa de conversão do grupo de controle, com base no nível de confiança definido.
H1 (Variação) Upper (To) e Lower (From)
Da mesma forma, esses valores representam os limites superior (To) e inferior (From) do intervalo de confiança da taxa de conversão da variação, com base no nível de confiança.
SRM (Sample Ratio Mismatch)
O SRM ocorre quando a proporção de amostras (visitantes) entre os grupos do teste (controle e variação) não corresponde à proporção esperada, o que pode invalidar os resultados do teste.
SRM Expected
É a proporção esperada de amostras entre os grupos (geralmente igual), usada como referência para verificar se o SRM está ocorrendo.
SRM P-value
Este P-value mede a significância do desvio entre a proporção esperada de amostras e a proporção real observada no teste. Um P-value baixo indica que há um SRM significativo.
Validação Temporal
A validação temporal é um processo de verificação de que os dados e resultados de um teste A/B são consistentes ao longo do tempo e não estão influenciados por variações sazonais ou mudanças temporárias no comportamento dos usuários. Isso garante que os resultados sejam robustos e não influenciados por fatores externos temporários.
Exemplo Prático: Usando a Calculadora de Poder Estatístico
Vamos imaginar que você está testando duas versões de um anúncio de Facebook. Você espera que a versão A tenha uma taxa de cliques (CTR) de 3%, enquanto a versão B deve ter uma CTR de 5%.
- Tamanho do Efeito: A diferença esperada é de 2% (5% – 3%).
- Tamanho da Amostra: Digamos que você planeja incluir 500 usuários em cada grupo.
- Nível de Significância: Você define alpha como 0,05.
- Desvio Padrão: Você estima o desvio padrão da sua CTR em 1%.
Agora, você pode usar uma calculadora de poder estatístico para teste A/B para determinar se esses parâmetros lhe darão um poder adequado para detectar a diferença entre os grupos. Se o resultado indicar que seu poder é inferior a 0,8 (80%), você precisará ajustar um ou mais parâmetros até atingir o poder desejado.
Erros Comuns ao Usar Testes A/B
- Ignorar o Poder do Teste: Muitos marketers realizam testes A/B sem considerar o poder estatístico, o que pode levar a decisões baseadas em dados não confiáveis.
- Tamanhos de Amostra Insuficientes: Testes com amostras muito pequenas podem não fornecer resultados significativos, mesmo que existam diferenças reais.
- Definir Objetivos Irrealistas: Às vezes, os profissionais de marketing têm expectativas irreais sobre o tamanho do efeito que esperam detectar. É importante ser realista e usar dados históricos para orientar suas expectativas.
- Desconsiderar o Tempo de Teste: Realizar testes por períodos muito curtos pode levar a resultados enviesados. Certifique-se de que seu teste abranja um período suficiente para captar variações.
Melhores Práticas para Testes A/B Eficazes
- Defina Hipóteses Claras: Antes de iniciar um teste, tenha uma hipótese clara sobre o que você está testando e o que espera aprender.
- Utilize a Calculadora de Poder: Sempre que planejar um teste A/B, utilize uma calculadora de poder estatístico para garantir que seu teste tenha uma probabilidade adequada de detectar diferenças reais.
- Teste Uma Variável de Cada Vez: Para obter resultados claros, é importante testar uma única variável por vez. Isso ajuda a entender qual mudança está realmente impactando seus resultados.
- Monitore e Analise os Resultados: Após o término do teste, analise os dados cuidadosamente. Use a calculadora de poder novamente para verificar se o teste teve um poder suficiente.
- Documente Seus Testes: Mantenha um registro de todos os testes realizados, suas hipóteses, resultados e aprendizados. Isso ajudará em futuros testes e otimizações.
Conte com uma consultoria especializada para otimizar seus resultados com base em dados concretos
Agora que você sabe o quanto a significância estatística é vital para garantir que suas decisões são baseadas em fatos e não em suposições, que tal levar suas otimizações para o próximo nível?
Como consultor, eu posso ajudar você a identificar gargalos, aplicar testes A/B, otimizar a experiência do usuário e, claro, aumentar significativamente sua taxa de conversão.
Vamos juntos transformar seus visitantes em clientes fiéis! Entre em contato agora e descubra como posso ajudar sua empresa a crescer!
FAQ – Perguntas Frequentes
Uma calculadora de poder estatístico é uma ferramenta que ajuda a determinar a probabilidade de detectar um efeito real em um teste, com base em parâmetros como tamanho de amostra, tamanho do efeito e nível de significância.
Para aumentar o poder do seu teste A/B, considere aumentar o tamanho da amostra, ajustar suas expectativas sobre o tamanho do efeito ou revisar o nível de significância que você está utilizando.
Um poder estatístico de 0,8 (80%) é geralmente considerado ideal, pois isso significa que você tem uma boa chance de detectar uma diferença significativa quando ela realmente existe.