Artigo desenvolvido com a colaboração de Luana Sílvia dos Santos
Estudos com amostras pareadas são muito comuns nas mais diversas áreas do conhecimento, em especial na área da saúde. Esses estudos consistem em realizar mais de uma medida em uma mesma unidade amostral e verificar se houve diferença entre essas medidas, onde a primeira informação será pareada com a segunda informação, com a terceira e assim por diante.
Sendo assim, é de se esperar que as medidas de um mesmo indivíduo sejam similares, enquanto que as medidas de indivíduos distintos sejam diferentes. Dessa forma, as observações de um mesmo indivíduo são dependentes, o que faz com que o uso dos testes usuais de comparação de duas ou mais amostras não sejam adequados, uma vez que existe violação da suposição de independência das observações.
Então, quando e quais testes devemos utilizar para comparar amostras pareadas?
Testes utilizados para comparar duas amostras pareadas
Teste t pareado
Suponha um estudo onde os indivíduos foram submetidos a uma dieta e deseja-se verificar se houve diferença entre o peso antes e depois da dieta. Nesse caso, a variável de interesse é numérica e o objetivo é verificar se existe diferença significativa dessa variável entre dois grupos de interesse.
Assim como o teste t, o teste t pareado é paramétrico, ou seja, possui a suposição de que a variável de interesse seja normalmente distribuída.
O objetivo é o mesmo que o do teste t utilizado para comparar duas amostras, porém, a diferença é que no teste t pareado as amostras são dependentes. No caso acima, por exemplo, um mesmo indivíduo foi medido mais de uma vez – uma antes e outra depois da dieta.
Teste de Wilcoxon
O teste de Wilcoxon se apresenta como uma alterativa ao teste t pareado, ou seja, quando o objetivo também é verificar se existe diferença significativa de uma variável numérica entre dois grupos de interesse.
Mas quando utilizar o teste de Wilcoxon? Quando a suposição de normalidade da variável de interesse do teste t pareado é violada – o teste de Wilcoxon é um teste não-paramétrico.
Sendo um teste não-paramétrico, podemos o comparar com o teste de Mann-Whitney, porém, a diferença é que no teste de Mann-Whitney as amostras são independentes e no teste de Wilcoxon as amostras são dependentes.
Teste de McNemar
Suponha agora um estudo onde cães diagnosticados com leishmaniose foram divididos em dois grupos: sintomáticos e assintomáticos. Ambos os grupos são submetidos a um tratamento e depois de 3 meses do início do tratamento eles são reavaliados. O objetivo é verificar se o tratamento foi eficiente para reduzir o número de cães sintomáticos.
Observe que nesse caso, a variável de interesse é categórica com duas categorias, sendo medida duas vezes. O objetivo é verificar se houve diferença significativa entre as classificações nas duas medições.
Pode-se notar que o objetivo do teste é semelhante ao do teste Qui-Quadrado, porém, a diferença é que no teste Qui-Quadrado as amostras são independentes e no teste de McNemar as amostras são dependentes.
Testes utilizados para comparar três ou mais amostras pareadas
ANOVA para medidas repetidas
Suponha um estudo onde os indivíduos foram submetidos a uma dieta e deseja-se verificar se houve diferença entre o peso antes da dieta, 1 mês depois do início da dieta e 3 meses depois do início da dieta.
Nesse caso, a variável de interesse é numérica e o objetivo é verificar se existe diferença significativa dessa variável entre 3 ou mais grupos de interesse. Note que o objetivo é o mesmo que o da ANOVA, porém, a diferença é que na ANOVA as amostras são independentes e na ANOVA para medidas repetidas as amostras são dependentes.
Assim como a ANOVA, a ANOVA para medidas repetidas é um teste paramétrico e existe a suposição de que a variável de interesse tem distribuição normal.
Teste de Friedman
Tomemos o mesmo exemplo anterior: um estudo onde os indivíduos foram submetidos a uma dieta e deseja-se verificar se houve diferença entre o peso antes da dieta, 1 mês depois do início da dieta e 3 meses depois do início da dieta.
Como vimos anteriormente, a variável de interesse é numérica e o objetivo é verificar se existe diferença significativa dessa variável entre 3 ou mais grupos de interesse.
O que então diferencia o teste de Friedman do teste ANOVA para medidas repetidas? Ele se apresenta como uma alternativa para os casos em que a variável de interesse não possui distribuição normal, pois é um teste não-paramétrico.
O teste de Friedman possui o mesmo objetivo do teste de Kruskal-Wallis, porém, a diferença é que no teste de Kruskal-Wallis as amostras são independentes e no teste de Friedman pareado as amostras são dependentes.
Outras técnicas
Existem estudos que, apesar de serem feitos com amostras pareadas, não podem ser resolvidos com esses testes, uma vez que suas estruturas de dependência apresentam um maior nível de complexidade.
Por exemplo, suponha um estudo em que se deseja verificar a eficiência de um tratamento contra catarata em que os dois olhos do mesmo paciente são medidos ao longo de 3 consultas: uma antes do tratamento, outra durante o tratamento e a última após a finalização do tratamento.
Veja que nesse exemplo existem duas estruturas de dependência, sendo uma temporal (consultas) e outra do indivíduo (os dois olhos das mesmas pessoas).
Existem outros tipos de análises mais complexas que levam em consideração as medidas repetidas, como o modelo GEE (Generalized Estimating Equation) e o Modelo de Efeitos Mistos. Cabe ressaltar ainda que essas técnicas também podem ser utilizadas para resolver os problemas mais simples descritos nesse artigo.
Esperamos abordar técnicas de amostras pareadas em futuros artigos. Sendo assim, não deixe de se inscrever no campo abaixo para receber em seu e-mail notificações sobre nossas publicações.
3 comentários em “Testes estatísticos para amostras pareadas”
Olá, você comentou que se utilizar o teste de Wilcoxon quando se tem menos que 2 níveis e 2 grupos. E utiliza-se o teste de Friedman quando se tem mais de 2 níveis e 3 ou mais grupos. Mas e quando eu tenho 2 níveis (antes e depois) e 3 grupos (3 grupos de profissões). No meu caso estou querendo medir se um tratamento aplicado foi eficaz em 3 grupos de profissões. Como proceder?
Oi Matheus!
Há um artigo que fala sobre Teste de McNemar Generalizado para Homogeneidade das Distribuições Marginais.
Segue as infos abaixo:
Generalized McNemar’s Test for Homogeneity of the Marginal Distributions
Zhao Yang
Published 2008
Geology
“SUMMARY In the matched-pairs data, McNemar’s test (McNemar, 1947) can be applied only to the case in which there are two possible categories for the outcome. In practice, however, it is possible that the outcomes are classifled into multiple categories. Under this situation, the test statistic proposed by Stuart (1955) and Maxwell (1970) is useful, it is actually the generalization of the McNemar’s test, commonly referred to as generalized McNemar’s or Stuart-Maxwell test.”
Olá, parabéns pelo conteúdo.
Existe algum teste alternativo ao Teste De McNemar, que pode ser utilizado quando se tem amostras dependentes e variáveis nominais com mais de duas categorias?