Muitos de nossos clientes nos procuram para realizar a análise estatística de seus projetos acadêmicos e pesquisas científicas após terem coletado os dados de sua pesquisa. É quando surge a pergunta: como organizar os dados para a análise estatística?
No mundo atual é enorme o volume de informação gerado a todo momento e o profissional de estatística precisa ser capaz de trabalhar com todos os tipos de dados, estruturados ou não.
No entanto, em um projeto de pesquisa acadêmica para uma dissertação de mestrado ou tese de doutorado, muitas vezes as informações são coletadas por meio de questionários impressos ou prontuários eletrônico e nesses casos, o ideal é que os dados sejam bem estruturados e organizados para otimizar o processo de análise estatística.
Para ilustrar a forma como os dados devem ser organizados, criamos um exemplo de questionário com diferentes tipos de perguntas, apresentamos os erros mais comuns e um passo a passo para facilitar a compreensão.
Erros comuns na organização dos dados para análise estatística
Em alguns casos, as pessoas acabam realizando um esforço enorme, com a melhor das intenções, mas todo tempo despendido na organização dos dados acaba não sendo aproveitado no momento da análise estatística.
Os três erros mais comuns são:
1 – Diferentes planilhas para cada unidade amostral
Em uma pasta do Excel (arquivo), evite colocar as informações de cada unidade amostral em uma planilha (aba) diferente.
2 – Organizar os dados já consolidados
Além do enorme trabalho de separar os questionários para cada resposta de cada pergunta para fazer a contagem, organizar os dados já consolidados faz com que se perca informações que podem ser importantes para a análise estatística.
3 – Definição de variáveis por estilo de formatação
Evite discriminar as categorias usando diferentes estilos de formatação, por exemplo as cores das células no Excel. Prefira sempre a criação de variáveis para fazer essa diferenciação.
Passo-a-passo para formatar a base de dados para análise estatística
A seguir estão listados os principais aspectos que se de ter em conta ao organizar seus dados em Excel para a análise estatística. Vale ressaltar que não existe uma forma única de preparar uma base de dados para análise, mas esse passo-a-passo poderá facilitar a importação e utilização dos dados nos principais softwares estatísticos.
Passo 1: Criação de uma base em uma única planilha
Caso não seja possível utilizar apenas uma base de dados, procure manter uma variável chave que permita vincular as informações das diferentes bases de dados.
Passo 2: Criação da variável indicadora
A variável indicadora “ID” deve ser colocada na primeira coluna da planilha e tem como objetivo discriminar as unidades amostrais. Se tiver digitando os dados de um formulário impresso, escreva no questionário físico o número do ID correspondente na base de dados para facilitar futuras consultas ou verificações.
Passo 3: Organização das perguntas por colunas
Preencha o nome de cada questão na primeira linha das colunas seguintes. O importante aqui é a criação de uma variável para cada pergunta do questionário. No nosso exemplo, todas informações sobre o estado civil dos entrevistados serão preenchidas na coluna “E” da planilha.
A dúvida que surge neste ponto é: “Como colocar em apenas uma coluna as respostas para questões de múltipla escolha?“
Uma opção é a de estratificar a questão de maneira com que cada opção de resposta tenha uma coluna específica. Na pergunta sobre a utilização da internet do questionário de exemplo, o respondente poderia selecionar mais de uma resposta. Para cada uma delas, nomearemos uma coluna na planilha de maneira que facilite sua identificação como pertencente à uma questão de múltipla escolha:
- Opção “Estudar e pesquisar” -> “Util_Estudar”
- Opção “Ler notícias” -> “Util_Noticias”
Passo 4: Dados de cada unidade amostral por linhas
Chegou o momento de começar a digitar as respostas de cada formulário na planilha. Cada questionário receberá um número único de identificação, que será preenchido na coluna da variável ID, e sugere-se que esse número seja marcado no questionário impresso para futuras verificações.
Em seguida basta ir preenchendo as células com as respostas selecionadas pelos participantes da pesquisa, conforme a figura abaixo. Observe que preencher as respostas das opções de uma questão de múltipla escolha, pode-se colocar “Sim” para o caso da opção ter sido selecionada e “Não” caso contrário.
Nesse ponto, os dados já estão suficientemente estruturados para serem importados nos principais softwares de análise estatística. No entanto, alguns erros podem ter sido cometidos e poderá ser necessário corrigi-los no ambiente de análise. O próximo passo ajuda a evitar alguns destes erros.
Passo 5: Codificação de variáveis categóricas e questões
Durante o processo de digitação, podem ocorrer alguns erros que precisarão ser corrigidos antes da análise. Ao preencher o estado civil dos respondentes, por exemplo, pode-se acabar digitando “solteiro” para um indivíduo e “solteira” para outro, criando duas categorias diferentes que se referem ao mesmo tipo de estado civil.
Para evitar esse tipo de erro, sugere-se que as variáveis sejam codificadas. Para a questão sobre estado civil, por exemplo, pode-se utilizar a codificação:
- Opção “Solteiro” equivale a “1”
- Opção “Casado” equivale a “2”
- Opção “Separado” equivale a “3”
- Opção “Viúvo” equivale a “4”
Em geral, para questões com opções de resposta “Sim” ou “Não” se utiliza a codificação “1” para “Sim” e “0” para “Não”.
Você também pode alterar os nomes das variáveis, o que poderá facilitar o trabalho dependendo do software estatístico que será utilizado na análise. No nosso exemplo, fizemos as alterações renomeando as variáveis para “Q1”, “Q2”, “Q3”, etc, e para aquelas variáveis que surgiram de uma questão de múltipla escolha, para “Q6_01″, ¨Q6_02”, etc, onde Q6 representa a pergunta e os dois números finais a opção de resposta (Exemplo: “Util_Estudar” para “Q6_01”).
Neste ponto é extremamente indicado que seja utilizada uma outra aba no arquivo para que se registre toda a codificação realizada, para que não exista o risco de se perder alguma informação por faltar a correspondência correta entre o código da base de dados e a resposta dos formulários impressos.
Para isso, sugerimos que utilize:
- a primeira coluna para preencher o código da variável,
- a segunda para identificar a questão do questionário,
- a terceira para registrar a codificação utilizada.
Com os dados nessa estrutura, eles já estão prontos para serem utilizados facilmente em qualquer ambiente ou software de análise estatística.
Organização dos dados de estudo longitudinal
E no caso de um estudo longitudinal? Como organizar os dados de um mesmo indivíduo que foi medido mais de uma vez? Bom, nesse caso existem duas possibilidades que serão apresentadas em um de nossos futuros artigos. Por isso, não deixe de se inscrever no campo abaixo para receber em seu e-mail notificações sobre nossas publicações.
7 comentários em “Como organizar os dados para análise estatística?”
Muito bom agora eu posso produzir o meu tcc de forma correta
Muito obrigado pela informação!
Valeu João! Que bom que as dicas vão te ajudar no TCC.
Bom Dia. Excelente as informações prestadas pelo Site.
Muito obrigada pelas informações!!!! Me salvou rs.
De nada, Gizele. Estamos aqui pra isso!
Quando algum participante do estudo deixa de responder algumas questões, tem alguma coisa que posso fazer para não perder as respostas desse participante? Como isso interfere na análise de dados?
Bom dia, Lilian! Quando um participante não responde todas as respostas, deve-se analisar o quanto de informação está sendo perdida. Será necessário avaliar se isso prejudica a pesquisa/análise. A depender da metodologia, pode-se considerar os questionários que obtiveram pelo menos 80% das respostas. Mas vale salientar que isso varia de acordo com o estudo, metodologia e os dados.