Artigo escrito com a colaboração de Maísa Andrade.
Em nosso dia a dia nos deparamos com diversas dúvidas a cerca de qual gráfico utilizar para apresentar e descrever os resultados encontrados nas análises.
Por isso vamos apresentar diferentes gráficos para os vários tipos de dados, mas, antes disso, é importante relembrar alguns detalhes para melhorar os gráficos esteticamente:
- adicionar rótulos aos eixos;
- adicionar título;
- passar o máximo de informação de forma clara;
- ter cuidado com o uso das cores;
- ter um padrão nas apresentações;
- evite rótulos longos, ou gire-os horizontalmente;
- muitas vezes, ordenar os dados traz um resultado mais satisfatório.
Dados categóricos
Variável de texto
Para apresentar uma variável de texto (livre), pode ser utilizada a nuvem de palavras. Neste exemplo, a pergunta feita foi “quais são seus motivos para ser docente?”.
Porém, a nuvem de palavras sozinha têm sido bem criticada no meio científico, então o ideal é que ela venha sempre acompanhada de um gráfico de barras com a frequência de cada palavra, como mostrado abaixo.
Dois ou mais níveis
Quando tivermos apenas uma variável categórica, com dois ou mais níveis, o gráfico mais adequado será o gráfico de barras.
Likert
Quando os dados estiverem em escala Likert, pode-se utilizar gráfico de barras com intervalo de confiança, tornando possível a comparação entre as médias.
Binárias
Quando as variáveis forem binárias ou estiverem em escala Likert e quiser comparar uma com as outras, pode-se utilizar o gráfico Likert. Em alguns casos, ele é melhor que o gráfico de barras com intervalo de confiança, pois, quando a escala tiver poucos elementos, não é ideal trata-lá como “numérica”, fazendo o IC.
Subgrupos
Caso queira avaliar como a amostra se comporta de acordo com grupos, poderá ser utilizado o dendrograma. Ele também pode ser utilizado para variáveis numéricas.
Duas ou mais variáveis
Para comparar duas ou mais variáveis categóricas, pode-se usar o gráfico de barras agrupado. Deve-se tomar cuidado com a largura das barras, e o espaço entre elas, de forma que fique claro a agrupamento.
Um gráfico interessante para ilustrar o relacionamento entre variáveis é o Diagrama de Sankey, que mostra o fluxo de dados de uma variável para outra. Alguns cuidados ao utilizar este gráfico:
- a posição dos nós é muito importante. Deve-se apresentar o gráfico de modo que não fique poluído. Para isso existem algoritmos que minimizam o número de cruzamentos entre os links;
- é aconselhável descartar conexões fracas para tornar o gráfico mais organizado.
Dados catégoricos e numéricos
Lollipop
O gráfico de pirulito é basicamente um gráfico de barras, porém com a “barra” transformada em uma linha e um ponto. Ele mostra a relação entre uma variável numérica e uma variável categórica. Além disso, pode ser utilizado para representar um gráfico de barras com muitas barras, ou o gráfico de radar, que tem sido bastante criticado no meio científico.
Dados Numéricos
Uma variável
Para descrever uma variável numérica, pode-se utilizar um histograma, um gráfico de densidade ou uma combinação dos dois.
O histograma e o gráfico de densidade podem ser utilizados para apresentar a distribuição de mais de uma variável. Quando ele é utilizado com apenas duas variáveis, pode-se utilizar os gráficos espelhados.
Porém, se houver muitas variáveis, o correto é utilizar gráficos de violino (+2000 linhas) ou boxplots (-2000 linhas), para não causar poluição visual.
Violino com boxplot
Pode ser útil incluir um boxplot no gráfico do violino para visualizar a distribuição dos dados e suas estatísticas resumidas.
Ordenado
Para descrever dados numéricos ordenados, pode ser usado um gráfico de pontos ou um gráfico de linhas (que apenas liga os pontos). Pode-se também, incrementá-lo, fazendo um gráfico de área.
Duas ou mais variáveis
Gráfico de dispersão
Utilizado geralmente para apresentar a distribuição dos pontos de acordo com duas variáveis numéricas. É útil para evidenciar um padrão de comportamento entre subgrupos e tendência linear.
Gráfico de contagem
Quando existem muitos pontos sobrepostos no gráfico de dispersão, uma alternativa é utilizar o gráfico de contagens. Nele, o tamanho do círculo aumenta proporcionalmente à quantidade de pontos sobrepostos.
Mapa de calor
Pelo mapa de calor pode-se ter uma visão geral dos dados, e visualizar em quais pontos ele possui os maiores valores para determinada variável, como a altitude, no exemplo a seguir.
Gráfico de superfície
Utilizando os mesmos dados do gráfico anterior para fazer um gráfico de superfície, com base no mapa de calor, temos um resultado interessante.
Gráfico de calor com dendograma
O heatmap também pode ser utilizado para a análise de cluster junto a um dendograma.
Gráfico bolha
O gráfico de bolha é um gráfico de dispersão em que uma terceira dimensão é adicionada. O valor de uma variável numérica adicional é representado pelo tamanho dos pontos.
Correlograma
O correlograma representa a matriz de correlação, que permite analisar a relação entre cada par de variáveis numéricas em um conjunto de dados.
PCA
Através da análise de componentes principais, é possível chegar a gráficos que mostram as inter-relações entre um grande número de variáveis e explicar essas variáveis como suas componentes.
Esse artigo foi útil para você? Você pode ler mais sobre o assunto no From Data to Viz e, se estiver programando em R, pode encontrar o código completo para boas visualizações no ggplot2 neste link aqui. Curta a Oper nas redes sociais para não perder nenhuma outra novidade.
2 comentários em “Quais gráficos usar em uma análise de dados?”
Tenho acompanhado o blog. O conteúdo está excelente!
Valeu Carlos!