Artigo escrito com a colaboração de Maísa Andrade.
Em nosso dia a dia nos deparamos com diversas dúvidas a cerca de qual gráfico utilizar para apresentar e descrever os resultados encontrados nas análises.
Por isso vamos apresentar diferentes gráficos para os vários tipos de dados, mas, antes disso, é importante relembrar alguns detalhes para melhorar os gráficos esteticamente:
- adicionar rótulos aos eixos;
- adicionar título;
- passar o máximo de informação de forma clara;
- ter cuidado com o uso das cores;
- ter um padrão nas apresentações;
- evite rótulos longos, ou gire-os horizontalmente;
- muitas vezes, ordenar os dados traz um resultado mais satisfatório.
Dados categóricos
Variável de texto
Para apresentar uma variável de texto (livre), pode ser utilizada a nuvem de palavras. Neste exemplo, a pergunta feita foi “quais são seus motivos para ser docente?”.
![nuvem de palavras](https://statplace.com.br/wp-content/uploads/2020/08/wordcloud.png)
Porém, a nuvem de palavras sozinha têm sido bem criticada no meio científico, então o ideal é que ela venha sempre acompanhada de um gráfico de barras com a frequência de cada palavra, como mostrado abaixo.
![gráfico de barras para complementar a nuvem de palavras](https://statplace.com.br/wp-content/uploads/2020/08/barplot-1.png)
Dois ou mais níveis
Quando tivermos apenas uma variável categórica, com dois ou mais níveis, o gráfico mais adequado será o gráfico de barras.
![gráfico de barras](https://statplace.com.br/wp-content/uploads/2020/08/barplot2-1.png)
Likert
Quando os dados estiverem em escala Likert, pode-se utilizar gráfico de barras com intervalo de confiança, tornando possível a comparação entre as médias.
![escala Likert](https://statplace.com.br/wp-content/uploads/2020/08/likert-1.png)
Binárias
Quando as variáveis forem binárias ou estiverem em escala Likert e quiser comparar uma com as outras, pode-se utilizar o gráfico Likert. Em alguns casos, ele é melhor que o gráfico de barras com intervalo de confiança, pois, quando a escala tiver poucos elementos, não é ideal trata-lá como “numérica”, fazendo o IC.
![gráfico Likert para variáveis binárias](https://statplace.com.br/wp-content/uploads/2020/08/binary-1.png)
Subgrupos
Caso queira avaliar como a amostra se comporta de acordo com grupos, poderá ser utilizado o dendrograma. Ele também pode ser utilizado para variáveis numéricas.
![dendograma para representar subgrupos](https://i0.wp.com/operdata.com.br/wp-content/uploads/2020/08/dendogram-1.png?fit=1030%2C736&ssl=1)
Duas ou mais variáveis
Para comparar duas ou mais variáveis categóricas, pode-se usar o gráfico de barras agrupado. Deve-se tomar cuidado com a largura das barras, e o espaço entre elas, de forma que fique claro a agrupamento.
![](https://statplace.com.br/wp-content/uploads/2020/08/bar.red_.blue_-1.png)
Um gráfico interessante para ilustrar o relacionamento entre variáveis é o Diagrama de Sankey, que mostra o fluxo de dados de uma variável para outra. Alguns cuidados ao utilizar este gráfico:
- a posição dos nós é muito importante. Deve-se apresentar o gráfico de modo que não fique poluído. Para isso existem algoritmos que minimizam o número de cruzamentos entre os links;
- é aconselhável descartar conexões fracas para tornar o gráfico mais organizado.
![Diagrama de Sankey](https://statplace.com.br/wp-content/uploads/2020/09/africa.png)
Dados catégoricos e numéricos
Lollipop
O gráfico de pirulito é basicamente um gráfico de barras, porém com a “barra” transformada em uma linha e um ponto. Ele mostra a relação entre uma variável numérica e uma variável categórica. Além disso, pode ser utilizado para representar um gráfico de barras com muitas barras, ou o gráfico de radar, que tem sido bastante criticado no meio científico.
![gráfico de pirulito](https://i0.wp.com/operdata.com.br/wp-content/uploads/2020/08/lolli-1.png?fit=1030%2C736&ssl=1)
Dados Numéricos
Uma variável
Para descrever uma variável numérica, pode-se utilizar um histograma, um gráfico de densidade ou uma combinação dos dois.
![histograma e gráfico de densidade](https://i1.wp.com/operdata.com.br/wp-content/uploads/2020/08/greenplot.png?fit=1030%2C736&ssl=1)
O histograma e o gráfico de densidade podem ser utilizados para apresentar a distribuição de mais de uma variável. Quando ele é utilizado com apenas duas variáveis, pode-se utilizar os gráficos espelhados.
![histograma e gráfico de densidade espelhados](https://i0.wp.com/operdata.com.br/wp-content/uploads/2020/08/density-1.png?fit=1030%2C736&ssl=1)
Porém, se houver muitas variáveis, o correto é utilizar gráficos de violino (+2000 linhas) ou boxplots (-2000 linhas), para não causar poluição visual.
![boxplot e gráfico violino](https://i0.wp.com/operdata.com.br/wp-content/uploads/2020/08/boxplot.violin.png?fit=1030%2C736&ssl=1)
Violino com boxplot
Pode ser útil incluir um boxplot no gráfico do violino para visualizar a distribuição dos dados e suas estatísticas resumidas.
![boxplot e violino juntos](https://i1.wp.com/operdata.com.br/wp-content/uploads/2020/08/boxplotviolin-1.png?fit=1030%2C736&ssl=1)
Ordenado
Para descrever dados numéricos ordenados, pode ser usado um gráfico de pontos ou um gráfico de linhas (que apenas liga os pontos). Pode-se também, incrementá-lo, fazendo um gráfico de área.
![gráfico de linha](https://i2.wp.com/operdata.com.br/wp-content/uploads/2020/08/bitvoin.png?fit=1030%2C736&ssl=1)
Duas ou mais variáveis
Gráfico de dispersão
Utilizado geralmente para apresentar a distribuição dos pontos de acordo com duas variáveis numéricas. É útil para evidenciar um padrão de comportamento entre subgrupos e tendência linear.
![scatterplot](https://i0.wp.com/operdata.com.br/wp-content/uploads/2020/08/scatter-1.png?fit=1030%2C736&ssl=1)
Gráfico de contagem
Quando existem muitos pontos sobrepostos no gráfico de dispersão, uma alternativa é utilizar o gráfico de contagens. Nele, o tamanho do círculo aumenta proporcionalmente à quantidade de pontos sobrepostos.
![](https://i1.wp.com/operdata.com.br/wp-content/uploads/2020/08/scatter.-bubble-1.png?fit=1030%2C736&ssl=1)
Mapa de calor
Pelo mapa de calor pode-se ter uma visão geral dos dados, e visualizar em quais pontos ele possui os maiores valores para determinada variável, como a altitude, no exemplo a seguir.
![heatmap](https://i0.wp.com/operdata.com.br/wp-content/uploads/2020/08/heatmap.png?fit=1030%2C736&ssl=1)
Gráfico de superfície
Utilizando os mesmos dados do gráfico anterior para fazer um gráfico de superfície, com base no mapa de calor, temos um resultado interessante.
![Gráfico de superfície](https://statplace.com.br/wp-content/uploads/2020/09/3d-1.png)
Gráfico de calor com dendograma
O heatmap também pode ser utilizado para a análise de cluster junto a um dendograma.
![gráfico de calor com dendograma](https://i1.wp.com/operdata.com.br/wp-content/uploads/2020/09/heat2-1.png?fit=1030%2C710&ssl=1)
Gráfico bolha
O gráfico de bolha é um gráfico de dispersão em que uma terceira dimensão é adicionada. O valor de uma variável numérica adicional é representado pelo tamanho dos pontos.
![gráfico bolha](https://i1.wp.com/operdata.com.br/wp-content/uploads/2020/09/bubble.png?fit=1030%2C664&ssl=1)
Correlograma
O correlograma representa a matriz de correlação, que permite analisar a relação entre cada par de variáveis numéricas em um conjunto de dados.
![correlograma](https://statplace.com.br/wp-content/uploads/2020/08/correlogram.png)
PCA
Através da análise de componentes principais, é possível chegar a gráficos que mostram as inter-relações entre um grande número de variáveis e explicar essas variáveis como suas componentes.
![](https://i0.wp.com/operdata.com.br/wp-content/uploads/2020/08/PCA1.png?fit=1030%2C736&ssl=1)
Esse artigo foi útil para você? Você pode ler mais sobre o assunto no From Data to Viz e, se estiver programando em R, pode encontrar o código completo para boas visualizações no ggplot2 neste link aqui. Curta a Oper nas redes sociais para não perder nenhuma outra novidade.
2 comentários em “Quais gráficos usar em uma análise de dados?”
Tenho acompanhado o blog. O conteúdo está excelente!
Valeu Carlos!