Fundamentos de Estatística

Regressão de Poisson: exemplo de aplicação

março 26, 2020
8:00 am

Artigo desenvolvido com a colaboração de Leonardo Gonçalves

A Regressão de Poisson, também conhecida como Modelo Log-Linear de Poisson, faz parte da família de Modelos Lineares Generalizados (GLM) e é adequada para a modelagem de variáveis que envolvam dados de contagem ou taxas.

Pode ser utilizada para modelar, por exemplo, o número de acidentes em uma rodovia por dia, o número de gols na primeira fase do campeonato Brasileiro, o número de produtos vendidos por dia em uma loja, etc.

A Regressão Linear Simples, que faz uso da suposição de normalidade, não é adequada na modelagem de variáveis como as descritas acima, uma vez que essas são de caráter discreto e não assumem valores negativos – não existe “meio-gol” ou número de gols negativos.

Como uma característica de Modelo Linear Generalizado (GLM), a Regressão de Poisson utiliza a função de ligação “log”, a fim de possibilitar a interpretação dos resultados.

Controlando Variáveis de Contagem

As contagens muitas vezes precisam ser controladas por alguma característica da população de origem. Por exemplo, suponhamos que se deseja analisar o número de sanduíches vendidos em dois restaurantes de uma mesma franquia. Entretanto, o primeiro restaurante possui 20 funcionários, enquanto o segundo possui apenas 7.

Dessa forma, é melhor analisar o número de sanduíches vendidos controlando pelo número de funcionários, que é uma característica que denota a dimensão das lojas.

Exemplo de Aplicação: Incidência de Câncer de Pele Não Melanoma

Para ilustrar a aplicação da Regressão de Poisson, utilizaremos uma base de dados conhecida no meio científico que busca avaliar a incidência de câncer de pele não melanoma em mulheres em duas regiões dos Estados Unidos.

mapa dos Estados Unidos com as regiões de Minneapolis-St Paul e Dallas-Fort Worth destacadas

A primeira, Minneapolis-St Paul, é a área urbana mais populosa do estado de Minnesota, localizada na região Centro-Norte do país. A temperatura anual média no aeroporto internacional de Minneapolis–St. Paul é de 7,4 ºC.

A segunda região, Dallas-Fort Worth, é a maior área metropolitana do Sul dos EUA. Fort Worth, a segunda maior cidade da região, tem clima subtropical úmido. O mês mais quente (julho) apresenta temperatura média de 28,9 º C e o mês mais frio (janeiro) de 6º C.

O câncer de pele do tipo não melanoma é o tipo de câncer mais frequente sendo responsável por mais de 90% de todos os cânceres de pele. É também o que apresenta menor taxa de mortalidade, devido aos altos percentuais de cura quando detectado precocemente.

A tabela abaixo apresenta um resumo dos casos de câncer não melanoma em mulheres nas duas regiões por faixa etária. É possível observar uma tendência crescente no número de casos por faixa etária. Ainda, em números absolutos, a região de Dallas – Ft. Worth apresenta maior número de casos que a região Minneapolis – St. Paul, o que poderia se esperar devido as diferenças geoclimáticas entre as regiões.

Faixa Etária	Minneapolis – St. Paul	Dallas – Ft. Worth
Nº de Casos	População	Nº de Casos	População
15 – 24	1	172.675	4	181.343
25 – 34	16	123.065	38	146.207
35 – 44	30	96.216	119	121.347
45 – 54	71	92.051	221	111.353
55 – 64	102	72.051	259	83.004
65 – 74	130	54.722	310	55.932
75 – 84	133	32.185	226	29.007
85+	40	8.328	65	7.582

Inclusão de Offset

Como o tamanho da população por região e por faixa etária é diferente, não podemos analisar o número de casos de câncer isoladamente. Dessa forma, para o ajuste da Regressão de Poisson, deve haver a inclusão de uma componente do modelo, chamada offset, que é responsável por controlar o número de casos de câncer pela população em cada uma das faixas.

Como uma característica do modelo, o offset é incluído em escala logarítmica, para estar de acordo com a função de ligação utilizada.

Modelo de Regressão Log-Linear de Poisson

A tabela abaixo mostra o ajuste da Regressão de Poisson para o número de casos de câncer de pele não melanoma, utilizando a população como offset. É possível observar que houve diferença significativa (valor-p=0,000) entre as regiões, sendo que a incidência de câncer de pele não melanoma foi 2,23 [2,02; 2,47] vezes maior na região Dallas-Fort Worth, quando comparada a região Minneapolis-St Paul.

Além disso, houve diferença significativa (valor-p=0,000) das faixas etárias sobre a incidência de câncer de pele, sendo que quanto mais velhos os indivíduos, maior a incidência de câncer de pele não melanoma. Por exemplo, em comparação a faixa etária (15-24), a incidência foi 13,87 [19,24; 114,07] vezes maior na faixa etária (25-34) e 482,03 [196,82; 1180,53] vezes maior na faixa etária (85+).

Variáveis	β	E.P.(β)	Exp(β)	I.C.-95%	P-valor
Intercepto	-11,66	0,45	–	–	0,000
Região=Minneapolis-St Paul	–	–	1,00	–	–
Região= Dallas-Fort Worth	0,80	0,05	2,23	[2,02; 2,47]	0,000
Idade (15-24)	–	–	1,00	–	–
Idade (25-34)	2,63	0,47	13,87	[5,55; 34,65]	0,000
Idade (35-44)	3,85	0,45	46,85	[19,24; 114,07]	0,000
Idade (45-54)	4,60	0,45	98,99	[40,90; 239,60]	0,000
Idade (55-64)	5,09	0,45	161,90	[67,02; 391,11]	0,000
Idade (65-74)	5,65	0,45	282,87	[117,33; 682,01]	0,000
Idade (75-84)	6,06	0,45	427,52	[176,97; 1032,77]	0,000
Idade (85+)	6,18	0,46	482,03	[196,82; 1180,53]	0,000

Equação do Modelo de Regressão Poisson

Sendo g(X) a função de ligação, a equação do modelo é dada por:

Equação do modelo de regressão de Poisson

“I_Dallas“ recebe 1 quando a região é Dallas-Fort Worth e 0 quando a região é Minneapolis-St Paul, “I_Idade(25-34)“ recebe 1 quando a faixa etária é (25-34) e 0 para as demais faixas, etc.

Para calcular o número de casos de câncer não melanoma esperado/estimado pelo modelo, é necessário aplicar uma função inversa a função de ligação, sendo representada por:

Por exemplo, o número esperado/estimado pelo modelo para a região de Minneapolis-St Paul para a faixa etária de (55 – 64) é 100,90, sendo que o valor real foi de 102 casos. O número esperado/estimado para a mesma faixa etária e para a região de Dallas-Fort Worth é de 225,46 casos, sendo que o valor real foi de 259.

Fenômeno de Subdispersão e Superdispersão na Regressão de Poisson

Na teoria da Probabilidade, a distribuição de Poisson é conhecida por assumir que média e variância são iguais a uma taxa λ. Todavia, em casos reais, a variância dos dados pode ser menor ou maior que a média, causando no modelo os problemas de subdispersão ou superdispersão.

Uma maneira prática de testar este problema é a razão simples entre a média e a variância da dimensão de interesse. Caso o valor seja maior que 1, os dados são subdispersos e, caso o valor seja menor que 1, os dados são superdispersos.

Existem testes formais e adaptações da Regressão de Poisson para absorver a subdispersão ou superdispersão da variável resposta, que poderão ser discutidos em artigos futuros.

Como ajustar uma Regressão de Poisson?

A maioria dos ambientes e softwares de análise estatística possuem recursos para ajustar a Regressão de Poisson. O R, por exemplo, consegue ajustar Modelos Lineares Generalizados a partir do pacote base, usando a função glm().

Gostou do nosso conteúdo? Fique por dentro de todas as novidades do nosso blog seguindo a Oper no Instagram, Facebook e LinkedIn.

Artigos relacionados

6 comentários em “Regressão de Poisson: exemplo de aplicação”

Tatiana Pereira de Paula
maio 31, 2023 em 6:20 pm

Qual a diferença da regressão de Poisson para uma regressão linear multivariada ?

Responder
1. Ana Luiza
  junho 1, 2023 em 4:04 pm
  
  Oi Tatiana! A Regressão Linear Múltipla é um modelo de análise que usamos quando modelamos a relação linear entre uma variável de desfecho contínua e múltiplas variáveis preditoras que podem ser contínuas ou categóricas.
  
  Responder
  1. Ana Luiza
    junho 1, 2023 em 4:04 pm
    
    A Regressão de Poisson é adequada para a modelagem de variáveis que envolvam dados de contagem ou taxas. Por exemplo, pode ser utilizar para modelo o número de acidentes em uma rodovia por dia, o número de produtos vendidos por dia em uma loja, etc. Já a Regressão Linear Múltipla é um modelo de análise que usamos quando modelamos a relação linear entre uma variável de desfecho contínua e múltiplas variáveis preditoras que podem ser contínuas ou categóricas.
    
    Responder
    1. Ana Luiza
      junho 1, 2023 em 4:05 pm
      
      Uma diferença é que a suposição de normalidade não é adequada na modelagem de variáveis de contagem (usadas na Regressão de Poisson) já que são de caráter discreto e não assumem valores negativos.
      
      Responder
      1. Ana Luiza
        junho 1, 2023 em 4:05 pm
        
        Outra diferença está na interpretação das estimativas. No modelo de regressão linear estamos avaliando o aumento de 1 unidade na variável explicativa, e o quanto espera-se (em média) o acréscimo ou decréscimo na variável resposta. Por exemplo, com o aumento de 1 unidade na variável na idade, espera-se um aumento médio X na variável experiência profissional.
        Já na regressão de Poisson, estamos avaliando quantos vezes maior é a incidência da variável resposta com relação as variáveis explicativas. Por exemplo, a incidência de câncer de pele não melanoma foi 2,23 vezes maior na região Dallas-Fort Worth quando comparada a região de Minneapolis-St Paul (exemplo do artigo).
binance referral code
novembro 18, 2024 em 3:27 pm

Thanks for sharing. I read many of your blog posts, cool, your blog is very good.

Responder