Regressão (significado, tipos) - O que é análise de regressão?

O que é regressão?

A análise de regressão é uma medida baseada em estatística usada em finanças, investimentos, etc., que visa estabelecer uma relação entre uma variável dependente e outras séries de variáveis ​​independentes, e o foco principal é determinar a força da relação acima.

Explicações

  • Para explicar a análise de regressão em termos leigos, vamos supor que o chefe de vendas de uma empresa esteja se esforçando para prever as vendas do mês seguinte. São inúmeros os fatores envolvidos que estão impulsionando as vendas do produto, desde o clima até a nova estratégia do concorrente, festival e mudança no estilo de vida dos consumidores.
  • Este é um método de alinhamento dos vários fatores que afetam a venda, que são os que têm maior impacto. Pode ajudar a responder a muitas perguntas como quais são os fatores mais importantes, quais fatores são menos importantes, qual é a relação entre esses fatores e, o mais importante, qual é a garantia desses fatores.
  • Esses fatores são chamados de variáveis. O principal fator que estamos tentando prever é chamado de variável dependente, e os outros fatores que têm impacto sobre a variável dependente são chamados de variáveis ​​independentes.

Fórmula

A análise de regressão linear simples no Excel pode ser expressa como a fórmula abaixo e mede a relação entre uma variável dependente e uma variável independente.

Y = a + bX + ϵ

Aqui:

  • Y - variável dependente
  • X - Variável independente (explicativa)
  • a - Interceptar
  • b - Declive
  • ϵ - Residual (erro)

Como interpretar a análise de regressão?

Isso pode ser interpretado assumindo um cenário simples. Aqui estamos tomando a relação entre os preços da coleção de antiguidades para leilão e a duração de sua idade. Quanto mais uma antiguidade envelhece, maior é o preço que ela cobra. Assumindo que definimos dados para os últimos 50 itens que foram leiloados, podemos prever quais serão os preços de leilão futuros com base na idade do item. Usando esses dados, podemos construir uma equação de regressão.

A fórmula de regressão que pode estabelecer uma relação entre idade e preço é a seguinte:

y = β0 + β1 x + erro
  • Aqui, o fator dependente é Y. Y representa o preço de cada item a ser leiloado, enquanto o fator independente é X, que determina a idade.
  • Os parâmetros β0 e β1 são parâmetros que não são conhecidos e serão estimados pela equação.
  • β0 é uma constante usada para definir a linha de tendência linear que intercepta o eixo Y.
  • β1 é uma constante que demonstra a magnitude da mudança no valor da variável dependente como uma função relacionada à mudança implícita nas variáveis ​​independentes.
  • Isso é basicamente chamado de inclinação da equação. Quando a inclinação é um liner, isso significa que há uma relação proporcional entre idade e preço, e onde a inclinação é inversa, significa que a relação é indiretamente proporcional.
  • O erro pode ser definido como o ruído ou variação na variável alvo e é de natureza aleatória.

Exemplos da vida real de análise de regressão

Vamos supor que precisamos estabelecer uma relação entre as vendas ocorridas e o valor gasto em publicidade relacionada a um produto.

Em geral, podemos observar uma relação positiva entre a quantidade de vendas e o valor gasto com publicidade. Aliando a equação de regressão linear simples, temos:

Y = a + bX

Suponha que recebamos o valor como

Y = 500 + 30X

Interpretação do resultado:

A inclinação prevista de 30 nos ajuda a chegar à conclusão de que as vendas médias aumentam US $ 30 por ano à medida que os gastos com propaganda aumentam.

Tipos de análise de regressão

# 1 - Linear

Isso pode ser expresso como a fórmula abaixo e mede a relação entre uma variável dependente e uma variável independente.

# 2 - Polinômio

Neste método, a análise é usada para medir a relação entre fatores dependentes únicos e múltiplas variáveis ​​independentes.

# 3 - Logística

Aqui, o fator ou variável dependente é de natureza binária. As variáveis ​​independentes podem ser contínuas ou binárias. Na regressão logística multinomial, podemos nos dar ao luxo de ter mais de duas categorias ao escolher nossa variável independente.

# 4 - Quantil

Este é um conceito aditivo de regressão linear e é usado principalmente quando outliers e assimetria estão presentes nos dados.

# 5 - Rede Elástica

Isso é útil quando se trata de variáveis ​​independentes correlacionadas muito altas.

# 6 - Regressão de componentes principais (PCR)

Esta é uma técnica que é aplicável quando existem muitas variáveis ​​independentes ou multicolinearidade nos dados

# 7 - Mínimos quadrados parciais (PLS)

É um método oposto do componente principal, onde temos variáveis ​​independentes altamente correlacionadas. Também é aplicável quando existem muitas variáveis ​​independentes.

# 8 - Vetor de suporte

Isso pode fornecer uma solução para modelos lineares e não lineares. Ele faz uso de funções de kernel não lineares para encontrar a solução ideal para modelos não lineares.

# 9 - Ordinal

É aplicável à previsão de valores classificados. Basicamente, é adequado quando a variável dependente é de natureza ordinal

# 10 - Poisson

Isso é aplicável quando a variável dependente possui dados de contagem.

# 11 - Binomial negativo

Também é aplicável para gerenciar dados de contagem apenas que a regressão binomial negativa não assume a distribuição da contagem com variância igual à sua média, enquanto a regressão de Poisson assume a variância igual à sua média.

# 12 - Quasi Poisson

É um substituto para a regressão binomial negativa. Também é aplicável a dados de contagem dispersos. A variância de um modelo quase Poisson é uma função linear da média, enquanto a variância de um modelo binomial negativo é uma função quadrática da média.

# 13 - Cox

É mais usado para analisar dados de tempo até o evento.

Diferença entre regressão e correlação

  • A regressão estabelece a relação entre uma variância independente e uma variável dependente onde ambas as variáveis ​​são diferentes, enquanto a correlação determina a associação ou dependência de duas variáveis ​​onde não há diferença entre as duas variáveis.
  • O principal objetivo da regressão é criar uma linha de melhor ajuste e a estimativa de uma variável é feita com base nas outras, enquanto na correlação demonstra a relação linear entre duas variáveis.
  • Nesse caso, estimamos a magnitude de uma certa mudança na variável reconhecida (X) sobre a variável estimada (Y), enquanto, em correlação, o coeficiente é usado para medir em que medida as duas variáveis ​​estão se movendo juntas.
  • É um processo de estimar a magnitude de variáveis ​​independentes aleatórias com base na magnitude de uma variável dependente estática, enquanto a correlação nos ajuda a decidir um determinado valor para expressar a interdependência entre ambas as variáveis.

Conclusão

  • A análise de regressão usa principalmente dados para estabelecer uma relação entre duas ou mais variáveis. Aqui, presume-se que os relacionamentos existentes no passado também serão refletidos no presente ou no futuro. Poucos consideram isso como um lapso de tempo entre o passado e o presente / futuro.
  • No entanto, é uma técnica de previsão e estimativa amplamente utilizada. Embora envolva matemática, que muitos usuários podem achar difícil, a técnica é comparativamente fácil de ser usada, especialmente quando um modelo está disponível.

Artigos interessantes...