Regressão linear (definição, exemplos) - Como interpretar?

O que é uma regressão linear?

A regressão linear é basicamente uma técnica de modelagem estatística que costumava mostrar a relação entre uma variável dependente e uma ou mais variáveis ​​independentes. É um dos tipos mais comuns de análise preditiva. Esse tipo de distribuição se forma em uma linha, portanto, é chamado de regressão linear. Neste artigo, tomaremos os exemplos de Análise de Regressão Linear no Excel.

Para fazer a análise de regressão linear primeiro, precisamos adicionar suplementos do Excel seguindo as etapas.

Clique em Arquivo - Opções (isso abrirá a janela pop-up de opções do Excel para você).

Clique em Suplementos - Selecione Suplementos do Excel na lista suspensa Gerenciar no excel e clique em Ir.

Isso abrirá o pop-up de suplementos. Selecione Analysis ToolPak e clique em OK.

O suplemento de análise de dados aparecerá na guia Inserir.

Deixe-nos entender pelos exemplos abaixo de análise de regressão linear no Excel.

Exemplos de análise de regressão linear

Exemplo 1

Suponha que temos vendas mensais e gastos com marketing no ano passado, e agora precisamos prever as vendas futuras com base nas vendas e marketing do ano passado.

Mês Propaganda Vendas
Jan 40937 502729
Fev 42376 507553
Mar 43355 516885
Abr 44126 528347
Pode 45060 537298
Junho 49546 544066
Jul 56105 553664
Agosto 59322 563201
Set 59877 568657
Out 60481 569384
Nov 62356 573764
Dez 63246 582746

Clique em Análise de dados na guia Dados, e isso abrirá o Pop up de análise de dados para você.

Agora selecione Regressão na lista e clique em OK.

O pop-up de regressão será aberto.

Selecione Intervalo de vendas $ C $ 1: $ C $ 13 na caixa do eixo Y, pois essa é a variável dependente e $ B $ 1: $ B $ 14 no eixo X, pois o anúncio gasto é a variável independente.

Marque a caixa de rótulos se você selecionou cabeçalhos nos dados, caso contrário, o erro será exibido.

Selecione Intervalo de saída se quiser obter o valor no intervalo específico da planilha, caso contrário, selecione Nova folha de trabalho: e isso adicionará uma nova planilha e fornecerá o resultado.

Em seguida, marque a caixa Residuais e clique em OK.

Isso adicionará planilhas e fornecerá o seguinte resultado.

Vamos entender a saída.

Resultado de Resumo

R múltiplo: representa o coeficiente de correlação. O valor 1 mostra um relacionamento positivo e o valor 0 não mostra nenhum relacionamento.

R Square: R Square representa o coeficiente de determinação. Isso informa a porcentagem de pontos que caem na linha de regressão. 0,49 significa que 49% dos valores se encaixam no modelo

Quadrado R ajustado : Este é o quadrado R ajustado, que requer quando você tem mais de uma variável X.

Erro padrão: representa uma estimativa do desvio padrão do erro. Esta é a precisão com que o coeficiente de regressão é medido.

Observações: Este é o número de observações que você fez em uma amostra.

ANOVA - Df: Graus de liberdade

SS: Soma dos quadrados.

MS: temos dois MS

  • Regressão MS é Regressão SS / Regressão Df.
  • MS residual é o erro quadrático médio (SS residual / Df residual).

F: Teste F para a hipótese nula.

Significância F: Valores P associados à Significância

Coeficiente: o coeficiente fornece a estimativa de mínimos quadrados.

Estatística T: Estatística T para a hipótese nula vs a hipótese alternativa.

Valor P: Este é o valor p para o teste de hipótese.

95% inferior e 95% superior: estes são os limites inferior e superior do intervalo de confiança

Saída de resíduos: temos 12 observações com base nos dados. A coluna representa as vendas previstas e os resíduos da coluna. Os resíduos são basicamente a diferença entre as vendas previstas e as reais.

Exemplo # 2

Selecione as vendas previstas e coluna de marketing

Vá para o grupo de gráficos na guia inserir. Selecione o ícone do gráfico de dispersão

Isso irá inserir o gráfico de dispersão no Excel. Veja a imagem abaixo

Clique com o botão direito em qualquer ponto e selecione Adicionar Trendline no Excel. Isso adicionará uma linha de tendência ao seu gráfico.

  • Você pode formatar a linha de tendência clicando com o botão direito do mouse em qualquer lugar da linha de tendência e, a seguir, selecione formatar linha de tendência.
  • Você pode fazer mais melhorias no gráfico. ou seja, formatar a linha de tendência, cor e título de mudança, etc.
  • Você também pode mostrar a fórmula no gráfico, verificando a fórmula Exibir no gráfico e exibir o valor R ao quadrado no gráfico.

Mais alguns exemplos de análise de regressão linear:

  1. A previsão da venda da Umbrella baseada na chuva aconteceu na área.
  2. Previsão de AC vendida com base na temperatura no verão.
  3. Durante a temporada de exames, as vendas de Papelaria basicamente, as vendas de guias de Exame aumentaram.
  4. Previsão de vendas quando a publicidade é feita com base na série High TRP onde um anúncio é feito, popularidade do embaixador da marca e as pegadas no local de espera onde um anúncio está sendo publicado.
  5. Vendas de uma casa com base na localidade, área e preço.

Exemplo # 3

Suponha que temos nove alunos com seu nível de QI e o número que pontuaram no Teste.

Aluna Pontuação do teste QI
RAM 100 145
Shyam 97 140
Kul 93 130
Kappu 91 125
Raju 89 115
Vishal 86 110
Vivek 82 100
Vinay 78 95
Kumar 75 90

Etapa 1: primeiro, descubra as variáveis ​​dependentes e independentes. Aqui, a pontuação do teste é a variável dependente e o IQ é a variável independente, pois a pontuação do teste varia conforme o QI muda.

Etapa 2: Vá para a guia Dados - Clique em Análise de dados - Selecione a regressão - clique em OK.

Isso abrirá a janela Regressão para você.

Etapa 3. Insira a faixa de pontuação do teste em Input Y Range Box e IQ em Input X Range Box. (Marque em Labels se você tiver cabeçalhos em seu intervalo de dados. Selecione as opções de saída e, em seguida, verifique os Residuais desejados. Clique em OK.

Você obterá o resultado resumido mostrado na imagem abaixo.

Etapa 4: Analisando a regressão por resumo de saída

Resultado de Resumo

R múltiplo: aqui, o coeficiente de correlação é 0,99, o que é muito próximo de 1, o que significa que a relação linear é muito positiva.

R Square: o valor de R Square é 0,983, o que significa que 98,3% dos valores se ajustam ao modelo.

Valor P: aqui, o valor P é 1.86881E-07, que é muito menor que 0,1, o que significa que o IQ tem valores preditivos significativos.

Veja o gráfico abaixo.

Você pode ver que quase todos os pontos estão caindo em linha ou em uma linha de tendência próxima.

Exemplo # 4

Precisamos prever as vendas de AC com base nas vendas e temperatura de um mês diferente.

Mês Temp Vendas
Jan 25 38893
Fev 28 42254
Mar 31 42845
Abr 33 47917
Pode 37 51243
Junho 40 69588
Jul 38 56570
Agosto 37 50000

Siga as etapas abaixo para obter o resultado da regressão.

Etapa 1: primeiro, descubra as variáveis ​​dependentes e independentes. Aqui, Vendas é a variável dependente e Temperatura é uma variável independente, pois as Vendas variam conforme a Temperatura muda.

Etapa 2: Vá para a guia Dados - Clique em Análise de dados - Selecione a regressão - clique em OK.

Isso abrirá a janela Regressão para você.

Etapa 3. Insira as vendas na caixa de intervalo Y de entrada e Temp na caixa de intervalo de entrada X. (Marque em Labels se você tiver cabeçalhos em seu intervalo de dados. Selecione as opções de saída e, em seguida, verifique os Residuais desejados. Clique em OK.

Isso lhe dará um resultado resumido conforme abaixo.

Etapa 4: analise o resultado.

R múltiplo: aqui, o coeficiente de correlação é 0,877, que é próximo a 1, o que significa que a relação linear é positiva.

R Square: o valor de R Square é 0,770, o que significa que 77% dos valores se ajustam ao modelo

Valor P: aqui, o valor P é 1.86881E-07, que é muito menor que 0,1, o que significa que o IQ tem valores preditivos significativos.

Exemplo # 5

Agora vamos fazer uma análise de regressão para múltiplas variáveis ​​independentes:

Você precisa prever as vendas de um celular que vai ser lançado no próximo ano. Você tem o preço e a população dos países que estão afetando as vendas de celulares.

Versão móvel Vendas Quantidade População
NOS 63860 858 823
Reino Unido 61841 877 660
KZ 60876 873 631
CH 58188 726 842
HN 52728 864 573
AU 52388 680 809
NZ 51075 728 661
RU 49019 689 778

Siga as etapas abaixo para obter o resultado da regressão.

Etapa 1. Primeiro, descubra as variáveis ​​dependentes e independentes. Aqui, as vendas são variáveis ​​dependentes, quantidade e população. Ambas são variáveis ​​independentes, pois as vendas variam de acordo com a quantidade e a população do país.

Etapa 2. Vá para a guia Dados - Clique em Análise de dados - Selecione a regressão - clique em OK.

Isso abrirá a janela Regressão para você.

Etapa 3. Insira as vendas na caixa de intervalo Y de entrada e selecione a quantidade e a população na caixa de intervalo de entrada X. (Marque em Labels se você tiver cabeçalhos em seu intervalo de dados. Selecione as opções de saída e, em seguida, verifique os Residuais desejados. Clique em OK.

Agora execute a regressão usando a análise de dados na guia Dados. Isso lhe dará o resultado abaixo.

Resultado de Resumo

R múltiplo: aqui, o coeficiente de correlação é 0,93, o que é muito próximo de 1, o que significa que a relação linear é muito positiva.

R Square: o valor de R Square é 0,866, o que significa que 86,7% dos valores se ajustam ao modelo.

Significância F: Significância F é menor que 0,1, o que significa que a equação de regressão tem valor preditivo significativo.

Valor P : se você olhar o valor P para Quantidade e População, verá que os valores são menores que 0,1, o que significa que a quantidade e a população têm um valor preditivo significativo. Os menos valores de P significam que uma variável tem valores preditivos mais significativos.

No entanto, tanto a quantidade quanto a população têm valor preditivo significativo, mas se você olhar o valor P para quantidade e população, poderá ver que a quantidade tem um valor P menor no Excel do que População. Isso significa que a quantidade tem um valor preditivo mais significativo do que a População.

Coisas para lembrar

  • Sempre verifique as variáveis ​​dependentes e independentes sempre que estiver selecionando qualquer dado.
  • A análise de regressão linear considera a relação entre a Média das variáveis.
  • Este apenas modela a relação entre as variáveis ​​que são lineares
  • Às vezes, não é a melhor solução para um problema do mundo real. Por exemplo: (Idade e salários). Na maioria das vezes, o salário aumenta com o aumento da idade. No entanto, após a aposentadoria, a idade aumenta, mas os salários diminuem.

Artigos interessantes...