Fórmula para calcular a correlação
Correlação é uma medida estatística entre duas variáveis e é definida como a mudança de quantidade em uma variável correspondente à mudança em outra e é calculada pela soma do produto da soma da primeira variável menos a média da primeira variável na soma da segunda variável menos a média da segunda variável dividida pelo todo sob a raiz do produto do quadrado da primeira variável menos a média da primeira variável na soma do quadrado da segunda variável menos a média da segunda variável.
O valor de correlação é limitado entre -1 e +1 e pode ser interpretado da seguinte forma:
- -1: Se for -1, as variáveis são conhecidas como perfeitamente correlacionadas negativamente. Isso significa que se uma variável está se movendo em uma direção, então outra está se movendo na direção oposta.
- 0: Isso significa que a variável não está tendo nenhuma correlação.
- +1: Se for +1, as variáveis são conhecidas como perfeitamente correlacionadas positivamente. Ambas as variáveis estão se movendo em direções positivas.
Se tivermos 2 variáveis x e y, o coeficiente de correlação entre 2 variáveis pode ser encontrado como:
Coeficiente de correlação = ∑ (x (i) - média (x)) * (y (i) -média (y)) / √ (∑ (x (i) -média (x)) 2 * ∑ (y (i) -médio (y)) 2 )
Onde,
- x (i) = valor de x na amostra
- Média (x) = média de todos os valores de x
- y (i) = valor de y na amostra
- Média (y) = média de todos os valores de y
Exemplos
É fácil calcular a correlação no Excel. A sintaxe da função usada é a seguinte:
Coeficiente de correlação = CORREL (matriz1, matriz2)
Exemplo 1
Vamos pegar o mesmo exemplo que vimos acima para calcular a correlação usando o Excel.
Solução:
Abaixo estão os valores de x e y:

O cálculo é o seguinte.

Fórmula de base do Excel = CORREL (matriz (x), matriz (y))

Coeficiente = +0,95
Como esse coeficiente está próximo de +1, portanto, xey são altamente correlacionados positivamente.
Exemplo # 2
A correlação é útil principalmente para analisar o preço das ações de empresas e criar uma carteira de ações com base nisso.
Vamos descobrir a correlação das ações da Apple com o índice Nasdaq com base no desempenho das ações no último ano. A Apple é uma empresa multinacional com sede nos Estados Unidos, especializada em produtos de TI, como iPod, iPad, Mac, etc.
Solução:
Abaixo está o retorno mensal das ações da Apple e Nasdaq no último ano:

Vamos agora inserir os valores -
Coeficiente de correlação = ∑ (x (i) - média (x)). (Y (i) -média (y)) / √ ∑ (x (i) -média (x)) 2 ∑ (y (i) - média (y)) 2

Correlação entre Apple e Nasdaq = 0,039 / (√0,0039)

Coeficiente = 0,62
Como a correlação entre a Apple e a Nasdaq é positiva, portanto, a Apple está positivamente correlacionada com a Nasdaq.
Exemplo # 3
Vejamos agora a correlação entre o Walmart e o índice Nasdaq com base no desempenho das ações no último ano. O Walmart é uma empresa com sede nos Estados Unidos que possui uma rede varejista de supermercados.
Solução:
Abaixo está o desempenho mensal entre Walmart e Nasdaq no último ano

Vamos agora inserir os valores na fórmula -
Coeficiente de correlação = ∑ (x (i) - média (x)). (Y (i) -média (y)) / √ ∑ (x (i) -média (x)) 2 ∑ (y (i) - média (y)) 2
Portanto, o cálculo é o seguinte,

Correlação entre Walmart e Nasdaq = 0,0032 / (√0,0346 * 0,0219)

Coeficiente = 0,12
Podemos ver que o Walmart e o Nasdaq também estão positivamente correlacionados, mas não tanto em comparação com a correlação da Apple com o Nasdaq.
Relevância e Uso
Um coeficiente de correlação é útil para estabelecer a relação linear entre duas variáveis. Ele mede como uma variável se moverá em comparação com o movimento de outra variável. O uso prático desse coeficiente é descobrir a relação entre o movimento do preço das ações com o movimento geral do mercado. A base desta análise, um analista de ações, incluirá a proporção de ações para criar uma carteira ideal com risco mínimo. Além disso, é útil em ciência de dados descobrir a relação entre 2 variáveis.
Além disso, o coeficiente de correlação é muito usado para estudar a validade de construto dos dados na análise fatorial. É muito usado em análise de regressão para prever os valores das variáveis dependentes com base na relação entre as variáveis dependentes e independentes. Esta equação é bastante útil em análises quantitativas para obter a natureza da relação entre várias variáveis. A base dessa relação, se uma variável não estiver relacionada a outras variáveis, ela pode ser eliminada da lista.