A fórmula de outlier fornece uma ferramenta gráfica para calcular os dados que estão localizados fora de um determinado conjunto de distribuição que pode ser interno ou externo dependendo das variáveis.
Qual é a Fórmula Outlier?
Um outlier é o ponto de dados de determinada amostra ou observação ou em uma distribuição que deve estar fora do padrão geral. Uma regra comumente usada que diz que um ponto de dados será considerado um outlier se tiver mais de 1,5 IQR abaixo do primeiro quartil ou acima do terceiro quartil.
Dito de outra forma, os outliers baixos devem estar abaixo de Q1-1.5 IQR e os outliers altos devem estar Q3 + 1.5IQR
É necessário calcular mediana, quartis, incluindo IQR, Q1 e Q3.
A fórmula outlier é representada da seguinte forma,
A Fórmula para Q1 = ¼ (n + 1) º termo A Fórmula para Q3 = ¾ (n + 1) º termo A Fórmula para Q2 = Q3 - Q1

Cálculo passo a passo de outlier
As etapas a seguir devem ser seguidas para calcular o valor discrepante.
- Etapa 1: primeiro calcule os quartis, ou seja, Q1, Q2 e interquartil
- Etapa 2: Agora calcule o valor Q2 * 1,5
- Etapa 3: agora subtraia o valor Q1 do valor calculado na Etapa 2
- Etapa 4: aqui adicione Q3 com o valor calculado na etapa 2
- Etapa 5: crie o intervalo dos valores calculados na Etapa 3 e na Etapa 4
- Etapa 6: Organize os dados em ordem crescente
- Etapa 7: verifique se há algum valor abaixo ou acima do intervalo criado na Etapa 5.
Exemplo
Considere um conjunto de dados com os seguintes números: 10, 2, 4, 7, 8, 5, 11, 3, 12. Você deve calcular todos os valores discrepantes.
Solução:
Primeiro, precisamos organizar os dados em ordem crescente para encontrar a mediana, que será Q2 para nós.
2, 3, 4, 5, 7, 8, 10, 11, 12

Agora, uma vez que o número de observações é ímpar, o qual é 9, a mediana que se encontram em um 5 th posição, que é 7, e o mesmo será Q2 para este exemplo.
Portanto, o cálculo de Q1 é o seguinte -
Q1 = ¼ (9 + 1)
= ¼ (10)
Q1 será -

Q1 = 2,5 termo
Isso significa que Q1 é a média da 2ª e 3ª posições das observações, que é 3 e 4 aqui, e uma média da mesma é (3 + 4) / 2 = 3,5
Portanto, o cálculo do Q3 é o seguinte -

Q3 = ¾ (9 + 1)
= ¾ (10)
Q3 será -

Q3 = termo de 7,5
Isto significa que Q3 é a média da 7 th e 8 th posição das observações, o qual é de 10 & 11 aqui, e uma média dos mesmos é (10 + 11) / 2 = 10,5
Agora, os valores discrepantes baixos devem estar abaixo de Q1-1.5IQR, e os valores discrepantes altos devem ficar em Q3 + 1.5IQR
Portanto, os valores são 3,5 - (1,5 * 7) = -7 e o intervalo superior é 10,5 + (1,5 * 7) = 110,25.
Como não há observações acima ou abaixo de 110,25 e -7, não temos nenhum valor discrepante nesta amostra.
Exemplo de fórmula atípica no Excel (com modelo do Excel)
Aulas de coaching criativo estão considerando recompensar os alunos que estão entre os 25% melhores. No entanto, eles querem evitar quaisquer discrepâncias. Os dados são para os 25 alunos. Use a equação outlier para determinar se há um outlier?
Solução:
Abaixo estão dados para calcular o outlier.

O número de observações aqui é 25, e nosso primeiro passo seria converter os dados brutos acima em ordem crescente.
A mediana será -

O valor mediano = ½ (n + 1)
= ½ = ½ (26)
= 13 th termo
O 2º trimestre ou mediana é 68,00
Que é 50% da população.
Q1 será -

Q1 = ¼ (n + 1) º termo
= ¼ (25 + 1)
= ¼ (26)
= 6,5º termo, que equivale ao 7º termo
O Q1 é 56,00, que é 25% inferior
Q3 será -

Finalmente, Q3 = ¾ (n + 1) º termo
= ¾ (26)
= 19,50 termo
Aqui, as necessidades médias de ser feita, o que é de 19 th e 20 th termos que são 77 e 77 e a média do mesmo é (77 + 77) / 2 = 77,00
O terceiro trimestre é de 77, que são os 25% principais
Baixo alcance
Agora, os valores discrepantes baixos devem estar abaixo de Q1-1.5IQR, e os valores discrepantes altos devem ficar em Q3 + 1.5IQR

Grande alcance -

Portanto, os valores são 56 - (1,5 * 68) = -46 e o intervalo superior é 77 + (1,5 * 68) = 179.
Não há outliers.
Relevância e usos
É muito importante saber a fórmula de outliers, pois pode haver dados que seriam distorcidos por esse valor. Tome um exemplo das observações 2, 4, 6, 101, e agora se alguém tirar uma média desses valores, será 28,25, mas 75% das observações estão abaixo de 7 e, portanto, seria uma decisão incorreta em relação às observações de esta amostra.
Pode-se notar aqui que 101 parece claramente delinear, e se isso for removido, então a média seria 4, o que significa que os valores ou observações estão dentro da faixa de 4. Portanto, é muito importante conduzir isso cálculo para evitar qualquer uso indevido de informações principais dos dados. Eles são amplamente utilizados por estatísticos em todo o mundo sempre que estão conduzindo qualquer pesquisa.