Introdução

  • Vamos supor que um inspetor de segurança queira determinar se existe uma relação entre o número de horas de treinamento de um empregado e o número de acidentes envolvendo aquele empregado.
  • Ou ainda, que um psicólogo esteja interessado em saber se existe uma relação entre o número de horas que uma pessoa dorme por noite e o tempo de reação desta pessoa.
  • Como então determinar se estas relações existem?
  • Neste assunto iremos abordar a técnica de correlação, que neste caso é utilizada para determinar a relação linear entre duas variáveis quantitativas e também se esta relação é significativa.
  • Existem outras medidas de associação que não serão abordadas.

Coeficiente de correlação (Pearson)

  • O coeficiente de correlação amostral r foi introduzido por Karl Pearson para avaliar a associação entre duas variáveis quantitativas.
  • Na população, o parâmetro da correlação é representado pela letra grega rho (\(\rho\)).
  • Quando Pearson propôs o coeficiente de correlação, já existia uma medida de associação chamada de covariância.
  • A covariância é uma medida cujo domínio varia de \(-\infty\) à \(+\infty\) e é dependente da unidade de medida, sendo difícil avaliar a força de associação entre duas variáveis numericamente.

  • Vamos supor duas variáveis \(x\) e \(y\).

x <- c(6,5,9,10,3,4,8,7,6,2)
y <- c(7,6,10,9,2,3,9,5,6,3) 
plot(x,y)

 

  • Podemos observar graficamente que há uma forte relação entre as variáveis.
  • No entanto, o quão forte é esta relação?
  • Utilizando a covariância (função cov do R) para ter uma medida numérica desta relação, obteremos o seguinte resultado (a expressão matemática fica como tarefa de casa!):
cov(x,y)
## [1] 6.556
  • Podemos notar que a relação é positiva e graficamente já era de se esperar isto.
  • No entanto, \(6,56\) é um valor que expressa fortemente a relação entre as variáveis em quais intervalos? 0 a 10? 0 a 100? 0 a 1000?
  • A dúvida então permanece!
  • Vamos agora mudar a unidade de medida da variável \(y\) e verificar se o valor permanece o mesmo da covariância.
y1 <- y * 100
y2 <- y/100
cov(x,y1)
## [1] 655.6
cov(x,y2)
## [1] 0.06556
  • O exemplo acima mostra claramente a dependência da medida covariância da unidade de mensuração.
  • Ou seja, não conseguimos expressar numericamente por meio da covariância o quão forte estão relacionadas as variáveis.
  • O coeficiente de correlação de Pearson contorna os inconvenientes mencionados acima, sendo o cálculo efetuado da seguinte maneira:

\[ r_{xy}=\frac{cov_{xy}}{s_{x} s_{y}} \]

  • Utilizando os mesmos exemplos, veremos como se comporta o coeficiente de correlação.
  • A função do R é a cor.
cor(x,y)
## [1] 0.9104
cor(x,y1)
## [1] 0.9104
cor(x,y2)
## [1] 0.9104

Tipos de relação entre variáveis

  • Os valores do coeficiente de correlação se situam entre os intervalos \(-1\) e \(+1\), sendo que \(1\) representa uma relação perfeita e \(0\) ausência de relação entre as variáveis.
  • O sinal negativo indica uma relação contrária e positivo uma relação favorável entre as variáveis.

plot of chunk unnamed-chunk-5

Exemplo

  1. Um estudo do departamento de transportes sobre a velocidade ao volante e a milhagem de automóveis de tamanho médio resultou nos seguintes dados:
Velocidade ao Volante30 50 40 55 30 25 60 25 50 55
Milhagem 28 25 25 23 30 32 21 35 26 25
  • O primeiro passo é verificarmos o tipo de relação existentes entre as variáveis, ou seja, se é linear ou de outra natureza.
  • Uma maneira de verificarmos isto é por meio do gráfico de dispersão.
velocidade  <- c(30,50,40,55,30,25,60,25,50,55)
milhagem    <- c(28,25,25,23,30,32,21,35,26,25)
plot(velocidade,milhagem)

 

  • Percebe-se que a relação é linear, logo, podemos utilizar o coeficiente de correlação de Pearson.
cor(velocidade,milhagem)
## [1] -0.9104
  • Portanto, podemos concluir que a relação entre as variáveis é fortemente negativa (contrária), ou seja, a medida que aumentamos a velocidade ao volante a milhagem diminui.

Teste de hipótese para \(\rho=0\)

  • Uma vez que estamos interessados em saber a correlação entre as variáveis na população, e para isso, utilizamos um coeficiente amostral, devemos nos perguntar se aquele valor retornado pelo coeficiente de correlação de Pearson ocorreu por mero acaso ou se com uma determinada probabilidade esperaríamos aquela associação.
  • Logo, é pertinente testarmos se o coeficiente de correlação é igual a zero ou diferente, maior ou menor que zero.
  • No entanto, para realizarmos inferências sobre o coeficiente de correlação de Pearson, precisamos supor que a distribuição dos dados é normal bivariada.
  • Portanto, tem-se as seguintes hipóteses:

hipocor

  • Logo, tem-se a seguinte estatística de teste:

\[ t = \frac{r\sqrt{n-2}}{\sqrt{1-r^2}} \]

  • Em que t é a distribuição t de Student com \(n-2\) graus de liberdade.

Exemplo

  1. Considerando o exemplo anterior, vamos testar a hipótese de que \(\rho \neq 0\).
r = cor(velocidade,milhagem) # coeficiente de correlação
n = length(velocidade)       # tamanho da amostra
t_calc = (r*sqrt(n - 2))/sqrt(1-r^2) # estatística de teste
t_calc
## [1] -6.223
pvalor = pt(t_calc, n-2) * 2
pvalor
## [1] 0.0002531
# Utilizando uma função do R
cor.test(velocidade,milhagem)
## 
##  Pearson's product-moment correlation
## 
## data:  velocidade and milhagem
## t = -6.223, df = 8, p-value = 0.0002531
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.9789 -0.6578
## sample estimates:
##     cor 
## -0.9104
  • Adontando um \(\alpha=0,01\), podemos afirmar com 99% de confiança que existe associação entre as variáveis velocidade e milhagem.

Aplicação

  1. A Média Industrial Dow Jones (DJIA) e o Standard & Poor’s 500 (S&P500) são ambos utilizados como medidas do movimento global no mercado financeiro. A DJIA baseia-se no movimento de preços de 30 grandes empresas; o S&P500 é um índice composto de 500 títulos financeiros. Alguns dizem que o S&P500 é uma medida melhor do desempenho do mercado financeiro porque ele tem uma base mais ampla. Os preços de fechamento da DJIA e do S&P500 correspondentes a dez semanas, com início em 11 de fevereiro de 2000, são mostrados a seguir:
DataDJIAS&P500
11 de fevereiro 10425 1387
18 de fevereiro 10220 1346
25 de fevereiro 9862 1333
3 de março 10367 1409
10 de março 9929 1395
17 de março 10595 1464
24 de março 11113 1527
31 de março 10922 1499
7 de abril 11111 1516
14 de abril 10306 1357
—————– ——– ——–
  • Podemos afirmar que há uma associação entre os dois índices? Ela é significativa?