LEC - Introdução a inferência

Introdução

Usualmente, é impraticável observar toda uma população, seja pelo custo elevado, mão de obra disponível entre outros fatores.

Ao conjunto de técnicas e procedimentos que permitem dar ao pesquisador um grau de confiabilidade, de confiança, nas afirmações que faz para a população, baseados nos resultados das amostras, damos o nome de Inferência estatística.

introInf

Geralmente o objetivo final da maioria das pesquisas não é apenas descrever as características da amostra analisada mas, a partir delas, tirar conclusões gerais a respeito da população.

Conceitos fundamentais

Para que possamos entender bem a inferência, alguns conceitos precisam estar bem concretos.
- População: é o conjunto de elementos para os quais desejamos que as conclusões da pesquisa sejam válidas, desde que, os elementos possuam pelo menos uma característica comum e observável.
- Amostra: fixada uma população, é qualquer subconjunto formado exclusivamente por seus elementos.
- Parâmetro: são características numéricas de uma população.
- Estimador: são características numéricas de uma amostra.
- Estimativa: é o valor que o estimador assume.
- Erro amostral: é a diferença entre um estimador e o parâmetro que se quer estimar.
Em síntese,

conc

Propriedades dos estimadores

Intuitivamente, as características que seriam desejáveis para o estimador (que usaremos para estimar o parâmetro desconhecido) devem ser:

Consistência: quando o tamanho da amostra cresce arbitrariamente, o valor estimado se aproxima do parâmetro desconhecido.

Ausência de viés: o valor médio que se obtém da estimativa para diferentes amostras deve ser o valor do parâmetro.

A título de demonstração, vamos escolher uma população hipotética de tamanho igual a cinco (N = 5).

N <- 5
pop <- seq(1,N)
pop

## [1] 1 2 3 4 5

Logo, a média (μ) e o variância populacional (σ²) são:

mu <- mean(pop)
mu

## [1] 3

varpop <- function(x) sum((x - mean(x))^2)/length(x)
sigma2 <- varpop(pop) 
sigma2

## [1] 2

Vamos coletar todas as amostras possíveis desta população com reposição de tamanho igual a dois (n = 2). Relembrando, se a população tem tamanho igual a N, então o número de amostras possíveis com reposição é Nⁿ.

amo <- expand.grid(Elemento1=1:N,Elemento2=1:N)
amo

##    Elemento1 Elemento2
## 1          1         1
## 2          2         1
## 3          3         1
## 4          4         1
## 5          5         1
## 6          1         2
## 7          2         2
## 8          3         2
## 9          4         2
## 10         5         2
## 11         1         3
## 12         2         3
## 13         3         3
## 14         4         3
## 15         5         3
## 16         1         4
## 17         2         4
## 18         3         4
## 19         4         4
## 20         5         4
## 21         1         5
## 22         2         5
## 23         3         5
## 24         4         5
## 25         5         5

De cada amostra vamos estimar a média ( $\bar{X}$ ).

amo$xbarra <- rowMeans(amo)
amo

##    Elemento1 Elemento2 xbarra
## 1          1         1    1.0
## 2          2         1    1.5
## 3          3         1    2.0
## 4          4         1    2.5
## 5          5         1    3.0
## 6          1         2    1.5
## 7          2         2    2.0
## 8          3         2    2.5
## 9          4         2    3.0
## 10         5         2    3.5
## 11         1         3    2.0
## 12         2         3    2.5
## 13         3         3    3.0
## 14         4         3    3.5
## 15         5         3    4.0
## 16         1         4    2.5
## 17         2         4    3.0
## 18         3         4    3.5
## 19         4         4    4.0
## 20         5         4    4.5
## 21         1         5    3.0
## 22         2         5    3.5
## 23         3         5    4.0
## 24         4         5    4.5
## 25         5         5    5.0

Ex <- mean(amo$xbarra)
Ex

## [1] 3

O valor esperado das médias amostrais é igual ao parâmetro da população?

Ex==mu

## [1] TRUE

Vamos agora verificar a ausência de viés do estimador (S²). No entanto, antes de continuarmos iremos primeiro matar uma curiosidade sua do porquê que a variância amostral utiliza o denominador (n-1) e não (n). Primeiramente vamos estimar a variância de cada amostra utilizando como denominador (n) e vamos verificar se ele é viesado ou não.

amo$varn       <- apply(amo[,-3], 1, function(x) varpop(x))
amo

##    Elemento1 Elemento2 xbarra varn
## 1          1         1    1.0 0.00
## 2          2         1    1.5 0.25
## 3          3         1    2.0 1.00
## 4          4         1    2.5 2.25
## 5          5         1    3.0 4.00
## 6          1         2    1.5 0.25
## 7          2         2    2.0 0.00
## 8          3         2    2.5 0.25
## 9          4         2    3.0 1.00
## 10         5         2    3.5 2.25
## 11         1         3    2.0 1.00
## 12         2         3    2.5 0.25
## 13         3         3    3.0 0.00
## 14         4         3    3.5 0.25
## 15         5         3    4.0 1.00
## 16         1         4    2.5 2.25
## 17         2         4    3.0 1.00
## 18         3         4    3.5 0.25
## 19         4         4    4.0 0.00
## 20         5         4    4.5 0.25
## 21         1         5    3.0 4.00
## 22         2         5    3.5 2.25
## 23         3         5    4.0 1.00
## 24         4         5    4.5 0.25
## 25         5         5    5.0 0.00

Evarn <- mean(amo$varn)
Evarn

## [1] 1

O valor esperado da variância amostral quando dividida apenas por (n) é igual a variância populacional?

Evarn == sigma2

## [1] FALSE

Logo, quando o denorminador utilizado é (n), a variância amostral se torna viesada. Agora verificaremos a ausência de viés quando o denominador é (n-1).

amo$varnmenos1 <- apply(amo[,-c(3:4)], 1, function(x) var(x)) 
amo

##    Elemento1 Elemento2 xbarra varn varnmenos1
## 1          1         1    1.0 0.00        0.0
## 2          2         1    1.5 0.25        0.5
## 3          3         1    2.0 1.00        2.0
## 4          4         1    2.5 2.25        4.5
## 5          5         1    3.0 4.00        8.0
## 6          1         2    1.5 0.25        0.5
## 7          2         2    2.0 0.00        0.0
## 8          3         2    2.5 0.25        0.5
## 9          4         2    3.0 1.00        2.0
## 10         5         2    3.5 2.25        4.5
## 11         1         3    2.0 1.00        2.0
## 12         2         3    2.5 0.25        0.5
## 13         3         3    3.0 0.00        0.0
## 14         4         3    3.5 0.25        0.5
## 15         5         3    4.0 1.00        2.0
## 16         1         4    2.5 2.25        4.5
## 17         2         4    3.0 1.00        2.0
## 18         3         4    3.5 0.25        0.5
## 19         4         4    4.0 0.00        0.0
## 20         5         4    4.5 0.25        0.5
## 21         1         5    3.0 4.00        8.0
## 22         2         5    3.5 2.25        4.5
## 23         3         5    4.0 1.00        2.0
## 24         4         5    4.5 0.25        0.5
## 25         5         5    5.0 0.00        0.0

Evarnmenos1 <- mean(amo$varnmenos1)
Evarnmenos1

## [1] 2

O valor esperado da variância amostral quando dividida por ($n-1$) é igual a variância populacional?

Evarnmenos1 == sigma2

## [1] TRUE

Portanto, podemos concluir que este último estimador é não viesado. Convém ressaltar que, quando o tamanho amostral tende ao infinito, o estimador que utiliza o denominador (n) torna-se não viesado, fato este que pode ser visualizado nesta simulação.

Introdução a inferência

Introdução

Conceitos fundamentais

Propriedades dos estimadores

Últimos Artigos