Introdução
- Usualmente, é impraticável observar toda uma população, seja pelo custo elevado, mão de obra disponível entre outros fatores.
- Ao conjunto de técnicas e procedimentos que permitem dar ao pesquisador um grau de confiabilidade, de confiança, nas afirmações que faz para a população, baseados nos resultados das amostras, damos o nome de Inferência estatística.
Geralmente o objetivo final da maioria das pesquisas não é apenas descrever as características da amostra analisada mas, a partir delas, tirar conclusões gerais a respeito da população.
Conceitos fundamentais
-
Para que possamos entender bem a inferência, alguns conceitos precisam estar bem concretos.
- População: é o conjunto de elementos para os quais desejamos que as conclusões da pesquisa sejam válidas, desde que, os elementos possuam pelo menos uma característica comum e observável.
- Amostra: fixada uma população, é qualquer subconjunto formado exclusivamente por seus elementos.
- Parâmetro: são características numéricas de uma população.
- Estimador: são características numéricas de uma amostra.
- Estimativa: é o valor que o estimador assume.
- Erro amostral: é a diferença entre um estimador e o parâmetro que se quer estimar.
-
Em síntese,
Propriedades dos estimadores
Intuitivamente, as características que seriam desejáveis para o estimador (que usaremos para estimar o parâmetro desconhecido) devem ser:
-
Consistência: quando o tamanho da amostra cresce arbitrariamente, o valor estimado se aproxima do parâmetro desconhecido.
-
Ausência de viés: o valor médio que se obtém da estimativa para diferentes amostras deve ser o valor do parâmetro.
A título de demonstração, vamos escolher uma população hipotética de tamanho igual a cinco (N = 5).
N <- 5
pop <- seq(1,N)
pop
## [1] 1 2 3 4 5
Logo, a média (μ) e o variância populacional (σ2) são:
mu <- mean(pop)
mu
## [1] 3
varpop <- function(x) sum((x - mean(x))^2)/length(x)
sigma2 <- varpop(pop)
sigma2
## [1] 2
Vamos coletar todas as amostras possíveis desta população com reposição de tamanho igual a dois (n = 2). Relembrando, se a população tem tamanho igual a N, então o número de amostras possíveis com reposição é Nn.
amo <- expand.grid(Elemento1=1:N,Elemento2=1:N)
amo
## Elemento1 Elemento2
## 1 1 1
## 2 2 1
## 3 3 1
## 4 4 1
## 5 5 1
## 6 1 2
## 7 2 2
## 8 3 2
## 9 4 2
## 10 5 2
## 11 1 3
## 12 2 3
## 13 3 3
## 14 4 3
## 15 5 3
## 16 1 4
## 17 2 4
## 18 3 4
## 19 4 4
## 20 5 4
## 21 1 5
## 22 2 5
## 23 3 5
## 24 4 5
## 25 5 5
De cada amostra vamos estimar a média ().
amo$xbarra <- rowMeans(amo)
amo
## Elemento1 Elemento2 xbarra
## 1 1 1 1.0
## 2 2 1 1.5
## 3 3 1 2.0
## 4 4 1 2.5
## 5 5 1 3.0
## 6 1 2 1.5
## 7 2 2 2.0
## 8 3 2 2.5
## 9 4 2 3.0
## 10 5 2 3.5
## 11 1 3 2.0
## 12 2 3 2.5
## 13 3 3 3.0
## 14 4 3 3.5
## 15 5 3 4.0
## 16 1 4 2.5
## 17 2 4 3.0
## 18 3 4 3.5
## 19 4 4 4.0
## 20 5 4 4.5
## 21 1 5 3.0
## 22 2 5 3.5
## 23 3 5 4.0
## 24 4 5 4.5
## 25 5 5 5.0
Ex <- mean(amo$xbarra)
Ex
## [1] 3
O valor esperado das médias amostrais é igual ao parâmetro da população?
Ex==mu
## [1] TRUE
Vamos agora verificar a ausência de viés do estimador (S2). No entanto, antes de continuarmos iremos primeiro matar uma curiosidade sua do porquê que a variância amostral utiliza o denominador (n-1) e não (n). Primeiramente vamos estimar a variância de cada amostra utilizando como denominador (n) e vamos verificar se ele é viesado ou não.
amo$varn <- apply(amo[,-3], 1, function(x) varpop(x))
amo
## Elemento1 Elemento2 xbarra varn
## 1 1 1 1.0 0.00
## 2 2 1 1.5 0.25
## 3 3 1 2.0 1.00
## 4 4 1 2.5 2.25
## 5 5 1 3.0 4.00
## 6 1 2 1.5 0.25
## 7 2 2 2.0 0.00
## 8 3 2 2.5 0.25
## 9 4 2 3.0 1.00
## 10 5 2 3.5 2.25
## 11 1 3 2.0 1.00
## 12 2 3 2.5 0.25
## 13 3 3 3.0 0.00
## 14 4 3 3.5 0.25
## 15 5 3 4.0 1.00
## 16 1 4 2.5 2.25
## 17 2 4 3.0 1.00
## 18 3 4 3.5 0.25
## 19 4 4 4.0 0.00
## 20 5 4 4.5 0.25
## 21 1 5 3.0 4.00
## 22 2 5 3.5 2.25
## 23 3 5 4.0 1.00
## 24 4 5 4.5 0.25
## 25 5 5 5.0 0.00
Evarn <- mean(amo$varn)
Evarn
## [1] 1
O valor esperado da variância amostral quando dividida apenas por (n) é igual a variância populacional?
Evarn == sigma2
## [1] FALSE
Logo, quando o denorminador utilizado é (n), a variância amostral se torna viesada. Agora verificaremos a ausência de viés quando o denominador é (n-1).
amo$varnmenos1 <- apply(amo[,-c(3:4)], 1, function(x) var(x))
amo
## Elemento1 Elemento2 xbarra varn varnmenos1
## 1 1 1 1.0 0.00 0.0
## 2 2 1 1.5 0.25 0.5
## 3 3 1 2.0 1.00 2.0
## 4 4 1 2.5 2.25 4.5
## 5 5 1 3.0 4.00 8.0
## 6 1 2 1.5 0.25 0.5
## 7 2 2 2.0 0.00 0.0
## 8 3 2 2.5 0.25 0.5
## 9 4 2 3.0 1.00 2.0
## 10 5 2 3.5 2.25 4.5
## 11 1 3 2.0 1.00 2.0
## 12 2 3 2.5 0.25 0.5
## 13 3 3 3.0 0.00 0.0
## 14 4 3 3.5 0.25 0.5
## 15 5 3 4.0 1.00 2.0
## 16 1 4 2.5 2.25 4.5
## 17 2 4 3.0 1.00 2.0
## 18 3 4 3.5 0.25 0.5
## 19 4 4 4.0 0.00 0.0
## 20 5 4 4.5 0.25 0.5
## 21 1 5 3.0 4.00 8.0
## 22 2 5 3.5 2.25 4.5
## 23 3 5 4.0 1.00 2.0
## 24 4 5 4.5 0.25 0.5
## 25 5 5 5.0 0.00 0.0
Evarnmenos1 <- mean(amo$varnmenos1)
Evarnmenos1
## [1] 2
O valor esperado da variância amostral quando dividida por (\(n-1\)) é igual a variância populacional?
Evarnmenos1 == sigma2
## [1] TRUE
Portanto, podemos concluir que este último estimador é não viesado. Convém ressaltar que, quando o tamanho amostral tende ao infinito, o estimador que utiliza o denominador (n) torna-se não viesado, fato este que pode ser visualizado nesta simulação.