Kód
<- data.frame()
X for (i in 1:nsim) {
<- rnorm(n)
x <- 1/(n-1)
s_unb <- 1/n
s_bia <- 1/(n-1)
s_unb2 <- 1/n
s_bia2 <- rbind(X, c(s_unb, s_bia, s_unb2, s_bia2))
X
}names(X) = c('UNB', 'BIA' , 'UNB2' ,'BIA2')
Obecně je odhadem v matematické statistice nazýváno určení parametru rozdělení hodnoty určitého znaku základního souboru s pomocí výběrového souboru.
Obecné charakteristiky základního souboru značíme písmeny řecké abecedy (např. \(\mu\), \(\sigma\), \(\ldots\)), pro výběrové charakteristiky volíme analogická písmena z latinky (\(\bar{x}, s_x, \ldots\)).
V mnoha situacích potřebujeme odhadnout určitý parametr (střední hodnotu, \(90\%\) kvantil atp.) neznámé náhodné veličiny. Tento parametr odhadujeme pomocí nějaké statistiky výběru z této veličiny. Například odhadujeme střední hodnotu veličiny pomocí průměru. Abychom mohli určit hodnotu parametru (např. střední hodnotu) přesně, musel by být výběr nekonečně velký. Jelikož toto v praxi nenastane, náš odhad je vždy více či méně odlišný od skutečné hodnoty parametru (např. střední hodnoty) neznámé veličiny. Důležitou vlastností odhadu je nestrannost - o nestranném odhadu mluvíme pokud střední hodnota odhadu je rovna neznámému parametru.
V přednáškách o charakteristikách náhodné veličiny a jejich odhadech je zmíněna rovnice
\[ \dfrac{\sum\limits_{i=1}^{n}(x_i - \bar{x})^2}{n-1} \]
jako nestranný odhad veličiny \(X\). Z definice rozptylu \(\mathbb{E}[(X - \mathbb{E}(X^2))]\) však vyplývá odhad
\[ \dfrac{\sum\limits_{i=1}^{n}(x_i - \bar{x})^2}{n}. \]
7.1 Doplňte následující kód.
<- data.frame()
X for (i in 1:nsim) {
<- rnorm(n)
x <- 1/(n-1)
s_unb <- 1/n
s_bia <- 1/(n-1)
s_unb2 <- 1/n
s_bia2 <- rbind(X, c(s_unb, s_bia, s_unb2, s_bia2))
X
}names(X) = c('UNB', 'BIA' , 'UNB2' ,'BIA2')
Bodovým odhadem se se rozumí jednočíselná hodnota, která reprezentuje vybraný moment statistického souboru jako celek. Bodovým odhadem je například výběrový průměr nebo výběrový rozptyl.
set.seed(100)
<- rnorm(10, 10, 10)
x mean(x)
## [1] 9.820428
var(x)
## [1] 31.48541
Zákon velkých čísel popisuje skutečnost, že s rostoucím počtem opakování nezávislých náhodných pokusů se empirické charakteristiky (realizované výběrové odhady), které popisují výsledky těchto pokusů blíží k teoretickým charakteristikám.
7.2 Generujte s pomocí funkce rnorm
postupně \(10\), \(10^2\), \(10^3\), \(10^4\) čísel se shodnou střední hodnotou a shodným rozptylem. Spočítejte \(\bar{x}\) a \({s^2}\) Okomentujte výsledky. Použijte nápovědu.
Takto formulovaný bodový a intervalový je jednou z nejčastěji prováděných úloh. Nejprve bodovým odhadem zjistíme výběrový průměr souboru.
mean(x)
[1] 9.820428
Vidíme, že \(x =\) 4.9780765, 11.3153117, 9.2108291, 18.8678481, 11.1697127, 13.1863009, 4.1820932, 17.1453271, 1.7474057, 6.4013787. Pro tento průmer následně spočítáme interval spolehlivosti.
V případech, kdy chceme znát polohu bodového odhadu s nějakou danou pravděpodobností, můžeme se pokusit zkonstruovat tzv. intervalový odhad.
\[ \bar{X} \pm \dfrac{s}{\sqrt{n}}t_{1-\alpha/2}(n-1) \]
\(100(1-\alpha)\%\) interval spolehlivosti je rozmezí, ve kterém se usuzovaná hodnota základního souboru bude nacházet s určitou pravěděpodobností.
<- 0.05
alpha cbind(
mean(x) - sd(x)/length(x)*qt(p = 1 - alpha/2, df = length(x) - 1),
mean(x) + sd(x)/length(x)*qt(p = 1 - alpha/2, df = length(x) - 1)
)
[,1] [,2]
[1,] 8.55109 11.08977
Nejjednodušší aplikací \(t\)-testu je Testovací statistika pro oboustrannou alternativu má hodnotu
\[ \dfrac{|\bar{x} - \mu_0|}{s}\sqrt{n} > t_{\alpha/2}(n-1) \] a pro jednostrannou alternativu \(\mu > \mu_0\)
\[ \dfrac{\bar{x} - \mu_0}{s}\sqrt{n} > t_{\alpha}(n-1) \] respektive
\[ \dfrac{\bar{x} - \mu_0}{s}\sqrt{n} < t_{\alpha}(n-1) \] pro \(\mu < \mu_0\). \(n-1\) je počet stupňů volnosti.
7.3 Spočítejte pomocí funkce t.test
intervalový odhad pro x = rnorm(100)
a set.seed(100)
.
7.4 Spočítejte, zda můžeme s pravděpodobností \(90\:\%\) zamítnout hypotézu, že střední hodnota veličiny generující výběr x <- c(0.77, 1.11, 1.14, 0.92, 0.49, 5.03, 1.35, 0.94, 0.33, 2.49)
je menší než 1.
7.5 Pro stejný výběr spočítejte, zda je možné na hladině významnosti \(0.05\) zamítnout hypotézu, že střední hodnota veličiny generující výběr je rovna \(1\).