2  Odhad

Cíle cvičení

  • Nestrannost odhadu
  • Zákon velkých čísel
  • Bodový a intervalový odhad
  • \(t\)-test

Obecně je odhadem v matematické statistice nazýváno určení parametru rozdělení hodnoty určitého znaku základního souboru s pomocí výběrového souboru.

Obecné charakteristiky základního souboru značíme písmeny řecké abecedy (např. \(\mu\), \(\sigma\), \(\ldots\)), pro výběrové charakteristiky volíme analogická písmena z latinky (\(\bar{x}, s_x, \ldots\)).

2.1 Nestrannost odhadu

V mnoha situacích potřebujeme odhadnout určitý parametr (střední hodnotu, \(90\%\) kvantil atp.) neznámé náhodné veličiny. Tento parametr odhadujeme pomocí nějaké statistiky výběru z této veličiny. Například odhadujeme střední hodnotu veličiny pomocí průměru. Abychom mohli určit hodnotu parametru (např. střední hodnotu) přesně, musel by být výběr nekonečně velký. Jelikož toto v praxi nenastane, náš odhad je vždy více či méně odlišný od skutečné hodnoty parametru (např. střední hodnoty) neznámé veličiny. Důležitou vlastností odhadu je nestrannost - o nestranném odhadu mluvíme pokud střední hodnota odhadu je rovna neznámému parametru.

V přednáškách o charakteristikách náhodné veličiny a jejich odhadech je zmíněna rovnice

\[ \dfrac{\sum\limits_{i=1}^{n}(x_i - \bar{x})^2}{n-1} \]

jako nestranný odhad veličiny \(X\). Z definice rozptylu \(\mathbb{E}[(X - \mathbb{E}(X^2))]\) však vyplývá odhad

\[ \dfrac{\sum\limits_{i=1}^{n}(x_i - \bar{x})^2}{n}. \]

Cvičení

7.1 Doplňte následující kód.

  • Napište funkce pro odhad ropztylu.
  • Zamyslete se, které proměnné nejsou určeny a doplňte je.
  • Spočtěte pro každou metodu průměrný odhad a systematickou chybu tohoto odhadu.
  • Který odhad je nejméně vychýlený a v jaké situaci?
Kód
X <- data.frame()
for (i in 1:nsim) {
  x <- rnorm(n)
  s_unb <- 1/(n-1)
  s_bia <- 1/n
  s_unb2 <- 1/(n-1)
  s_bia2 <- 1/n
  X <- rbind(X, c(s_unb, s_bia, s_unb2, s_bia2))
}
names(X) = c('UNB', 'BIA' , 'UNB2' ,'BIA2')

2.2 Bodový odhad

Bodovým odhadem se se rozumí jednočíselná hodnota, která reprezentuje vybraný moment statistického souboru jako celek. Bodovým odhadem je například výběrový průměr nebo výběrový rozptyl.

Kód
set.seed(100)
x <- rnorm(10, 10, 10)
mean(x)
## [1] 9.820428
var(x)
## [1] 31.48541

2.2.1 Zákon velkých čísel

Zákon velkých čísel popisuje skutečnost, že s rostoucím počtem opakování nezávislých náhodných pokusů se empirické charakteristiky (realizované výběrové odhady), které popisují výsledky těchto pokusů blíží k teoretickým charakteristikám.

Cvičení

7.2 Generujte s pomocí funkce rnorm postupně \(10\), \(10^2\), \(10^3\), \(10^4\) čísel se shodnou střední hodnotou a shodným rozptylem. Spočítejte \(\bar{x}\) a \({s^2}\) Okomentujte výsledky. Použijte nápovědu.

2.2.2 Odhad parametru \(\mu\), neboli střední hodnoty normálního rozdělení s neznámým rozptylem

Takto formulovaný bodový a intervalový je jednou z nejčastěji prováděných úloh. Nejprve bodovým odhadem zjistíme výběrový průměr souboru.

Kód
mean(x)
[1] 9.820428

Vidíme, že \(x =\) 4.9780765, 11.3153117, 9.2108291, 18.8678481, 11.1697127, 13.1863009, 4.1820932, 17.1453271, 1.7474057, 6.4013787. Pro tento průmer následně spočítáme interval spolehlivosti.

2.3 Intervalový odhad

V případech, kdy chceme znát polohu bodového odhadu s nějakou danou pravděpodobností, můžeme se pokusit zkonstruovat tzv. intervalový odhad.

\[ \bar{X} \pm \dfrac{s}{\sqrt{n}}t_{1-\alpha/2}(n-1) \]

\(100(1-\alpha)\%\) interval spolehlivosti je rozmezí, ve kterém se usuzovaná hodnota základního souboru bude nacházet s určitou pravěděpodobností.

Kód
alpha <- 0.05
cbind(
  mean(x) - sd(x)/length(x)*qt(p = 1 - alpha/2, df = length(x) - 1),
  mean(x) + sd(x)/length(x)*qt(p = 1 - alpha/2, df = length(x) - 1)
)
        [,1]     [,2]
[1,] 8.55109 11.08977

2.4 \(t\)-test

Nejjednodušší aplikací \(t\)-testu je Testovací statistika pro oboustrannou alternativu má hodnotu

\[ \dfrac{|\bar{x} - \mu_0|}{s}\sqrt{n} > t_{\alpha/2}(n-1) \] a pro jednostrannou alternativu \(\mu > \mu_0\)

\[ \dfrac{\bar{x} - \mu_0}{s}\sqrt{n} > t_{\alpha}(n-1) \] respektive

\[ \dfrac{\bar{x} - \mu_0}{s}\sqrt{n} < t_{\alpha}(n-1) \] pro \(\mu < \mu_0\). \(n-1\) je počet stupňů volnosti.

Cvičení

7.3 Spočítejte pomocí funkce t.test intervalový odhad pro x = rnorm(100) a set.seed(100).
7.4 Spočítejte, zda můžeme s pravděpodobností \(90\:\%\) zamítnout hypotézu, že střední hodnota veličiny generující výběr x <- c(0.77, 1.11, 1.14, 0.92, 0.49, 5.03, 1.35, 0.94, 0.33, 2.49) je menší než 1.
7.5 Pro stejný výběr spočítejte, zda je možné na hladině významnosti \(0.05\) zamítnout hypotézu, že střední hodnota veličiny generující výběr je rovna \(1\).