Popisná statistika má za cíle souhrnně popsat soubor (spíše než použít data k získání informací o populaci, o které se předpokládá, že vzorek dat reprezentuje).
Cíle cvičení
Provést import datové sady
Být schopen popsat číselné proměnné v datech popsat s pomocí uvedených statistik
6.1 Import dat
V hydrologii pracujeme s datovými sadami, které mají rúznou podobu. Nejběžnějším výměnným formát jsou stále obecné *.xls/*.xlsx, *.txt, *.csv (comma separated values). S pomocí těchto formátů jsou často katalogizována data z automatických měření. Dále méně časté formáty *.json (javascript object notation), *.shp (shapefile), *.laz, *.nc (NetCDF file), *.parquet (Apache parqet). A jako poslední doménově specifické *.RData, nebo *.rds. Formátů je velké množství, nicméně je velmi obtížné narazit na některý, pro který neexistuje v R možnost importu ať už v základní konfiguraci nebo s pomocí externích balíčků.
V RStudio se nachází poměrně propracovaný průvodce importem dat, který naklikneme pod záložkou Environment > Import Dataset.
Kód
global_temperatures <-read.csv(file ="./data/JonesGlobalT.csv", row.names =1)head(x = global_temperatures, n =5)
YEAR JAN FEB MAR APR MAY JUN JUL AUG SEP OCT
1 1850 -0.702 -0.284 -0.732 -0.570 -0.325 -0.213 -0.128 -0.233 -0.444 -0.452
2 1851 -0.303 -0.362 -0.485 -0.445 -0.302 -0.189 -0.215 -0.153 -0.108 -0.063
3 1852 -0.308 -0.477 -0.505 -0.559 -0.209 -0.038 -0.016 -0.195 -0.125 -0.216
4 1853 -0.177 -0.330 -0.318 -0.352 -0.268 -0.179 -0.059 -0.148 -0.409 -0.359
5 1854 -0.360 -0.280 -0.284 -0.349 -0.230 -0.215 -0.228 -0.163 -0.115 -0.188
NOV DEC ANNUAL
1 -0.190 -0.268 -0.375
2 -0.030 -0.067 -0.223
3 -0.187 0.083 -0.224
4 -0.256 -0.444 -0.271
5 -0.369 -0.232 -0.246
Aritmetický průměr hodnot na pozicích \(\frac{n}{2}\) a \(\frac{n}{2+1}\) v seřazeném souboru.
6.3.2 Modus
Za modus se označuje nejčastěji se vyskytující hodnota v souboru. Četnost výskytu hodnot na reálné ose se nahrazuje buďto hustotou (funkce density()) nebo je možné použít kombinaci funkcí cut() a table().
Funkce table() provede součty speficikovaných hodnot. V tomto případě po zaokrouhlení na celá čísla.
2
Nyní s pomocí funkce cut() rozlišíme četnosti do 10 intervalů a následně spočteme počet hodnot v těchto intervalech.
3
Jádrový odhad hustoty. \[
\hat{f}(x)=\dfrac{1}{nh}\sum_{i=1}^{n}\mathsf{K}\left(\dfrac{x-x_i}{h}\right)
\] kde \(\mathsf{K}\) je jádrová funkce, \(h\) je šířka pásma (zhlazovací funkce) a \(x_i\) jsou hodnoty.
Napište funkci pro výpočet obecného vzorce průměru \(\alpha\) a srovnejte s výstupem funkce mean.
6.4 Míry variability
Výběrový rozptyl a směrodatnou odchylku spočteme v R pomocí funkcí var() (variance) a sd()standard deviation. Zatímco variační rozpětí popisuje rozpětí celého souboru, mezikvartilové rozpětí se omezuje na rozpětí poloviny hodnot, omezené \(Q3\) a \(Q1\) neboli \(q_{75}\) a \(q_{25}\).
Pokud nás nezajímá pouze konkrétní statistika, jsou k dispozici funkce vracející více hodnot najednou.
Kód
fivenum(x)
[1] -2.2147 -0.3943 0.1291 0.7383 1.5953
Kód
summary(x)
Min. 1st Qu. Median Mean 3rd Qu. Max.
-2.2147 -0.3721 0.1291 0.1004 0.7280 1.5953
Poznámka
Funkce summary() je tzv. S3 generic, to znamená, že její chování je definované v závislosti na objekt, na který je volána. Podívejte se na výstup methods(summary). Pokud volána funkci na numerický vektor, tak je vybrána metoda summary.numeric().