Toggle Dark-Mode
$\overline{x} = \frac{1}{n} \sum x_i$
citlivý na odlehlé hodnoty !!
upravený průměr (trimmed mean) = ořezání extrémních hodnot
vážený průměr - není tak typické najít dobré váhy
$\overline{x_G} = \sqrt[n]{\Pi x_i}$
typicky pro výpočet průměrného tempa růstu
$\overline{x_G} \leq \overline{x}$ skoro vždy
“obrácená hodnota obrácených hodnot”
pro hodnoty nesymetricky rozptýlené okolo středu
$\overline{x_H} = { n \over \sum \frac{1}{x_i}}$
metrika F1
$\overline{x_H} \leq \overline{x_G} \leq \overline{x}$
potřebuje seřazený seznam
můžeme odhadnout distribuovaně pomocí rozdělení hodnoty na intervaly a četností zjistíme ve kterém intervalu se bude medián nacházet
$$
median = L_1 + \left( { \frac{n}{2} - \sum_l f_l \over f_{median} } \right) c
$$
$L_1$ je dolní mez intervalu, ve kterém bude
$c$ = velikost intervalu v němž bude medián
$\frac{n}{2}$ - pozice mediánu (“uprostřed”)
$f_{median}$ = četnost prvků ve stejném intervalu jako je medián
$\sum_l f_l$ - součet četnosti prvků v intervalech nižších než je interval, ve kterém se medián nachází
nejčastější hodnota v datech
empirická formule pro málo vychýlená data: $\overline{x} - = 3 - modus$
pozitivně vychýlená - často měření s časem
tvořená $q-1$ hodnot $q_k$
$q$ - stupeň kvantilu (počet intervalů)
$k$ - pořadové číslo kvantilu
$k$-tý $q$-kvantil je hodnota $q_k$ náhodné veličiny $X$, pro kterou platí: $P(X \leq q_k) \geq \frac{k}{q} \land P(X \geq q_k) \geq 1 - \frac{k}{q}$
$q-1$ $q$-kvantilů rozděluje uspořádaný soubor hodnot na $q$ přibližně stejně početných intervalů
$R = x_{max} - x_{min}$
ovlivněna extrémními hodnotami
$IQR = q_3 - q_1$
$50%$ střeních hodnot, odlehlá hodnota x: $(x < q_1 - 1.5 IQR) \cup (x > q_3 + 1.5 IQR)$
$s^2 = \frac{1}{n-1} \sum^n_{i=1} (x_i - \overline{x})^2$
$\sigma^2 = \frac{1}{n} \sum^n_{i=1} (x_i - \overline{x})^2 = \frac{1}{n} \sum^n_{i=1} x_i^2 - \overline{x}^2$
směrodatná odchylka $s = \sqrt{s^2}$
$68%$ hodnot leží v $< \mu - \sigma, \mu + \sigma>$
$95%$ hodnot leží v $< \mu - 2\sigma, \mu + 2\sigma>$
$99.7%$ hodnot leží v $< \mu - 3\sigma, \mu + 3\sigma>$
Mediánová absolutní odchylka (median absolute deviation)
$MAD = median(|x_i − median|)$
(Průměrná) absolutní odchylka (mean absolute deviation)
$MAD = \frac{1}{n} \sum |x_i - \overline{x}|$
Variační koeficient $k = \frac{s}{\overline{x}}$
máme 2 datové sady, stejný rozptyl, rozdílný průměr, např 100 vs 10 a rozptyl 5, chceme vyjádřit jak dalekou jsou hodnoty v daných sadách