Korelační analýza

Kvantitativní atributy

Pearsonův korelační koeficient atributů A,B
- používá kovariaci ${ \sum_i ( a_i - \overline{A} )( b_i - \overline{B} ) \over (n - 1)}$ $$r_{A,B} = { \sum_i ( a_i - \overline{A} )( b_i - \overline{B} ) \over (n - 1) \sigma_A \sigma_B} = { \sum_i ( a_i b_i ) - n \overline{A} \overline{B} \over (n - 1) \sigma_A \sigma_B}$$
- $r_{A,B} > 0$ pozitivně korelované
- $r_{A,B} = 0$ nezávislé
- $r_{A,B} < 0$ negativně korelované
- udává sílu a směr lineárního vztahu (hodnota 1 nebo -1)

$\chi^2$ - test dobré shody: H0 (nulová hypotéza) - nezávislost atributů $$ \chi^2 = \sum_i \sum_j { (o_{i,j} - e_{ij})^2 \over e_{ij}} $$
- stupně volnosti = počet možností pro proměnou - 1 ($(n_A - 1) - (n_B - 1) $)
- korelaci pak zjistit z tabulek pro $\chi^2$ hodnoty vůči stupni volnosti a hladinu významnosti

automatické
- globální konstanta
- hodnota charakterizující střed (avg, median, modus)
- střed patřící to téže třídy
- nejpravděpodobnější hodnota (bayes klas. / rozhodovací strom)

odlehlé hodnoty
- nechceme odstraňovat, ale třeba přenést blíž ostatním datům
- u kat. jsou to málo časté hodnoty → prázdná hodnota

rozdělení dat do košů
- podle stejné šířky
- stejné hloubky
  - lepší pro odlehlé hodnoty - odlehlá hodnota nezůstane sama v koši
  - uspořádat a vypočítat hranice - připomíná kvantily
vyhlazení
- nahradíme např. průměrem každého koše