- Pearsonův korelační koeficient atributů A,B
- používá kovariaci ${ \sum_i ( a_i - \overline{A} )( b_i - \overline{B} ) \over (n - 1)}$
$$r_{A,B} = { \sum_i ( a_i - \overline{A} )( b_i - \overline{B} ) \over (n - 1) \sigma_A \sigma_B} = { \sum_i ( a_i b_i ) - n \overline{A} \overline{B} \over (n - 1) \sigma_A \sigma_B}$$
- $r_{A,B} > 0$ pozitivně korelované
- $r_{A,B} = 0$ nezávislé
- $r_{A,B} < 0$ negativně korelované
- udává sílu a směr lineárního vztahu (hodnota 1 nebo -1)
- Pro ordinální a kvantitativní atributy
- Spearmanův koeficient korelace pořadí
- nepoužívá přímo hodnoty, ale jejich pořadí!
- $d_i = poradi(A_i) - poradi(B_i)$
$$
\rho_{A,B} = 1 - { 6 \sum_{i=1}^n d_i^2 \over n (n^2 - 1)}
$$
- pokud nejsou duplicitní hodnoty
- monotónní korelace
- Jsou duplicity - průměr pořadí? nebo pearsonův koeficient pro pořadová čísla
- $\chi^2$ - test dobré shody: H0 (nulová hypotéza) - nezávislost atributů
$$
\chi^2 = \sum_i \sum_j { (o_{i,j} - e_{ij})^2 \over e_{ij}}
$$
- stupně volnosti = počet možností pro proměnou - 1 ($(n_A - 1) - (n_B - 1) $)
- korelaci pak zjistit z tabulek pro $\chi^2$ hodnoty vůči stupni volnosti a hladinu významnosti
- co nejkvalitnější data pro trénování modelů
- odstranit chybné data, odlehlé data a šum
- neúplná - prázdná hodnota
- zašuměná
- nekonzistentní
- rozsáhlá nebo málo
- ignorování záznamu
- doplnění (ručně/automaticky)
- automatické
- globální konstanta
- hodnota charakterizující střed (avg, median, modus)
- střed patřící to téže třídy
- nejpravděpodobnější hodnota (bayes klas. / rozhodovací strom)
- odlehlé hodnoty
- nechceme odstraňovat, ale třeba přenést blíž ostatním datům
- u kat. jsou to málo časté hodnoty → prázdná hodnota
- rozdělení dat do košů
- podle stejné šířky
- stejné hloubky
- lepší pro odlehlé hodnoty - odlehlá hodnota nezůstane sama v koši
- uspořádat a vypočítat hranice - připomíná kvantily
- vyhlazení
- nahradíme např. průměrem každého koše