- většinou jde o u ruční práci - bere hodně času
- kombinace dat z několika zdrojů
- řešení redundance
- SRSWR - pro rozdělení na učící a testovací sady
- stratified sample = zachová poměr rozdělení skupin
- klasifikátor nehodnotit jen podle accuracy!!
- mám rozdělení dat 95% a 5%, accuracy 95%, když klas. vrací pouze skup 1
- podvzorkování
- pás mezi ideal a actual je, kdy klasifikátor bude vracet chyby
- snaha vyloučit méně důležitá data
- nadvzorkování
- hranice se příliš přiblíží minoritní třídě
- Generování syntetických dat (augmentace) = nejlepší cesta
- rozdíl mezi platy a mezi věkem je řádově dost jiný - plat by mohl mít větší vliv na klas., to nechceme
- z-score normalizace: jak daleko od průměru je vzdálena naše hodnota
- normalizace dekadického měřítka - dělíme násobkem 10, dokud nejvyšší hodnota nebude pod 10
- kvantilová normalizace
- sladit hodnoty v několika sloupcích, např. mají-li jiné jednotky
-
- seřazení jednotlivých sloupců
-
- výpočet referečních hodnot
-
- vlastní normalizace ref. hodnotami - rozdistribuování zpět