Generativní model vs klasifikační

generativní model je něco, přes co nedokážu udělat pravděpodobnosti
- např. pravděpodobnost všech vět v češtině

Auto-regresivní faktorizace

$P(w_1, w_2, w_3, …, w_n) = P(w_1) P(w_2|w_1) … P(w_i|w_{i-1}, w_{i-2}, …, w_1)$

Decoder-only

v realitě spíš jeden model - decoder bez cross attention nebo encoder s maskovanou causal attention

Training

větší model se lépe učí - rychleji klesá loss funkce

Model scaling laws

čím víc dat, tím lepší výsledek
čím víc výkonu, tím lepší
čím víc dat, tím lepší
nezvládáme získat mnohonásobně víc dat!

Jazykové modely učení

Učení na textech
- opakuje internet
- je sám o sobě k ničemu
Instruction fine tuning
- Příklady úloh/otázek a vhodných odpovědí
- nezvládneme negativní příklady - “model alignment”
Učení na reakcích uživatelích
- už “není” supervised learning
- stále málo dat
Self-training
- např. programování

Machine learning product lifecycle