- generativní model je něco, přes co nedokážu udělat pravděpodobnosti
- např. pravděpodobnost všech vět v češtině
- $P(w_1, w_2, w_3, …, w_n) = P(w_1) P(w_2|w_1) … P(w_i|w_{i-1}, w_{i-2}, …, w_1)$
- v realitě spíš jeden model - decoder bez cross attention nebo encoder s maskovanou causal attention
- větší model se lépe učí - rychleji klesá loss funkce
- čím víc dat, tím lepší výsledek
- čím víc výkonu, tím lepší
- čím víc dat, tím lepší
- nezvládáme získat mnohonásobně víc dat!
- Učení na textech
- opakuje internet
- je sám o sobě k ničemu
- Instruction fine tuning
- Příklady úloh/otázek a vhodných odpovědí
- nezvládneme negativní příklady - “model alignment”
- Učení na reakcích uživatelích
- už “není” supervised learning
- stále málo dat
- Self-training