Informatika - Jazykové technologie a počítačová lingvistika
Tato stránka vychází z podkladů pro tištěné studijní plány (tzv. Karolinku).
Garantující pracoviště: Ústav formální a aplikované lingvistiky
Oborový garant: Doc. Mgr. Barbora Vidová Hladká, Ph.D.
Zaměření:
- – počítačová a formální lingvistika
- – statistické metody a metody strojového učení pro zpracování jazyka
Absolventa charakterizuje porozumění matematicko-informatickým základům počítačového zpracování přirozených jazyků a teoretickým základům jejich formálního popisu. Má dobrou znalost obecných metod strojového učení, a to včetně nejmodernějších metod hlubokého učení. Získané znalosti je schopen uplatňovat v návrhu a realizaci systémů pro zpracování přirozených jazyků v psané i mluvené formě stejně jako systémů pro práci s rozsáhlými kolekcemi nestrukturovaných i strukturovaných dat obecně (ve finančnictví, ekonomice, biologii, lékařství a dalších oborech využívajících metod umělé inteligence). Absolvent disponuje potřebnými znalostmi a praktickými dovednostmi (programování, práce v týmu), které najdou uplatnění v informačních a komunikačních technologiích (ICT).
Povinné předměty
kód | Předmět | Kredity | ZS | LS | |
NTIN066 | Datové struktury 1 | 6 | 2/2 Z+Zk | — | |
NTIN090 | Základy složitosti a vyčíslitelnosti | 4 | 2/1 Z+Zk | — | |
NPFL063 | Úvod do obecné lingvistiky | 4 | 2/1 Z+Zk | — | |
NPFL067 | Statistické metody zpracování přirozených jazyků I | 5 | 2/2 Z+Zk | — | |
NPFL114 | Hluboké učení | 7 | — | 3/2 Z+Zk | |
NSZZ023 | Diplomová práce I | 6 | — | 0/4 Z | |
NSZZ024 | Diplomová práce II | 9 | 0/6 Z | — | |
NSZZ025 | Diplomová práce III | 15 | — | 0/10 Z |
Povinně volitelné předměty - skupina 1
Student musí získat celkem alespoň 40 kreditů za povinně volitelné předměty, z nichž může být až 6 kreditů za projektové předměty (tedy předměty ze skupiny 2) a až 10 kreditů za předměty z bloku doplňujících povinně volitelných předmětů (tedy ze skupiny 3).
kód | Předmět | Kredity | ZS | LS | |
NPFL006 | Úvod do formální lingvistiky | 3 | 2/0 Zk | — | |
NPFL038 | Základy rozpoznávání a generování mluvené řeči | 5 | 2/2 Z+Zk | — | |
NPFL068 | Statistické metody zpracování přirozených jazyků II | 5 | — | 2/2 Z+Zk | |
NPFL070 | Zdroje jazykových dat | 4 | 1/2 KZ | — | |
NPFL075 | Závislostní gramatiky a korpusy | 3 | — | 1/1 KZ | |
NPFL079 | Algoritmy rozpoznávání mluvené řeči | 5 | — | 2/2 Z+Zk | |
NPFL082 | Informační struktura věty a výstavba diskurzu | 2 | — | 0/2 Z | |
NPFL083 | Lingvistické teorie a gramatické formalismy | 5 | — | 2/2 Z+Zk | |
NPFL087 | Statistický strojový překlad | 5 | — | 2/2 Z+Zk | |
NPFL093 | Aplikace NLP | 4 | — | 2/1 KZ | |
NPFL094 | Morfologická a syntaktická analýza | 3 | 2/0 KZ | — | |
NPFL095 | Moderní metody v počítačové lingvistice | 3 | 0/2 Z | — | |
NPFL097 | Neřízené strojové učení v NLP | 3 | 1/1 Z | — | |
NPFL099 | Statistické dialogové systémy | 4 | 2/1 Z+Zk | — | |
NPFL100 | Variabilita jazyků v čase a prostoru | 2 | 1/1 Z | — | |
NPFL103 | Vyhledávání informací | 5 | 2/2 Z+Zk | — | |
NPFL104 | Metody strojového učení | 4 | — | 1/2 Z+Zk | |
NPFL122 | Hluboké zpětnovazební učení | 5 | 2/2 Z+Zk | — | |
NPFL128 | Jazykové technologie v praxi | 4 | — | 2/1 KZ |
Povinně volitelné předměty - skupina 2 (projektové předměty)
Student si jako povinně volitelný může zvolit nejvýše jeden z projektových předmětů z této skupiny, ze získaných kreditů se mu započítá až 6 kreditů jako kredity za povinně volitelné předměty. (Případné další kredity za předměty z této skupiny se započítávají jako kredity za volitelné předměty.)
kód | Předmět | Kredity | ZS | LS | |
NPRG069 | Softwarový projekt | 12 | 0/8 Z | 0/8 Z | |
NPRG070 | Výzkumný projekt | 9 | 0/6 Z | 0/6 Z | |
NPRG071 | Firemní projekt | 6 | 0/4 Z | 0/4 Z |
Povinně volitelné předměty - skupina 3 (doplňující předměty)
Student si může zvolit jakékoliv předměty z této skupiny, ze získaných kreditů se mu započítá až 10 kreditů jako kredity za povinně volitelné předměty. (Případné další předměty z této skupiny se započítávají jako volitelné předměty.)
kód | Předmět | Kredity | ZS | LS | |
NAIL025 | Evoluční algoritmy 1 | 5 | 2/2 Z+Zk | — | |
NAIL069 | Umělá inteligence 1 | 4 | 2/1 Z+Zk | — | |
NAIL070 | Umělá inteligence 2 | 3 | — | 2/0 Zk | |
NAIL104 | Pravděpodobnostní grafické modely | 3 | 2/0 Zk | — | |
NPGR036 | Počítačové vidění | 5 | — | 2/2 Z+Zk |
Státní závěrečná zkouška
Studijní program Informatika - Jazykové technologie a počítačová lingvistika má jeden společný povinný okruh pro obě zaměření (okruh 1), jeden povinný okruh dle zvoleného zaměření (okruh 2, nebo okruh 3) a jeden okruh si student vybírá z volitelných okruhů (okruhy 4 a 5). Jako tento poslední okruh si student může zvolit také povinný okruh druhého zaměření tohoto programu. Celkem tedy každý student dostane otázky ze tří okruhů.
Zkušební okruhy
- 1. Základy počítačového zpracování přirozeného jazyka (povinný okruh pro obě zaměření)
- 2. Lingvistické teorie a formalismy (povinný okruh pro zaměření počítačová a formální lingvistika)
- 3. Statistické metody a strojové učení v počítačové lingvistice (povinný okruh pro zaměření statistické metody a metody strojového učení pro zpracování jazyka)
- 4. Zpracování řeči, dialogové systémy a multimodální systémy (volitelný okruh)
- 5. Aplikace metod zpracování přirozeného jazyka (volitelný okruh)
- 2. Lingvistické teorie a formalismy (povinný okruh pro zaměření počítačová a formální lingvistika)
Zkušební požadavky
1. Základy počítačového zpracování přirozeného jazyka
Úrovně popisu jazyka: fonetika, fonologie, morfologie, syntax, sémantika, pragmatika. Základní pojmy z teorie informace. Markovovy modely. Jazykové modely a vyhlazování. Třídy slov. Anotované korpusy. Návrh a vyhodnocení lingvistických experimentů, evaluační metriky. Morfologické značkování. Přehled základních klasifikačních a regresních algoritmů.
Doporučené předměty
kód | Předmět | Kredity | ZS | LS | |
NPFL063 | Úvod do obecné lingvistiky | 4 | 2/1 Z+Zk | — | |
NPFL067 | Statistické metody zpracování přirozených jazyků I | 5 | 2/2 Z+Zk | — | |
NPFL114 | Hluboké učení | 7 | — | 3/2 Z+Zk | |
NPFL070 | Zdroje jazykových dat | 4 | 1/2 KZ | — |
2. Lingvistické teorie a formalismy
Funkční generativní popis. Pražský závislostní korpus. Universal Dependencies. Další gramatické formalismy - přehled a základní charakteristika. Fonetika, fonologie. Počítačová morfologie. Povrchová a hloubková stavba věty; valence. Aktuální členění věty; informační struktura, diskurz. Koreference. Typologie jazyků. Parsing.
Doporučené předměty
kód | Předmět | Kredity | ZS | LS | |
NPFL063 | Úvod do obecné lingvistiky | 4 | 2/1 Z+Zk | — | |
NPFL006 | Úvod do formální lingvistiky | 3 | 2/0 Zk | — | |
NPFL075 | Závislostní gramatiky a korpusy | 3 | — | 1/1 KZ | |
NPFL083 | Lingvistické teorie a gramatické formalismy | 5 | — | 2/2 Z+Zk | |
NPFL094 | Morfologická a syntaktická analýza | 3 | 2/0 KZ | — |
3. Statistické metody a strojové učení v počítačové lingvistice
Generativní a diskriminativní modely. Metody řízeného učení pro klasifikaci a regresi (lineární modely, ostatní metody: naive Bayes, rozhodovací stromy, učení založené na příkladech, SVM a kernely, logistická regrese). Metody neřízeného učení. Jazykové modely a modely kanálu. Vyhlazování modelů, kombinace modelů. HMM, trellis, Viterbi, Baum-Welch. Algoritmy pro statistický tagging. Algoritmy pro složkový a závislostní statistický parsing. Strojové učení s využitím neuronových sítí. Konvoluční a rekurentní sítě. Slovní embeddingy.
Doporučené předměty
kód | Předmět | Kredity | ZS | LS | |
NPFL067 | Statistické metody zpracování přirozených jazyků I | 5 | 2/2 Z+Zk | — | |
NPFL114 | Hluboké učení | 7 | — | 3/2 Z+Zk | |
NPFL068 | Statistické metody zpracování přirozených jazyků II | 5 | — | 2/2 Z+Zk |
4. Zpracování řeči, dialogové systémy a multimodální systémy
Základy tvoření a vnímání mluvené řeči. Metody zpracování řečového signálu. Modelování akustiky fonémů pomocí HMM. Implementace Baum-Welch a Viterbi algoritmu pro rozpoznávání řeči. Neuronové modely řeči. Metody syntézy řeči. Řečové aplikace. Základní komponenty dialogového systému. Porozumění jazyku v dialogových systémech. Sledování dialogového stavu. Metody řízení dialogu. End-to-end neuronové dialogové systémy. Architektury pro dialogové systémy v otevřené doméně. Generování přirozeného jazyka. Evaluace dialogových systémů. Vizuální dialog a multimodální systémy.
Doporučené předměty
kód | Předmět | Kredity | ZS | LS | |
NPFL038 | Základy rozpoznávání a generování mluvené řeči | 5 | 2/2 Z+Zk | — | |
NPFL079 | Algoritmy rozpoznávání mluvené řeči | 5 | — | 2/2 Z+Zk | |
NPFL099 | Statistické dialogové systémy | 4 | 2/1 Z+Zk | — |
5. Aplikace metod zpracování přirozeného jazyka
Kontrola překlepů, kontrola gramatické správnosti. Strojový překlad. Počítačem podporovaný překlad. Statistické metody ve strojovém překladu. Strojový překlad mluvené řeči. Vyhodnocování kvality překladu a překladu mluvené řeči. Vyhledávání informací, modely pro vyhledávání informací. Rozšiřování dotazů a relevance feedback. Shlukování dokumentů. Hledání blízkých duplicit. Evaluace vyhledávání informací. Postojová analýza (sentiment analysis). Předtrénované modely a jejich využití v úlohách klasifikační povahy a úlohách generování.
Doporučené předměty
kód | Předmět | Kredity | ZS | LS | |
NPFL087 | Statistický strojový překlad | 5 | — | 2/2 Z+Zk | |
NPFL093 | Aplikace NLP | 4 | — | 2/1 KZ | |
NPFL103 | Vyhledávání informací | 5 | 2/2 Z+Zk | — | |
NPFL128 | Jazykové technologie v praxi | 4 | — | 2/1 KZ |