Tato stránka vychází z podkladů pro tištěné studijní plány (tzv. Karolinku).

Matematická lingvistika

Garantující pracoviště: Ústav formální a aplikované lingvistiky
Oborový garant: Doc. RNDr. Markéta Lopatková, Ph.D.

Zaměření:

počítačová a formální lingvistika
statistické metody a strojové učení v počítačové lingvistice

Absolvent získá znalost teoretických základů formálního popisu přirozených jazyků, matematicko-informatických základů pro jejich počítačové zpracování a základy obecných metod strojového učení. Bude mít schopnost uplatnit tento vhled v návrhu a realizaci systémů automatického zpracování přirozeného jazyka a systémů pro práci s velkými korpusy nestrukturovaných (jazykových) i strukturovaných dat.

Povinné předměty

kódPředmětKredityZSLS
NTIN090Základy složitosti a vyčíslitelnosti 52/1 Z+Zk
NTIN066Datové struktury I 52/1 Z+Zk
NPFL063Úvod do obecné lingvistiky 52/1 Z+Zk
NPFL067Statistické metody zpracování přirozených jazyků I 52/2 Z+Zk
NPFL092Technologie pro NLP 51/2 KZ
NSZZ023Diplomová práce I 60/4 Z0/4 Z
NSZZ024Diplomová práce II 90/6 Z0/6 Z
NSZZ025Diplomová práce III 150/10 Z0/10 Z

Povinně volitelné předměty

Je požadováno splnění povinně volitelných předmětů z následujícího seznamu v rozsahu alespoň 42 kreditů:

kódPředmětKredityZSLS
NPFL006Úvod do formální lingvistiky 32/0 Zk
NPFL038Základy rozpoznávání a generování mluvené řeči 62/2 Z+Zk
NPFL068Statistické metody zpracování přirozených jazyků II 62/2 Z+Zk
NPFL070Zdroje jazykových dat 51/2 KZ
NPFL075Závislostní gramatiky a korpusy 62/2 Z+Zk
NPFL079Algoritmy rozpoznávání mluvené řeči 62/2 Z+Zk
NPFL082Informační struktura věty a výstavba diskurzu 30/2 Z
NPFL083Lingvistická teorie a gramatické formalismy 62/2 Z+Zk
NPFL087Statistický strojový překlad 62/2 Z+Zk
NPFL093Aplikace NLP 52/1 KZ
NPFL094Morfologická a syntaktická analýza 32/0 KZ
NPFL095Moderní metody v počítačové lingvistice 30/2 Z
NPFL096Komputační morfologie 42/1 Zk
NPFL099Statistické dialogové systémy 52/1 Z+Zk
NPFL103Vyhledávání informací 62/2 Z+Zk
NPFL104Metody strojového učení 51/2 Z+Zk
NPOZ009Odborné vyjadřování a styl 31/1 KZ
NPRG027Zápočet k projektu 60/4 Z0/4 Z
NPRG023Softwarový projekt 90/6 Z0/6 Z
NPFL114Hluboké učení 73/2 Z+Zk

Státní závěrečná zkouška

Ke dvěma povinným okruhům společným pro všechny obory má obor Matematická lingvistika jeden společný povinný okruh pro obě zaměření, jeden povinný okruh dle zvoleného zaměření a jeden okruh si student vybírá z volitelných okruhů. Jako tento poslední okruh si student může zvolit také povinný okruh druhého zaměření oboru Matematická lingvistika, jeden z okruhů zaměření Inteligentní agenti či Strojové učení oboru Umělá inteligence či jeden z okruhů zaměření Počítačová grafika oboru Počítačová grafika a vývoj počítačových her. Celkem tedy každý student dostane pět otázek.

Zkušební okruhy

1. Základy počítačového zpracování přirozeného jazyka (povinný okruh pro obě zaměření)
2. Lingvistické teorie a formalismy (povinný okruh pro zaměření Počítačová a formální lingvistika)
3. Statistické metody a strojové učení v počítačové lingvistice (povinný okruh pro zaměření Statistické metody a strojové učení v počítačové lingvistice)
4. Multimodální technologie a data (volitelný okruh)
5. Aplikace metod zpracování přirozeného jazyka (volitelný okruh)

Zkušební požadavky

1. Základy počítačového zpracování přirozeného jazyka
Základy obecné lingvistiky. Systém rovin popisu jazyka. Závislostní syntax, formální definice a vlastnosti závislostních stromů. Chomského hierarchie jazyků, bezkontextové jazyky, frázové, unifikační a kategoriální gramatiky pro přirozený jazyk. Návrh a vyhodnocení lingvistických experimentů, evaluační metriky. Základní stochastické modely. Jazykové modelování, základní metody trénování stochastických modelů. Základní algoritmy.

Doporučené předměty

kódPředmětKredityZSLS
NPFL067Statistické metody zpracování přirozených jazyků I 52/2 Z+Zk
NPFL063Úvod do obecné lingvistiky 52/1 Z+Zk

2. Lingvistické teorie a formalismy
Funkční generativní popis. Pražský závislostní korpus. Další základní gramatické formalismy (Government and Binding, unifikační gramatiky, struktury rysů, HPSG, LFG, kategoriální gramatiky, (L)TAG). Fonetika, fonologie. Komputační morfologie. Syntax. Počítačová lexikografie. Aktuální členění věty; informační struktura, diskurz. Koreference. Typologie jazyků. Formální gramatiky a jejich využití v pravidlové morfologii a parsingu.

Doporučené předměty

kódPředmětKredityZSLS
NPFL063Úvod do obecné lingvistiky 52/1 Z+Zk
NPFL083Lingvistická teorie a gramatické formalismy 62/2 Z+Zk
NPFL075Závislostní gramatiky a korpusy 62/2 Z+Zk
NPFL094Morfologická a syntaktická analýza 32/0 KZ
NPFL006Úvod do formální lingvistiky 32/0 Zk

3. Statistické metody a strojové učení v počítačové lingvistice
Generativní a diskriminativní modely. Metody řízeného učení pro klasifikaci a regresi (lineární modely, ostatní metody: naive Bayes, rozhodovací stromy, učení založené na příkladech). Support Vector Machines a kernelové funkce. Logistická regrese. Metody neřízeného učení. Bayesovské sítě. Bias-variance tradeoff. Jazykové modely a modely kanálu. Vyhlazování modelů, kombinace modelů. HMM, trellis, Viterbi, Baum-Welch. Algoritmy pro statistický tagging. Algoritmy pro složkový a závislostní statistický parsing.

Doporučené předměty

kódPředmětKredityZSLS
NPFL067Statistické metody zpracování přirozených jazyků I 52/2 Z+Zk
NPFL068Statistické metody zpracování přirozených jazyků II 62/2 Z+Zk
NPFL104Metody strojového učení 51/2 Z+Zk
NPFL087Statistický strojový překlad 62/2 Z+Zk

4. Multimodální technologie a data
Základy produkce a vnímání mluvené řeči. Metody zpracování řečového signálu. HMM modelování akustiky fonému. Implementace Baum-Welch a Viterbi algoritmu pro rozpoznáváni řeči. Rozpoznávání plynulé řeči s pomocí velkých slovníků. Adaptační techniky. Sumarizace řečových nahrávek. Vyhledávání témat a slov v řečových korpusech. Rozpoznávání mluvčího. Metody syntézy řeči. Zpracování textu pro syntézu řeči. Modelování prosodie. Základní komponenty dialogového systému. Porozumění mluvené řeči. Řízení dialogu – MDP a POMDP systémy. Zpětnovazební učení. Stav dialogu a jeho odhad v MDP a POMDP systémech. Simulace uživatele. Generování promluvy. Hodnocení kvality dialogových systémů. Indexace audio-vizuálních archivů.

Doporučené předměty

kódPředmětKredityZSLS
NPFL038Základy rozpoznávání a generování mluvené řeči 62/2 Z+Zk
NPFL079Algoritmy rozpoznávání mluvené řeči 62/2 Z+Zk
NPFL099Statistické dialogové systémy 52/1 Z+Zk

5. Aplikace metod zpracování přirozeného jazyka
Kontrola překlepů, kontrola gramatické správnosti. Vstupní metody (input methods). Strojový překlad. Počítačem podporovaný překlad. Statistické metody ve strojovém překladu. Vyhodnocování kvality překladu. Vyhledávání informací, vyhledávací modely. Rozšiřování dotazů a relevance feedback. Shlukování dokumentů. Vyhledávání na webu. Hledání duplicit a detekce plagiátorství. Evaluace vyhledávání informací. Postojová analýza (sentiment analysis), analýza sociálních sítí. Komerční implementace (Lucene, SOLR, Terrier). Komplexní systémy (GATE, NLTK, NLPTools).

Doporučené předměty

kódPředmětKredityZSLS
NPFL087Statistický strojový překlad 62/2 Z+Zk
NPFL103Vyhledávání informací 62/2 Z+Zk
NPFL093Aplikace NLP 52/1 KZ