Matematická lingvistika

5. Matematická lingvistika

Garantující pracoviště: Ústav formální a aplikované lingvistiky
Oborový garant: Doc. RNDr. Markéta Lopatková, Ph.D.

Zaměření:

 počítačová a formální lingvistika
 statistické metody a strojové učení v počítačové lingvistice

Absolvent získá znalost teoretických základů formálního popisu přirozených jazyků, matematicko-informatických základů pro jejich počítačové zpracování a základy obecných metod strojového učení. Bude mít schopnost uplatnit tento vhled v návrhu a realizaci systémů automatického zpracování přirozeného jazyka a systémů pro práci s velkými korpusy nestrukturovaných (jazykových) i strukturovaných dat.

Povinné předměty

kód Předmět Kredity ZS LS
NTIN090 Základy složitosti a vyčíslitelnosti   5 2/1 Z+Zk
NTIN066 Datové struktury I   5 2/1 Z+Zk
NPFL063 Úvod do obecné lingvistiky   5 2/1 Z+Zk
NPFL067 Statistické metody zpracování přirozených jazyků I   6 2/2 Z+Zk
NPFL092 Technologie pro NLP   5 1/2 KZ
NSZZ023 Diplomová práce I   6 0/4 Z 0/4 Z
NSZZ024 Diplomová práce II   9 0/6 Z 0/6 Z
NSZZ025 Diplomová práce III   15 0/10 Z 0/10 Z

Povinně volitelné předměty

Je požadováno splnění povinně volitelných předmětů z následujícího seznamu v rozsahu alespoň 42 kreditů:

kód Předmět Kredity ZS LS
NPFL006 Úvod do formální lingvistiky   3 2/0 Zk
NPFL038 Základy rozpoznávání a generování mluvené řeči   6 2/2 Z+Zk
NPFL068 Statistické metody zpracování přirozených jazyků II   6 2/2 Z+Zk
NPFL070 Zdroje lingvistických dat   5 1/2 KZ
NPFL075 Pražský závislostní korpus   6 2/2 Z+Zk
NPFL079 Algoritmy rozpoznávání mluvené řeči   6 2/2 Z+Zk
NPFL082 Informační struktura věty a výstavba diskurzu   3 0/2 Z
NPFL083 Lingvistická teorie a gramatické formalismy   6 2/2 Z+Zk
NPFL087 Statistický strojový překlad   6 2/2 Z+Zk
NPFL093 Aplikace NLP   5 2/1 KZ
NPFL094 Morfologická a syntaktická analýza   3 2/0 KZ
NPFL095 Moderní metody v počítačové lingvistice   3 0/2 Z
NPFL096 Komputační morfologie   4 2/1 Zk
NPFL099 Statistické dialogové systémy   5 2/1 Z+Zk
NPFL103 Vyhledávání informací   6 2/2 Z+Zk
NPFL104 Metody strojového učení   5 1/2 Z+Zk
NPOZ009 Odborné vyjadřování a styl   3 1/1 KZ
NPRG027 Zápočet k projektu   6 0/4 Z 0/4 Z
NPRG023 Softwarový projekt   9 0/6 Z 0/6 Z
NPFL114 Hluboké učení   7 3/2 Z+Zk

Státní závěrečná zkouška

Ke dvěma povinným okruhům společným pro všechny obory má obor Matematická lingvistika jeden společný povinný okruh pro obě zaměření, jeden povinný okruh dle zvoleného zaměření a jeden okruh si student vybírá z volitelných okruhů. Jako tento poslední okruh si student může zvolit také povinný okruh druhého zaměření oboru Matematická lingvistika, jeden z okruhů zaměření Inteligentní agenti či Strojové učení oboru Umělá inteligence či jeden z okruhů zaměření Počítačová grafika oboru Počítačová grafika a vývoj počítačových her. Celkem tedy každý student dostane pět otázek.

Zkušební okruhy

1. Základy počítačového zpracování přirozeného jazyka (povinný okruh pro obě zaměření)
2. Lingvistické teorie a formalismy (povinný okruh pro zaměření Počítačová a formální lingvistika)
3. Statistické metody a strojové učení v počítačové lingvistice (povinný okruh pro zaměření Statistické metody a strojové učení v počítačové lingvistice)
4. Multimodální technologie a data (volitelný okruh)
5. Aplikace metod zpracování přirozeného jazyka (volitelný okruh)

Zkušební požadavky

1. Základy počítačového zpracování přirozeného jazyka
Základy obecné lingvistiky. Systém rovin popisu jazyka. Závislostní syntax, formální definice a vlastnosti závislostních stromů. Chomského hierarchie jazyků, bezkontextové jazyky, frázové, unifikační a kategoriální gramatiky pro přirozený jazyk. Návrh a vyhodnocení lingvistických experimentů, evaluační metriky. Základní stochastické modely. Jazykové modelování, základní metody trénování stochastických modelů. Základní algoritmy.

Doporučené předměty

kód Předmět Kredity ZS LS
NPFL067 Statistické metody zpracování přirozených jazyků I   6 2/2 Z+Zk
NPFL063 Úvod do obecné lingvistiky   5 2/1 Z+Zk

2. Lingvistické teorie a formalismy
Funkční generativní popis. Pražský závislostní korpus. Další základní gramatické formalismy (Government and Binding, unifikační gramatiky, struktury rysů, HPSG, LFG, kategoriální gramatiky, (L)TAG). Fonetika, fonologie. Komputační morfologie. Syntax. Počítačová lexikografie. Aktuální členění věty; informační struktura, diskurz. Koreference. Typologie jazyků. Formální gramatiky a jejich využití v pravidlové morfologii a parsingu.

Doporučené předměty

kód Předmět Kredity ZS LS
NPFL063 Úvod do obecné lingvistiky   5 2/1 Z+Zk
NPFL083 Lingvistická teorie a gramatické formalismy   6 2/2 Z+Zk
NPFL075 Pražský závislostní korpus   6 2/2 Z+Zk
NPFL094 Morfologická a syntaktická analýza   3 2/0 KZ
NPFL006 Úvod do formální lingvistiky   3 2/0 Zk

3. Statistické metody a strojové učení v počítačové lingvistice
Generativní a diskriminativní modely. Metody řízeného učení pro klasifikaci a regresi (lineární modely, ostatní metody: naive Bayes, rozhodovací stromy, učení založené na příkladech). Support Vector Machines a kernelové funkce. Logistická regrese. Metody neřízeného učení. Bayesovské sítě. Bias-variance tradeoff. Jazykové modely a modely kanálu. Vyhlazování modelů, kombinace modelů. HMM, trellis, Viterbi, Baum-Welch. Algoritmy pro statistický tagging. Algoritmy pro složkový a závislostní statistický parsing.

Doporučené předměty

kód Předmět Kredity ZS LS
NPFL067 Statistické metody zpracování přirozených jazyků I   6 2/2 Z+Zk
NPFL068 Statistické metody zpracování přirozených jazyků II   6 2/2 Z+Zk
NPFL104 Metody strojového učení   5 1/2 Z+Zk
NPFL087 Statistický strojový překlad   6 2/2 Z+Zk

4. Multimodální technologie a data
Základy produkce a vnímání mluvené řeči. Metody zpracování řečového signálu. HMM modelování akustiky fonému. Implementace Baum-Welch a Viterbi algoritmu pro rozpoznáváni řeči. Rozpoznávání plynulé řeči s pomocí velkých slovníků. Adaptační techniky. Sumarizace řečových nahrávek. Vyhledávání témat a slov v řečových korpusech. Rozpoznávání mluvčího. Metody syntézy řeči. Zpracování textu pro syntézu řeči. Modelování prosodie. Základní komponenty dialogového systému. Porozumění mluvené řeči. Řízení dialogu – MDP a POMDP systémy. Zpětnovazební učení. Stav dialogu a jeho odhad v MDP a POMDP systémech. Simulace uživatele. Generování promluvy. Hodnocení kvality dialogových systémů. Indexace audio-vizuálních archivů.

Doporučené předměty

kód Předmět Kredity ZS LS
NPFL038 Základy rozpoznávání a generování mluvené řeči   6 2/2 Z+Zk
NPFL079 Algoritmy rozpoznávání mluvené řeči   6 2/2 Z+Zk
NPFL099 Statistické dialogové systémy   5 2/1 Z+Zk

5. Aplikace metod zpracování přirozeného jazyka
Kontrola překlepů, kontrola gramatické správnosti. Vstupní metody (input methods). Strojový překlad. Počítačem podporovaný překlad. Statistické metody ve strojovém překladu. Vyhodnocování kvality překladu. Vyhledávání informací, vyhledávací modely. Rozšiřování dotazů a relevance feedback. Shlukování dokumentů. Vyhledávání na webu. Hledání duplicit a detekce plagiátorství. Evaluace vyhledávání informací. Postojová analýza (sentiment analysis), analýza sociálních sítí. Komerční implementace (Lucene, SOLR, Terrier). Komplexní systémy (GATE, NLTK, NLPTools).

Doporučené předměty

kód Předmět Kredity ZS LS
NPFL087 Statistický strojový překlad   6 2/2 Z+Zk
NPFL103 Vyhledávání informací   6 2/2 Z+Zk
NPFL093 Aplikace NLP   5 2/1 KZ