I3 Matematická lingvistika

3. Matematická lingvistika I3

Garantující pracoviště: Ústav formální a aplikované lingvistiky
Oborový garant: doc. RNDr. Markéta Lopatková, Ph.D.

Povinné předměty

kód Předmět Kredity ZS LS
NPFL067 Statistické metody zpracování přirozených jazyků I   6 2/2 Z+Zk
NPFL092 Technologie pro NLP   5 1/2 KZ
NPRG027 Zápočet k projektu   6 0/4 Z
NPRG023 Softwarový projekt   9 0/6 Z
NTIN090 Základy složitosti a vyčíslitelnosti 1 5 2/1 Z+Zk
NTIN066 Datové struktury I   5 2/1 Z+Zk
NSZZ023 Diplomová práce I   6 0/4 Z
NSZZ024 Diplomová práce II   9 0/6 Z
NSZZ025 Diplomová práce III   15 0/10 Z

1 Místo předmětu NTIN090 Základy složitosti a vyčíslitelnosti je možné absolvovat dvojici předmětů NTIN062 Složitost I, NTIN064 Vyčíslitelnost I.

 

Předměty NPFL067 Statistické metody zpracování přirozených jazyků I a NPFL092 Technologie pro NLP mohou studenti absolvovat již během svého bakalářského studia.

Povinně volitelné předměty

Je požadováno splnění povinně volitelných předmětů z následujícího seznamu v rozsahu alespoň 35 kreditů.

kód Předmět Kredity ZS LS
NPFL068 Statistické metody zpracování přirozených jazyků II   6 2/2 Z+Zk
NPFL083 Lingvistická teorie a gramatické formalismy   6 2/2 Z+Zk
NPFL070 Zdroje lingvistických dat   5 1/2 KZ
NPFL075 Pražský závislostní korpus   6 2/2 Z+Zk
NPFL054 Úvod do strojového učení   5 2/2 Z+Zk
NPFL093 Aplikace NLP   5 2/1 KZ
NPOZ009 Odborné vyjadřování a styl   3 1/1 KZ
NPFL087 Statistický strojový překlad   6 2/2 Z+Zk
NPFL094 Morfologická a syntaktická analýza   3 2/0 KZ
NPFL006 Úvod do formální lingvistiky   3 2/0 Zk
NPFL095 Moderní metody v počítačové lingvistice   3 0/2 Z
NPFL038 Základy rozpoznávání a generování mluvené řeči   6 2/2 Z+Zk
NPFL082 Informační struktura věty a výstavba diskurzu   3 0/2 Z
NPFL096 Komputační morfologie   4 2/1 Zk
NPFL079 Algoritmy rozpoznávání mluvené řeči   6 2/2 Z+Zk
NPFL099 Statistické dialogové systémy   5 2/1 Z+Zk
NPFL106 Obecná lingvistika   3 1/1 KZ
NPFL103 Vyhledávání informací   6 2/2 Z+Zk

 

Jako volitelné předměty jsou doporučeny další předměty s kódem NPFL.

 

Zkušební okruhy

Obor I3 se nedělí na zaměření. Zkušební okruh 1 je povinný pro všechny studenty oboru, z okruhů 2-5 si student volí dva. V případě zájmu si lze podle pravidel studijního programu Informatika, odst. B.4., tj. se schválením garanta oboru, vybrat jeden z okruhů 2-5 a jeden ze zkušebních okruhů Umělá inteligence, Neuronové sítě, Adaptivní agenti a evoluční algoritmy (vše obor I1, zaměření Neprocedurální programování a umělá inteligence), případně okruh Analýza a zpracování obrazu, počítačové vidění a robotika (obor I2, zaměření Počítačová grafika).

1. Základy počítačového zpracování přirozeného jazyka
2. Statistické metody a strojové učení v počítačové lingvistice
3. Aplikační úlohy ve zpracování přirozeného jazyka
4. Lingvistické teorie a formalismy
5. Analýza a syntéza mluvené řeči, dialogové systémy

Zkušební požadavky

1. Základy počítačového zpracování přirozeného jazyka
Základy obecné lingvistiky (základní lingvistické pojmy a koncepty, funkce a forma). Systém rovin popisu jazyka (fonetika, fonologie, morfologie, syntax povrchová/hloubková, sémantika, pragmatika). Závislostní syntax, formální definice a vlastnosti závislostních stromů (závislosti, koordinace, projektivita). Chomského hierarchie jazyků, bezkontextové jazyky, frázové gramatiky pro přirozený jazyk. Návrh a vyhodnocení lingvistických experimentů, evaluační metriky (precision, recall, f-measure, statistická významnost a další). Základní stochastické modely (generativní, diskriminativní; model zdrojového kanálu; HMM). Jazykové modelování, základní metody trénování stochastických modelů (maximální věrohodnost, EM). Základní algoritmy (Trellis, Viterbi, Baum-Welch).


Doporučené předměty: NPFL067 Statistické metody zpracování přirozených jazyků I a výběr jednoho z předmětů NPFL063 Úvod do obecné lingvistiky, NPFL075 Pražský závislostní korpus či NPFL106 Obecná lingvistika  

2. Statistické metody a strojové učení v počítačové lingvistice
Generativní a diskriminativní modely. Jazyková data pro strojové učení. Jazykové modely. Vyhlazování modelů. Noisy channel models, decoding. Parametry modelu, prostor hypotéz. Teoretické aspekty strojového učení (PAC). Metody řízeného učení (naive Bayes, maximální entropie, SVM, rozhodovací stromy, Bayesovské sítě, učení založené na příkladech). Metody neřízeného učení (clustering, expectation-maximization). HMM, Viterbi. Testy signifikance, intervaly spolehlivosti. Algoritmy pro statistický parsing (PCFG, MST).


Doporučené předměty: NPFL067 Statistické metody zpracování přirozených jazyků I, NPFL068 Statistické metody zpracování přirozených jazyků II, NPFL054 Úvod do strojového učení (v počítačové lingvistice), NPFL070 Zdroje lingvistických dat 

3. Aplikační úlohy ve zpracování přirozeného jazyka
Zpracování morfologie (morfologické kategorie, sady značek; analýza, značkování, lemmatizace, segmentace, generování, algoritmy). Syntaktická analýza jazyka (povrchová, hloubková, závislostní, složková, algoritmy). Generování přirozeného jazyka. Kontrola pravopisu a gramatiky. Strojový překlad (přímý překlad, transfer, interlingua; systémy pro češtinu, počítačem podporovaný překlad, statistické metody: modely IBM, frázové modely, hierarchické modely, syntaktické modely). Modely pro vyhledávání informací (Booleovský, vektorový, pravděpodobnostní, jazykový), evaluace vyhledávání informací.


Doporučené předměty: NPFL093 Aplikace NLP, NPFL094 Morfologická a syntaktická analýza, NPFL087 Statistický strojový překlad, NPFL103 Vyhledávání informací 

4. Lingvistické teorie a formalismy
Funkční generativní popis (základní charakteristika, struktura rovin, valenční teorie). Government and binding (nativismus, Xbar, movement, stopa, binding). Ostatní základní gramatické formalismy (unifikační gramatiky, struktury rysů, HPSG, LFG, kategoriální gramatiky, TAG). Formální sémantika. Pražský závislostní korpus. Počítačová lexikografie (typy slovníků, wordnety, ontologie). Aktuální členění věty. Anafora. Diskurz.


Doporučené předměty: NPFL103 Obecná lingvistika, NPFL083 Lingvistická teorie a gramatické formalismy, NPFL075 Pražský závislostní korpus, NPFL082 Informační struktura věty a výstavba diskurzu, NPFL006 Úvod do formální lingvistiky 

5. Analýza a syntéza mluvené řeči, dialogové systémy
Základy produkce a vnímání mluvené řeči. Metody zpracování řečového signálu. HMM modelování akustiky fonémů. Implementace Baum-Welch a Viterbi algoritmu pro rozpoznávání řeči. Rozpoznávání plynulé řeči s pomocí velkých slovníků. Adaptační techniky. Sumarizace řečových nahrávek. Vyhledávání témat a slov v řečových korpusech. Rozpoznávání mluvčího. Metody syntézy řeči. Zpracování textu pro syntézu řeči. Modelování prosodie. Základní komponenty dialogového systému. Porozumění mluvené řeči. Řízení dialogu - MDP a POMDP systémy. Simulace uživatele. Generování promluvy. Hodnocení kvality dialogových systémů.


Doporučené předměty: NPFL038 Základy rozpoznávání mluvené řeči, NPFL079 Algoritmy rozpoznávání mluvené řeči, NPFL099 Statistické dialogové systémy