Informatika - Jazykové technologie a počítačová lingvistika

Tato stránka vychází z podkladů pro tištěné studijní plány (tzv. Karolinku).

Garantující pracoviště: Ústav formální a aplikované lingvistiky
Oborový garant: Doc. RNDr. Markéta Lopatková, Ph.D.

Zaměření:

počítačová a formální lingvistika
statistické metody a metody strojového učení pro zpracování jazyka

Absolventa charakterizuje porozumění matematicko-informatickým základům počítačového zpracování přirozených jazyků a teoretickým základům jejich formálního popisu. Má dobrou znalost obecných metod strojového učení, a to včetně nejmodernějších metod hlubokého učení. Získané znalosti je schopen uplatňovat v návrhu a realizaci systémů pro zpracování přirozených jazyků v psané i mluvené formě stejně jako systémů pro práci s rozsáhlými kolekcemi nestrukturovaných i strukturovaných dat obecně (ve finančnictví, ekonomice, biologii, lékařství a dalších oborech využívajících metod umělé inteligence). Absolvent disponuje potřebnými znalostmi a praktickými dovednostmi (programování, práce v týmu), které najdou uplatnění v informačních a komunikačních technologiích (ICT).

Povinné předměty

kódPředmětKredityZSLS
NTIN066Datové struktury 1 62/2 Z+Zk
NTIN090Základy složitosti a vyčíslitelnosti 42/1 Z+Zk
NPFL063Úvod do obecné lingvistiky 42/1 Z+Zk
NPFL067Statistické metody zpracování přirozených jazyků I 52/2 Z+Zk
NPFL114Hluboké učení 73/2 Z+Zk
NSZZ023Diplomová práce I 60/4 Z
NSZZ024Diplomová práce II 90/6 Z
NSZZ025Diplomová práce III 150/10 Z

Povinně volitelné předměty - skupina 1

Student musí získat celkem alespoň 40 kreditů za povinně volitelné předměty, z nichž může být až 6 kreditů za projektové předměty (tedy předměty ze skupiny 2) a až 10 kreditů za předměty z bloku doplňujících povinně volitelných předmětů (tedy ze skupiny 3).

kódPředmětKredityZSLS
NPFL006Úvod do formální lingvistiky 32/0 Zk
NPFL038Základy rozpoznávání a generování mluvené řeči 52/2 Z+Zk
NPFL068Statistické metody zpracování přirozených jazyků II 52/2 Z+Zk
NPFL070Zdroje jazykových dat 41/2 KZ
NPFL075Závislostní gramatiky a korpusy 52/2 Z+Zk
NPFL079Algoritmy rozpoznávání mluvené řeči 52/2 Z+Zk
NPFL082Informační struktura věty a výstavba diskurzu 20/2 Z
NPFL083Lingvistické teorie a gramatické formalismy 52/2 Z+Zk
NPFL087Statistický strojový překlad 52/2 Z+Zk
NPFL093Aplikace NLP 42/1 KZ
NPFL094Morfologická a syntaktická analýza 32/0 KZ
NPFL095Moderní metody v počítačové lingvistice 30/2 Z
NPFL097Neřízené strojové učení v NLP 31/1 Z
NPFL099Statistické dialogové systémy 42/1 Z+Zk
NPFL100Variabilita jazyků v čase a prostoru 21/1 Z
NPFL103Vyhledávání informací 52/2 Z+Zk
NPFL104Metody strojového učení 41/2 Z+Zk
NPFL122Hluboké zpětnovazební učení 52/2 Z+Zk
NPFL128Jazykové technologie v praxi 42/1 KZ

Povinně volitelné předměty - skupina 2 (projektové předměty)

Student si jako povinně volitelný může zvolit nejvýše jeden z projektových předmětů z této skupiny, ze získaných kreditů se mu započítá až 6 kreditů jako kredity za povinně volitelné předměty. (Případné další kredity za předměty z této skupiny se započítávají jako kredity za volitelné předměty.)

kódPředmětKredityZSLS
NPRG069Softwarový projekt 120/8 Z0/8 Z
NPRG070Výzkumný projekt 90/6 Z0/6 Z
NPRG071Firemní projekt 60/4 Z0/4 Z

Povinně volitelné předměty - skupina 3 (doplňující předměty)

Student si může zvolit jakékoliv předměty z této skupiny, ze získaných kreditů se mu započítá až 10 kreditů jako kredity za povinně volitelné předměty. (Případné další předměty z této skupiny se započítávají jako volitelné předměty.)

kódPředmětKredityZSLS
NAIL025Evoluční algoritmy 1 52/2 Z+Zk
NAIL069Umělá inteligence 1 42/1 Z+Zk
NAIL070Umělá inteligence 2 32/0 Zk
NAIL104Pravděpodobnostní grafické modely 32/0 Zk
NPGR036Počítačové vidění 52/2 Z+Zk

Státní závěrečná zkouška

Program Jazykové technologie a počítačová lingvistika má jeden společný povinný okruh pro obě zaměření (okruh 1), jeden povinný okruh dle zvoleného zaměření (okruh 2, nebo okruh 3) a jeden okruh si student vybírá z volitelných okruhů (okruhy 4 a 5). Jako tento poslední okruh si student může zvolit také povinný okruh druhého zaměření tohoto programu. Celkem tedy každý student dostane otázky ze tří okruhů.

Zkušební okruhy

1. Základy počítačového zpracování přirozeného jazyka (povinný okruh pro obě zaměření)
2. Lingvistické teorie a formalismy (povinný okruh pro zaměření počítačová a formální lingvistika)
3. Statistické metody a strojové učení v počítačové lingvistice (povinný okruh pro zaměření statistické metody a metody strojového učení pro zpracování jazyka)
4. Zpracování řeči, dialogové systémy a multimodální systémy (volitelný okruh)
5. Aplikace metod zpracování přirozeného jazyka (volitelný okruh)

Zkušební požadavky

1. Základy počítačového zpracování přirozeného jazyka
Fonetika, fonologie, morfologie, syntax, sémantika, pragmatika. Ambiguita, arbitrárnost. Deskripce vs. preskripce. Diachronní vs. synchronní popis jazyka. Základní pojmy z teorie informace. Markovovy modely. Jazykové modely a vyhlazování. Třídy slov. Anotované korpusy. Návrh a vyhodnocení lingvistických experimentů, evaluační metriky. Morfologické značkování a syntaktická analýza. Přehled základních klasifikačních a regresních algoritmů.

Doporučené předměty

kódPředmětKredityZSLS
NPFL063Úvod do obecné lingvistiky 42/1 Z+Zk
NPFL067Statistické metody zpracování přirozených jazyků I 52/2 Z+Zk

2. Lingvistické teorie a formalismy
Funkční generativní popis. Pražský závislostní korpus. Universal Dependencies. Další gramatické formalismy - přehled a základní charakteristika. Fonetika, fonologie. Komputační morfologie. Povrchová a hloubková stavba věty; valence. Počítačová lexikografie. Aktuální členění věty; informační struktura, diskurz. Koreference. Typologie jazyků. Formální gramatiky a jejich využití v pravidlové morfologii. Parsing.

Doporučené předměty

kódPředmětKredityZSLS
NPFL063Úvod do obecné lingvistiky 42/1 Z+Zk
NPFL006Úvod do formální lingvistiky 32/0 Zk
NPFL075Závislostní gramatiky a korpusy 52/2 Z+Zk
NPFL083Lingvistické teorie a gramatické formalismy 52/2 Z+Zk
NPFL094Morfologická a syntaktická analýza 32/0 KZ

3. Statistické metody a strojové učení v počítačové lingvistice
Generativní a diskriminativní modely. Metody řízeného učení pro klasifikaci a regresi (lineární modely, ostatní metody: naive Bayes, rozhodovací stromy, učení založené na příkladech, SVM a kernely, logistická regrese). Metody neřízeného učení. Jazykové modely a modely kanálu. Vyhlazování modelů, kombinace modelů. HMM, trellis, Viterbi, Baum-Welch. Algoritmy pro statistický tagging. Algoritmy pro složkový a závislostní statistický parsing. Strojové učení s využitím neuronových sítí. Konvoluční a rekurentní sítě. Slovní embeddingy.

Doporučené předměty

kódPředmětKredityZSLS
NPFL067Statistické metody zpracování přirozených jazyků I 52/2 Z+Zk
NPFL114Hluboké učení 73/2 Z+Zk
NPFL068Statistické metody zpracování přirozených jazyků II 52/2 Z+Zk

4. Zpracování řeči, dialogové systémy a multimodální systémy
Základy tvoření a vnímání mluvené řeči. Metody zpracování řečového signálu. Modelování akustiky fonémů pomocí HMM. Implementace Baum-Welch a Viterbi algoritmu pro rozpoznávání řeči. Neuronové modely řeči. Metody syntézy řeči. Řečové aplikace. Základní komponenty dialogového systému. Porozumění jazyku v dialogových systémech. Sledování dialogového stavu. Metody řízení dialogu. End-to-end neuronové dialogové systémy. Architektury pro dialogové systémy v otevřené doméně. Generování přirozeného jazyka. Evaluace dialogových systémů. Vizuální dialog a multimodální systémy.

Doporučené předměty

kódPředmětKredityZSLS
NPFL038Základy rozpoznávání a generování mluvené řeči 52/2 Z+Zk
NPFL079Algoritmy rozpoznávání mluvené řeči 52/2 Z+Zk
NPFL099Statistické dialogové systémy 42/1 Z+Zk

5. Aplikace metod zpracování přirozeného jazyka
Kontrola překlepů, kontrola gramatické správnosti. Strojový překlad. Počítačem podporovaný překlad. Statistické metody ve strojovém překladu. Vyhodnocování kvality překladu. Strojový překlad mluvené řeči. Vyhledávání informací, vyhledávací modely. Rozšiřování dotazů a relevance feedback. Shlukování dokumentů. Hledání duplicit a detekce plagiátorství. Evaluace vyhledávání informací. Postojová analýza (sentiment analysis). Soubory nástrojů (GATE, NLTK, NLPTools, Lucene, Terrier).

Doporučené předměty

kódPředmětKredityZSLS
NPFL087Statistický strojový překlad 52/2 Z+Zk
NPFL093Aplikace NLP 42/1 KZ
NPFL103Vyhledávání informací 52/2 Z+Zk
NPFL128Jazykové technologie v praxi 42/1 KZ