PředmětyPředměty(verze: 945)
Předmět, akademický rok 2023/2024
   Přihlásit přes CAS
Dobývání znalostí - NDBI023
Anglický název: Data Mining
Zajišťuje: Katedra teoretické informatiky a matematické logiky (32-KTIML)
Fakulta: Matematicko-fyzikální fakulta
Platnost: od 2020
Semestr: letní
E-Kredity: 5
Rozsah, examinace: letní s.:2/2, Z+Zk [HT]
Počet míst: neomezen
Minimální obsazenost: neomezen
4EU+: ne
Virtuální mobilita / počet míst pro virtuální mobilitu: ne
Stav předmětu: vyučován
Jazyk výuky: angličtina, čeština
Způsob výuky: prezenční
Způsob výuky: prezenční
Garant: doc. RNDr. Iveta Mrázová, CSc.
RNDr. František Mráz, CSc.
Třída: Informatika Mgr. - Teoretická informatika
Informatika Mgr. - Softwarové systémy
Kategorizace předmětu: Informatika > Databázové systémy, Teoretická informatika
Je neslučitelnost pro: NDBX023
Je záměnnost pro: NDBX023
Anotace -
Poslední úprava: RNDr. Jan Hric (28.05.2020)
Obrovské množství zpracovávaných a uchovávaných dat vede ke snaze "přeložit" tyto údaje do smysluplné informace - dobývání znalostí. Cílem přednášky je seznámit studenty se základními pojmy a technikami používanými v oblasti dobývání znalostí. Součástí kurzu bude i jednoduchý projekt s využitím metod pro dobývání znalostí v praxi, především v oblasti ekonomie a WWW, ale i dalších. Předpokládá se předchozí zvládnutí základních matematických dovedností a programování na úrovni běžného bakalářského studia informatiky.
Cíl předmětu -
Poslední úprava: doc. RNDr. Iveta Mrázová, CSc. (27.05.2020)

Pochopit základní principy metod dobývání znalostí z dat a naučit se využívat tyto metody pro řešení úloh z praxe.

Podmínky zakončení předmětu -
Poslední úprava: RNDr. František Mráz, CSc. (19.02.2024)

A) Cvičení

V doprovodném Moodle-kurzu budou postupně zveřejňované úkoly a kvízy.

Úkoly:

Každý úkol má stanovené datum odevzdání. Řešení lze do systému vkládat postupně a průběžně ho upravovat. Časem odevzdání je čas kliknutí na tlačítko "Odevzdat úkol". Po kliknutí na toto tlačítko řešení už nelze opravovat, ale lze zažádat e-mailem učitele o vrácení do stavu rozpracování. Každý úkol bude učitelem oznámkován přidělením 0-10 bodů. Za celý semestr budou zadány 2 úkoly.

Typickým řešením úkolu bude Jupyter notebook obsahující popis řešení a kód v Pythonu použitý na vyřešení úkolu.

Upozornění: Pokud bude zjištěno, že N≥2 posluchačů odevzdalo řešení, která se nápadně podobají nebo jsou zcela totožná, budou všechna tato řešení považována za jedno řešení. Toto řešení bude ohodnoceno B body podle jeho kvality, ale každý z jeho N řešitelů získá pouze dolní celou část z B/N bodů.

Kvízy:

Kromě úkolů, budou postupně zveřejňovány on-line kvízy, za které bude možné získat dohromady maximálně 25 bodů. Každý kvíz bude mít stanovené datum, do kterého musí být vyřešen. Řešit kvíz po tomto datu nebude možné.

Pro získání zápočtu je nutné:

  1. Vypracovat řešení obou úkolů a za řešení každého z nich získat alespoň 1 bod. POZOR: za pozdní odevzdání úkolu se strhává 1 bod za každý započatý týden po termínu odevzdání!
  2. Vypracovat a přednést řešení projektu na jednom z posledních cvičení nebo v termínu prezentací ve zkouškovém období (jeho datum a čas bude dohodnutý na cvičení v posledním týdnu semestru). Témata projektů budou dohodnuta přibližně v půlce semestru na cvičení. Prezentace a odevzdaná řešení budou taktéž ohodnoceny dohromady 0-15 body. 

Mezi výše uvedenými podmínkami nejsou uvedeny on-line kvízy. Na cvičeních lze získat dodatečné body

  • za předvedení řešení úkolu zadaného na cvičení – 1 bod,
  • za předvedení řešení úkolu zadaného a odevzdaného v Moodlu (po termínu odevzdání) – dolní celá část poloviny bodů, které budou přiděleny za odevzdané řešení.

Bez dodatečných bodů tak lze za celý semestr získat až 60 bodů. Body získané za celý semestr budou zkoušejícím započítány do celkové známky za předmět tak, aby tvořily 40% výsledného bodového hodnocení, ze kterého bude odvozena známka při zkoušce. I když student získá z cvičení více než 60 bodů (po započítání dodatečných bodů), tyto budou započítány pouze jako 40% do hodnocení zkoušky.

Získání zápočtu vyžaduje průběžnou práci přes celý semestr, a proto žádné náhradní termíny pro získání zápočtu nebudou vypsány.

B) Přednáška

Přednáška se koná jednou týdně podle rozvrhu. Jak už bylo zmíněno výše, body získané z cvičení budou započítány s vahou 40% do celkového hodnocení posluchače. Dále bude na přednášce dohodnuto datum konání on-line testu, který proběhne v rámci cvičení. Datum konání testu bude zveřejněno v doprovodném Moodle kurzu. Tento test přispěje 15% k celkovému hodnocení. Samotná zkouška na konci semestru se započítává 45% do výsledného hodnocení. Posluchač získá známku na základě celkového hodnocení podle následující tabulky

známka 1 známka 2 známka 3 nevyhověl
100%–86% 85%–71% 70%–56% méně než 56%

Literatura -
Poslední úprava: doc. RNDr. Iveta Mrázová, CSc. (27.05.2020)

  1. Aggarwal C. C.: Data Mining: The Textbook, Springer, 2015
  2. Berka P.: Dobývání znalostí z databází, Academia, 2003
  3. Liu B.: Web Data Mining, Springer, 2007
  4. Murphy K. P.: Machine Learning: A Probabilistic Perspective, The MIT Press, 2012

Požadavky ke zkoušce -
Poslední úprava: doc. RNDr. Iveta Mrázová, CSc. (27.05.2020)

Zkouška se skládá z písemné a ústní části. Písemná část předchází části ústní, její nesplnění znamená, že celá zkouška je hodnocena známkou nevyhověl(a) a ústní částí se již nepokračuje. Nesložení ústní části znamená, že při příštím termínu je nutno opakovat obě části zkoušky, písemnou i ústní. Známka ze zkoušky se stanoví na základě bodového hodnocení písemné i ústní části zkoušky a bodového hodnocení získaného za práci během semestru (viz podmínky zakončení předmětu).

Písemná část zkoušky bude sestávat ze tří otázek k tématům, která korespondují se sylabem přednášky a/nebo látce procvičované na cvičení.

Požadavky ke zkoušce odpovídají sylabu předmětu v rozsahu, který byl prezentován na přednášce, resp. cvičení. Nutnou podmínkou pro účast na zkoušce je získání zápočtu.

Sylabus -
Poslední úprava: doc. RNDr. Iveta Mrázová, CSc. (27.05.2020)

  1. Úvod do problematiky dobývání znalostí

    • Motivace a význam dobývání znalostí v praxi, přehled základních úloh z oblasti dobývání znalostí. Metodiky pro řešení úloh z oblasti dobývání znalostí.
    • Základní principy strojového učení – učení s učitelem, samoorganizace, částečně řízené učení (semi-supervised learning), trénovací, testovací a validační množina, generalizace a přeučení, Occamova břitva.

  2. Základní paradigmata procesu dobývání znalostí

    • Pořizování, příprava a předzpracování dat – vzorkování, variabilita a věrohodnost, diskretizace numerických atributů a zpracování nenumerických proměnných, náhrada chybějících a prázdných hodnot, řadové proměnné.
    • Transformace, redukce a čištění dat – vztahy mezi veličinami (odhad vzájemné podobnosti vzorů, testování hypotéz, korelační, regresní, diskriminační a shluková analýza), redukce dimenzionality.

    • Vyhodnocování získaných výsledků – křížová validace, celková správnost, matice záměn, křivka učení, křivka navýšení a křivka ROC, kombinování modelů (bagging, boosting).

  3. Metody pro dobývání asociačních pravidel

    • Analýza nákupního košíku – časté položky, asociační pravidla, jejich formulace a základní charakteristiky.
    • Generování kombinací – algoritmus apriori, techniky "nárůstu častých vzorů" (FP-Growth a TD-FP-Growth), kombinační analýza dat.
    • Vyhledávání zajímavých pravidel pomocí omezeného dobývání (specifikace časových údajů, položek ap.).

  4. Metody pro klastrovou analýzu

    • k-means algoritmus, volba vhodné metriky, vyhodnocení výsledků (klastrová validita), reprezentace a vizualizace detekovaných klastrů.
    • Klastrování založené na principu fuzzy množin (FCM-algoritmus), neuronový přístup a hierarchické klastrování.
    • Pokročilé přístupy & škálovatelné techniky (CLARANS, BIRCH, CURE), analýza odlehlých vzorů

  5. Metody pro klasifikaci a predikci dat

    • Rozhodovací stromy a jejich indukce – algoritmy ID3, C4.5, CART a CHAID.
    • Pravděpodobnostní klasifikátory – Bayesovské modely a techniky pro jejich učení a inferenci.
    • Přírodou inspirované modely – umělé neuronové sítě perceptronového typu, SVM-stroje, ELM-sítě, genetické algoritmy.

 
Univerzita Karlova | Informační systém UK