Zpracování přirozeného jazyka (CZ)

Kurzem Vás provede Jiří Materna

Je specialista na strojové učení se zkušenostmi s jeho aplikacemi v průmyslu od roku 2007. Mezi lety 2008 a 2017 pracoval ve společnosti Seznam.cz, z…

Základní info

Popis kurzu

Kurz je zaměřen na analýzu a zpracování textů.

Předpokládá se znalost principů strojového učení, ale ty nejdůležitější koncepty budou stručně zopakovány. Specifikem zpracování textů je způsob předzpracování dat a jejich vektorizace. Tomu bude věnována první část. Vše bude prakticky vyzkoušeno na úloze, jejíž cílem je klasifikace textových dokumentů. Dále se účastníci dozvědí, co jsou to jazykové modely a jak je použít pro detekci jazyka dokumentu nebo generování textů.

Obsah kurzu

  • Úvod do zpracování přirozeného jazyka
  • Vybrané kapitoly z komputační ligvistiky (korpusy, tokenizace, morfologická, syntaktická a sémantická analýza, entropie, mutual information, perplexita)
  • Vektorizace textových dokumentů (bag of words, one-hot encoding, TF-IDF)
  • Word embedding (word2vec)
  • Praktická úloha na klasifikaci textů
  • Word embedding (vytvoření word2vec modelů a experimenty s vektorovými reprezentacemi slov)
  • Úvod do jazykových modelů (n-gramové modely, vyhlazování, modely založené na neuronových sítích)
  • Praktická úloha na jazykové modelování (implementace jazykových modelů a jejich využití pro detekci jazyka textu)
  • Úprava algoritmu pro generování textů

Předpoklady

  • Základní znalost programování v Pythonu
  • Středoškolské znalosti lineární algebry, matematické analýzy a teorie pravděpodobnosti. Bude předpokládáno základní porozumění pojmům jako vektor, matice, vektorový prostor, pravděpodobnost, podmíněná pravděpodobnost, nezávislost náhodných jevů a znalost násobení matic a derivace funkcí.
  • Znalosti strojového učení na úrovni kurzu Úvod do strojového učení.

Návaznosti

Časové řady

Zpracování přirozeného jazyka (CZ)

Vybraný termín:

 Praha

Cena
4 990 Kč + 21% DPH

Termíny kurzu

Kontaktovat dodavatele


Kontrola proti spamu. Kolik je šest a čtyři ? Součet zapište číslicemi.