Kursy | Sages

Przetwarzanie języka naturalnego. Start kursu: 30 listopad 2020r. Ostatnia szansa na zakup!

BASIC: Kurs online

Cena
1499 zł 1299 zł
Dostępność do:

PREMIUM: Kurs online + 5h konsultacji w formie grupowych webinarów

Cena
1999 zł 1799 zł
Dostępność do: 30 listopada 2020

Więcej niż e-learning.

Co obejmuje masterclass?

40 godzin nagrań
5h grupowych konsultacji online
Webinaria z prowadzącymi
Zamknięta grupa dyskusyjna

Poznaj autora kursu
i dowiedz się o czym będzie 

Głównym prowadzącym jest Łukasz Kobyliński. Chief Science Officer w Sages, Data Scientist w SigDelta oraz adiunkt w Instytucie Podstaw Informatyki PAN, gdzie prowadzi projekty w Zespole Inżynierii Lingwistycznej. Członek Rady Programowej studiów podyplomowych Big Data realizowanych przez firmę Sages oraz Politechnikę Warszawską oraz opiekun merytoryczny bootcampów Kodołamacz.pl. Od wielu lat zajmuje się analizą danych i uczeniem maszynowym, początkowo w odniesieniu do obrazów, a obecnie w zastosowaniu do przetwarzania języka naturalnego. Szczególnie zainteresowany lingwistyką korpusową, analizą tekstu na poziomie morfoskładniowym i semantycznym, a także efektywnym przetwarzaniem dużych zbiorów danych.

Czego się nauczysz?

Kurs przekrojowo omawia tematykę przetwarzania języka naturalnego – od wprowadzenia teoretycznego, przez wykorzystanie najnowszych metod uczenia maszynowego, aż po zastosowania praktyczne.

  1. Czym jest Przetwarzanie języka naturalnego (NLP)?
  2. Dlaczego warto się tym zajmować i dlaczego właśnie teraz?
  3. Co stanowi największe wyzwanie w NLP?
  4. Najciekawsze zastosowania NLP
  5. Co jest potrzebne, aby zajmować się NLP (narzędzia, algorytmy, matematyka)
  1. Poziomy analizy języka naturalnego
  2. Jak analizować język mówiony?
  3. Jak maszyna “widzi” tekst?
  4. Potoki przetwarzania
  5. Architektura rozwiązań NLP
  1. Tokenizacja: podział tekstu na słowa
  2. Stemming i lematyzacja
  3. Reprezentacja bag-of-words
  4. Odległość edycyjna
  5. Wyrażenia regularne
  6. N-gramy
  7. Podział na zdania
  8. TF-IDF
  1. Zasoby językowe
  2. Analiza morfosyntaktyczna
  3. Znakowanie morfosyntaktyczne
  4. Gramatyki
  5. Rozkład zależnościowy
  1. Uczenie nadzorowane a nienadzorowane
  2. Latent Semantic Indexing (LSI)
  3. Liniowa analiza dyskryminacyjna (LDA)
  4. Regresja logistyczna
  5. Typowe algorytmy uczenia maszynowego: Naive Bayes, SVM, CRF
  1. Indeksowanie i przeszukiwanie tekstu
  2. Grupowanie i klasyfikacja tekstów (podejścia ML)
  3. Ujednoznacznianie sensu słów (word sense disambiguation)
  4. Rozpoznawanie jednostek nazewniczych (named entity recognition)
  1. Najprostsza sieć neuronowa
  2. Czym jest głębokie uczenie (deep learning)?
  3. Reprezentacje wektorowe (zanurzenia słów i dokumentów)
    • word2vec, glove, elmo
    • doc2vec
  4. Sieci RNN
  5. Sieci CNN
  6. Sieci LSTM
  7. Mechanizm uwagi i modele typu Encoder-Decoder
  8. Typowe architektury sieci i wykorzystanie pretrenowanych modeli
    • BERT, RoBERTa, DistillBERT
    • GPT, GPT-2, GPT-3
    • XLM
    • Transformers
  1. Grupowanie i klasyfikacja tekstów (podejścia DL)
  2. Ekstrakcja informacji (information extraction)
  3. Wyszukiwanie semantyczne w tekście
  4. Analiza wydźwięku (sentiment analysis)
  5. Systemy dialogowe (chatboty)
  6. Analiza koreferencji (coreference analysis)
  7. Tworzenie podsumowań (summarization)
  1. Opis problemu
  2. Historia i różne podejścia
    • izolowane/regułowe, HMM, WFST, hybrydowe, E2E
  3. Wprowadzenie do modelowania akustycznego
  4. Modelowanie języka w rozpoznawaniu mowy
    • gramatyki formalne
    • statystyczne modele języka
  5. Dekodowanie w rozpoznawaniu mowy
    • n-best i kraty
    • rescoring i wykorzystanie NNLM
  1. Ciekawe zasoby
    • materiały edukacyjne
    • zasoby dla języka polskiego
    • konkursy: SemEval, PolEval, GLUE, KLEJ
  2. Dalsze kroki
  3. Obiecujące kierunki badawcze

Wymagania wstępne:

  • podstawowa znajomość języka Python, wraz z pakietami numpy i pandas
  • mile widziana podstawowa znajomość kwestii statystycznej analizy danych i uczenia maszynowego

Twoja znajomość języka Python nie jest wystarczająca? Dopytaj o specjalną ofertę na nasz kurs:

Nasi eksperci i prowadzący kurs:

dr hab. Piotr Pęzik

Profesor UŁ w Instytucie Anglistyki, autor prac naukowych i rozwiązań informatycznych z dziedziny językoznawstwa korpusowego i komputerowego. Obszarem jego zainteresowań językoznawczych jest frazeologia dystrybucyjna w ujęciu korpusowym. Był wykonawcą i kierownikiem krajowych i europejskich projektów badawczo-rozwojowych, m. in. NKJP, CESAR, PLEC, BootStrep.

dr inż. Łukasz Kobyliński

Chief Science Officer w Sages, Data Scientist w SigDelta oraz adiunkt w Instytucie Podstaw Informatyki PAN. Uczestnik takich konferencji, jak PKDD, LREC, TSD, czy LTC. Pracował w projektach komercyjnych związanych z ekstrakcją informacji, agentami dialogowymi, czy odpowiadaniem na pytania.

dr inż. Danijel Koržinek

Adiunkt w Polsko-Japońskiej Akadameii Technik Komputerowych. Wykonawca w wielu projektach naukowych i badawczo rozwojowych, w tym CLARIN-PL, EU-Bridge, SYNAT, SENAT, czy LUNA. Autor i współautor ponad 20 artykułów naukowych.

dr inż. Michał Marcińczuk

Adiunkt w Katedrze Inteligencji Obliczeniowej na Wydziale Informatyki i Zarządzania Politechniki Wrocławskiej. Posiada rozległe doświadczenie w zakresie ekstrakcji informacji, automatyzacji wyszukiwania danych tekstowych, rozpoznawania jednostek nazewniczych, czy ujednoznaczniania sensu słów.

dr Alina Wróblewska

Adiunkt w Zespole Inżynierii Lingwistycznej Instytutu Podstaw Informatyki PAN. Specjalistka w dziedzinie morfoskładniowego oraz semantycznego przetwarzania języka naturalnego, w szczególności parsowania zależnościowego oraz semantyki wektorowej. Posiada doświadczenie w tworzeniu zasobów do trenowania modeli NLP. Wyniki swoich badań naukowych prezentowała na konferencjach, m.in. ACL, EMNLP, LREC.

Patryk Pilarski

Data scientist i trener z kilkuletnim doświadczeniem. Pracuje z danymi w każdym rozmiarze i kształcie - od dużych po małe, od liczb po tekst. Nieustannie poszukuje interesujących wyzwań oraz możliwości pracy z ciekawymi technologiami, w związku z czym pracował w licznych projektach łączących w sobie wyzwania z zakresu analizy i inżynierii danych.

Ryszard Tuora

Współpracuje z Instytutem Podstaw Informatyki PAN. Zajmował się implementacją modelu dla języka polskiego do popularnego frameworku NLP – spaCy. Jego zainteresowania naukowe obejmują gramatyki zależnościowe, semantykę dystrybucyjną, oraz analizę zależności logicznych w tekstach. Pracował komercyjnie przy rozwijaniu narzędzi do przetwarzania i klasyfikacji tekstów, agentach dialogowych i popularyzacji NLP.

Dlaczego ten kurs jest wyjątkowy?

Przekrojowość

Ten kurs, to wszystko czego potrzebujesz, żeby rozpocząć pracę z analizą języka naturalnego. Zakres kursu pokrywamy 80% typowych zastosowań praktycznych NLP, wprowadzając niezbędne elementy statystyki, wiedzy lingwistycznej, czy też aspektów związanych z uczeniem maszynowym.

Aktualność

Kurs uwzględnia najnowsze metody stosowane w przetwarzaniu języka naturalnego. Omawiamy kwestie związane z reprezentacjami wektorowymi słów i dokumentów, głębokim uczeniem maszynowym, w tym architekturami RNN, LSTM i CNN, a także podejścia oparte na uwadze.

Dostosowanie do języka polskiego

W przeciwieństwie do większości innych dostępnych materiałów, ten kurs dotyczy przetwarzania zarówno języka angielskiego i polskiego. Omawiamy niezbędne narzędzia, zasoby i różnice w stosunku do języka angielskiego, które są niezbędne do rozpoczęcia pracy z językiem polskim.

Podbudowa teoretyczna

Kurs – choć bardzo praktyczny – zbudowany jest na bazie ugruntowanej wiedzy teoretycznej dotyczącej lingwistyki komputerowej. Wszystkie prezentowane rozwiązania poparte są recenzowanymi publikacjami naukowymi i są szeroko stosowane zarówno w środowisku naukowym, jak i w rozwiązaniach komercyjnych.

Eksperci

W trakcie kursu poszczególne zagadnienia specjalistyczne omawiane są przez zaproszonych gości – ekspertów z poszczególnych tematów. Zaprosiliśmy autorów najlepszych rozwiązań, osoby z długoletnim doświadczeniem w pracy nad poszczególnymi tematami – tak aby dostarczyć Wam wiedzę z najlepszego możliwego źródła.

Jeśli nie znajdziesz odpowiedzi poniżej - napisz do nas!

Przedsprzedaż to mozliwość dokonania zakupu kursu przed wprowadzniem go na rynek, po niższej cenie niż docelowa. Po upływie wyznaczonego terminu nie będziesz możliwości dokonania zakupu, a jedynie zapisania się na listę osób oczekujących kolejnej tury sprzedaży kursu, w czasie których cena sprzedaży będzie wyższa.

Dostęp early access umożliwia zakup kursu w niższej cenie, niż docelowa, przy czym kupujący otrzymuje dostęp do kolejnych lekcji w miarę ich powstawania (co tydzień). W momencie zakupu dostępna będzie pierwsza lekcja kursu, a kolejne będą pojawiać się zgodnie z harmonogramem kursu.

Kurs jest w formie wideo. Nagrania zamieszczone są na platformie e-learningowej, do której otrzymujesz indywidualny dostęp. Poza nagraniami wideo dostępne są pliki do pobrania (kod źródłowy, slajdy, pliki tekstowe, odnośniki do zewnętrznych materiałów, testy, etc). Po każdej lekcji otrzymasz pakiet zadań dodatkowych, które możesz rozwiązać samodzielnie.

Moduły kursu udostępniane są systematycznie (raz w tygodniu) w jednym czasie dla wszystkich osób zapisanych w danej edycji kursu. Program zaprojektowany został tak, żebyś mógł wymieniać się spostrzeżeniami z innymi uczestnikami i miał/-a poczucie pracy w grupie. W trakcie kursu przewidziane są spotkania z trenerem w trybie zdalnym, które dostosowane są do konkretnych treści merytorycznych.

Zalecany czas to 6 lub więcej godzin w tygodniu. Zachęcamy do regularnej pracy w ciągu tygodnia, np. półtora czy dwie godziny z rano, wtedy kiedy umysł jest wypoczęty. Jednak godziny samodzielnej nauki możesz wyznaczyć dowolnie, według swojego rytmu dnia.

Są to spotkania online z prowadzącym oraz pozostałymi uczestnikami (5 x jedna godzina, co dwa tygodnie). Podczas konsultacji prowadzący skupi się na zgłoszonych przez uczestników problemach i udzieli odpowiedzi na konkretne pytania.

Aktualnie jesteśmy w trakcie produkcji kursu i w całości nie jest on jeszcze ukończony. Zależy nam na dostosowaniu kursu do realnych potrzeb użytkowników, a taką możliwość uzyskamy dopiero po poznaniu Waszych oczekiwań. Moduły realizowane są z bezpiecznym wyprzedzeniem, także zachowana zostanie płynność w udostępnianiu kolejnych lekcji.

Nie zakładamy takiego scenariusza, ale musimy wziąć to pod rozwagę. Warunkiem dokończenia produkcji kursu jest zgłoszenie minimalnej liczby osób. Jeśli dokonasz płatności, a kurs nie zostanie uruchomiony, zwrócimy Ci pełną kwotę.

Termin kursu uzależniony jest od liczby zakupionych dostępów w okresie przedsprzedaży. Dostęp do pierwszych lekcji chcielibyśmy aktywować nie później niż w listopadzie 2020r.

Oczywiście. Dajemy Ci gwarancję sprawdzenia jakości kursu przez 14 dni od momentu uruchomienia pierwszej lekcji. Oznacza to, że jeśli zgłosisz się do nas w określonym terminie z informacją, że kurs nie spełnił Twoich oczekiwań, oddamy Ci w całości wpłacona kwotę.

Otrzymasz dożywotni (a raczej tak długo jak będzie istniał kurs) dostęp do tej edycji kursu, wszystkich materiałów w niej zawartych, przyszłych aktualizacji oraz społeczności (platforma Gitter).

faq

Uzyskaj dostęp do bezpłatnych materiałów​

Chcesz od razu przejść do konkretów?

Jeśli potrzebujesz jeszcze chwili na zastanowienie się nad zakupem, zostaw nam maila i pozostańmy w kontakcie. Będziemy regularnie przesyłać Ci materiały i fragmenty lekcji, które pozwolą Ci lepiej zrozumieć zakres i cel kursu, a także samodzielnie zacząć przygodę
z unikalnym kursem.