Skip to content

Latest commit

 

History

History
31 lines (19 loc) · 3.54 KB

README.md

File metadata and controls

31 lines (19 loc) · 3.54 KB

NLP-блок курса "Современный анализ данных" (ФКН НИУ ВШЭ), 2020

Занятие 1: Введение в автоматическую обработку текстов. Частотный анализ. Морфологический анализ.

  • Вводная лекция, препроцессинг текста Open In Colab
  • Препроцессинг текста + анализ тональности Open In Colab
  • Регулярные выражения Open In Colab

Занятие 2: Дистрибутивная семантика. Модели word2vec и fastText. Классификация текстов.

  • Word embeddings Open In Colab
  • Классификация с помощью CNN Open In Colab

ДЗ 1 Классификация новостей Open In Colab

Соревнование: https://www.kaggle.com/c/lenta-classification-2020/

Решение ДЗ Open In Colab

Занятие 3: Снижение размерности в NLP. Тематические моделирование. Синтаксический парсинг.

  • Тематическое моделирование Open In Colab
  • Синтаксический парсинг Open In Colab

Занятие 4: Языковые модели. Статистические и нейросетевые языковые модели.

  • Языковые модели и генерация текста Open In Colab
  • Transformer-based архитектуры Open In Colab Open In Colab