Новая образовательная платформа
Курс НГУ Машинное обучение для анализа текстов
Машинное обучение для анализа текстов
Курс

Машинное обучение для анализа текстов

Вы узнаете, как создать диалогового робота, автоматизировать и ускорить поиск нужной информации в больших массивах данных. Поймёте, как написать программу, умеющую различать интонацию, с которой написаны сообщения в соцсетях.

Сможете научить компьютер понимать естественные языки и извлекать из этого пользу.

Курс Новосибирского государственного университета

• НГУ входит в 24 международные коллаборации, 19 из них — в области физики элементарных частиц и астрофизики.
• Университет реализует модель «образование через исследования»: 80% преподавателей НГУ — действующие учёные, поэтому студенты с младших курсов работают над реальными исследовательскими проектами.
• Выпускники НГУ работают в ведущих зарубежных университетах и научно-исследовательских центрах.
• НГУ — центр экосистемы новосибирского Академгородка, где в шаговой доступности находятся один из самых высокоэффективных в России технопарков и 35 исследовательских организаций.

Трейлер курса

Превью видеозаписи

Кому подойдёт этот курс

  • IT-специалистам

    Вы научитесь создавать программные продукты для автоматизации общения (например, чат-боты), автоматического парсинга, анализа тональности текстов и другие системы разговорного искусственного интеллекта (Conversation AI).

  • Проджект-менеджерам

    Вы разберётесь, как объективно оценивать системы разговорного искусственного интеллекта, чтобы эффективно внедрять их в производственные процессы.

  • Студентам математических, гуманитарных и IT-специальностей

    Вы изучите методы классического машинного обучения, получите навыки лингвистического анализа и сможете писать собственные программы на языке Python.

  • Всем, кто умеет хотя бы немного программировать и хочет погрузиться в мир компьютерной лингвистики

    Вы освоите новые методы в построении деревьев решений, научитесь объединять алгоритмы в коллективы и прокачаете свои навыки в программировании.

Чему вы научитесь

  1. Превращать текст на естественном языке в набор чисел, понятный компьютеру.
  2. Понимать, как устроены собственные программные продукты для автоматизации общения (чат-боты, диалоговые роботы).
  3. Программировать системы для распознавания интентов, анализа тональности и других задач.
  4. Понимать, как устроена система разговорного искусственного интеллекта.
  5. Объективно оценивать системы разговорного искусственного интеллекта.
  6. Проводить лингвистический анализ текста (токенизация, стемминг, лемматизация и другие).

Содержание курса

Вы узнаете, что такое разговорный искусственный интеллект и на чём он основан. Научитесь различным методам машинного обучения, которые используются для анализа текстов, и отработаете все полученные знания на практических занятиях.

  • 6 модулей
  • 38 видеолекций и 14 практических занятий
  1. Модуль 1. Что такое разговорный искусственный интеллект?

      1. О чём этот курс?
      2. 1.1. Машинное обучение. Когда оно бывает вредным?
      3. 1.2. Виды машинного обучения
      4. 1.3. История развития искусственного интеллекта
      5. 1.4. Умеет ли искусственный интеллект общаться?
      6. 1.5. Как анализировать целые тексты?
      7. 1.6. Обучение с учителем. Классификация и регрессия
  2. Модуль 2. Как передать текст компьютеру?

      1. 2.1. Какие признаки бывают у объектов?
      2. 2.2. Стемминг: как отсекать лишнее?
      3. 2.3. Лемматизация: что делать с морфологическими омонимами?
      4. 2.4. Токенизация и лемматизация русских текстов с помощью библиотеки spaCy. Практическое занятие
      5. 2.5. Ищем устойчивые сочетания слов. Статистика VS лингвистика
      6. 2.6. Выбор значимых элементов из «мешка слов» на основе критерия χ2
      7. 2.7. Векторизация текстов на основе TF-IDF и сокращение «мешка слов» на основе критерия χ2. Практическое занятие
      8. 2.8. Применение коллокатора для «умного» выявления наиболее частотных словосочетаний. Практическое занятие
  3. Модуль 3. Как научить компьютер понимать тексты?

      1. 3.1. Методы обучения с учителем. Логистическая регрессия
      2. 3.2. Как обучать логистическую регрессию?
      3. 3.3. Что делать, если компьютер переучился?
      4. 3.4. Как оценить качество логистической регрессии?
      5. 3.5. Точность, полнота и F-мера для оценки качества классификации
      6. 3.6. Регуляризация и подбор гиперпараметров логистической регрессии
      7. 3.7. Применение библиотеки scikit-learn для анализа тональности твитов методом логистической регрессии. Практическое занятие
      8. 3.8. Оценка качества алгоритма классификации. Практическое занятие
      9. 3.9. Как улучшить качество классификатора? Практическое занятие
      10. 3.10. Как выбрать оптимальные гиперпараметры? Практическое занятие
  4. Модуль 4. Как вырастить деревья решений?

      1. 4.1. Для чего нужны деревья решений?
      2. 4.2. Базовый алгоритм
      3. 4.3. Алгоритм ID3
      4. 4.4. Как бороться с переобучением деревьев?
      5. 4.5. Дискретизация количественных признаков
      6. 4.6. Выращиваем деревья решений для анализа тональности сообщений. Практическое занятие
      7. 4.7. Выращиваем деревья решений без ограничений по глубине. Практическое занятие
  5. Модуль 5. Вместе мы сила! Коллективы решающих алгоритмов

      1. 5.1. Теоретические основы ансамблирования
      2. 5.2. Бэггинг. Как повысить разнообразие алгоритмов в коллективе?
      3. 5.3. Бэггинг и дилемма смещения-разброса
      4. 5.4. Построение ансамбля алгоритмов для задачи анализа тональности сообщений. Практическое занятие
      5. 5.5. Использование бэггинга для логистической регрессии. Практическое занятие
      6. 5.6. Бустинг
      7. 5.7. Градиентный бустинг
      8. 5.8. Градиентное усиление деревьев решений. Практическое занятие
      9. 5.9. Смесь экспертов
      10. 5.10. Многоярусное обобщение. Стекинг
      11. 5.11. Иерархический ансамбль. Стекинг. Практическое занятие
  6. Модуль 6. Проблема объяснимости: почему алгоритм такой?

      1. 6.1. Интерпретируемость машинного обучения
      2. 6.2. Значимость признаков на основе перестановок
      3. 6.3. Вектор Шепли
      4. 6.4. Значимость слов для классификации текстов: «белый ящик» и «черный ящик». Практическое занятие
      5. 6.5. Вероятностная тематическая модель
      6. 6.6. Вероятностный латентно-семантический анализ
      7. 6.7. Латентное размещение Дирихле
      8. 6.8. Использование вероятностных тематических моделей для анализа текстового корпуса. Практическое занятие
      9. 6.9. Подводим итоги

Спикеры

Иван Бондаренко
Иван
Бондаренко

Старший преподаватель кафедры фундаментальной и прикладной лингвистики Гуманитарного института НГУ

Стоимость курса

  • 4 000
  • 5 000
Курс НГУ Машинное обучение для анализа текстов

Выберите вариант оплаты

Заполните контактные данные

Похоже, произошла ошибка. Попробуйте отправить снова или перезагрузите страницу.

Нажимая на кнопку, я соглашаюсь на обработку персональных данных и с правилами пользования Платформой

Нажимая на кнопку, я соглашаюсь с публичной офертой и политикой обработки персональных данных

Спасибо!

Ваша заявка успешно отправлена

Частые вопросы

  • Как пройти курс?
    Чтобы получить сертификат о прохождении курса, вам нужно набрать проходной балл по всем обязательным заданиям: сдать тесты после каждого модуля и итоговый тест по курсу, выполнить практический проект по анализу данных.
    Видео, материалы для самостоятельного изучения, а также тренировочные упражнения помогут вам подготовиться к сдаче оцениваемых заданий.
  • Кто будет мне помогать в обучении на платформе?
    Проверяющие эксперты и куратор всегда готовы ответить на ваши вопросы по электронной почте skillbox@nsu.ru.