Открываем 70+ курсов на неделю за 1 ₽Узнать больше
Партнёры Академика Pro
ProProВсе материалы курса доступны по подписке Академика Pro
  • Для всех
  • С сертификатом
  • На русском языке
  • 15 часов
  • 4 999

Машинное обучение для анализа текстов

Вы узнаете, как создать диалогового робота, автоматизировать и ускорить поиск нужной информации в больших массивах данных. Поймёте, как написать программу, умеющую различать интонацию, с которой написаны сообщения в соцсетях. Сможете научить компьютер понимать естественные языки и извлекать из этого пользу.

  • Для всех
  • С сертификатом
  • На русском языке
  • 15 часов
  • 4 999
Посмотреть программу

Чему вы научитесь

  • Превращать текст на естественном языке в набор чисел, понятный компьютеру

  • Понимать, как устроены собственные программные продукты для автоматизации общения (чат-боты, диалоговые роботы)

  • Программировать системы для распознавания интентов, анализа тональности и других задач

  • Понимать, как устроена система разговорного искусственного интеллекта

  • Объективно оценивать системы разговорного искусственного интеллекта

  • Проводить лингвистический анализ текста (токенизация, стемминг, лемматизация и другие)

Трейлер курса

Содержание курса

Вы узнаете, что такое разговорный искусственный интеллект и на чём он основан. Научитесь различным методам машинного обучения, которые используются для анализа текстов, и отработаете все полученные знания на практических занятиях.

  • 6 модулей
  • 6 тем
  • 15 часов
  • Что такое разговорный искусственный интеллект?
    • О чём этот курс?
    • Машинное обучение. Когда оно бывает вредным?
    • Виды машинного обучения.
    • История развития искусственного интеллекта.
    • Умеет ли искусственный интеллект общаться?
    • Как анализировать целые тексты?
    • Обучение с учителем. Классификация и регрессия.
  • Как передать текст компьютеру?
    • Какие признаки бывают у объектов?
    • Стемминг: как отсекать лишнее?
    • Лемматизация: что делать с морфологическими омонимами?
    • Токенизация и лемматизация русских текстов с помощью библиотеки spaCy. Практическое занятие.
    • Ищем устойчивые сочетания слов. Статистика VS лингвистика.
    • Выбор значимых элементов из «мешка слов» на основе критерия χ2.
    • Векторизация текстов на основе TF-IDF и сокращение «мешка слов» на основе критерия χ2. Практика.
    • Применение коллокатора для «умного» выявления наиболее частотных словосочетаний. Практика.
  • Как научить компьютер понимать тексты?
    • Методы обучения с учителем. Логистическая регрессия.
    • Как обучать логистическую регрессию?
    • Что делать, если компьютер переучился?
    • Как оценить качество логистической регрессии?
    • Точность, полнота и F-мера для оценки качества классификации.
    • Регуляризация и подбор гиперпараметров логистической регрессии.
    • Применение библиотеки scikit-learn для анализа тональности твитов методом логистической регрессии. Практика.
    • Оценка качества алгоритма классификации. Практика.
    • Как улучшить качество классификатора? Практика.
    • Как выбрать оптимальные гиперпараметры? Практика.
  • Как вырастить деревья решений?
    • Для чего нужны деревья решений?
    • Базовый алгоритм.
    • Алгоритм ID3.
    • Как бороться с переобучением деревьев?
    • Дискретизация количественных признаков.
    • Выращиваем деревья решений для анализа тональности сообщений. Практика.
    • Выращиваем деревья решений без ограничений по глубине. Практика.

Автор курса

  • Иван Бондаренко

    Иван Бондаренко

    Старший преподаватель кафедры фундаментальной и прикладной лингвистики Гуманитарного института НГУ

Сертификат от НГУ

Подтвердит, что вы прошли курс, и усилит ваше портфолио или резюме.