Машинное обучение для анализа текстов

Вы узнаете, как создать диалогового робота, автоматизировать и ускорить поиск нужной информации в больших массивах данных. Поймёте, как написать программу, умеющую различать интонацию, с которой написаны сообщения в соцсетях. Сможете научить компьютер понимать естественные языки и извлекать из этого пользу.

Для всех
С сертификатом
На русском языке
15 часов

4 999₽

Чему вы научитесь

Превращать текст на естественном языке в набор чисел, понятный компьютеру
Понимать, как устроены собственные программные продукты для автоматизации общения (чат-боты, диалоговые роботы)
Программировать системы для распознавания интентов, анализа тональности и других задач
Понимать, как устроена система разговорного искусственного интеллекта
Объективно оценивать системы разговорного искусственного интеллекта
Проводить лингвистический анализ текста (токенизация, стемминг, лемматизация и другие)

Трейлер курса

Содержание курса

Вы узнаете, что такое разговорный искусственный интеллект и на чём он основан. Научитесь различным методам машинного обучения, которые используются для анализа текстов, и отработаете все полученные знания на практических занятиях.

6 модулей
6 тем
15 часов

Что такое разговорный искусственный интеллект?
- О чём этот курс?
- Машинное обучение. Когда оно бывает вредным?
- Виды машинного обучения.
- История развития искусственного интеллекта.
- Умеет ли искусственный интеллект общаться?
- Как анализировать целые тексты?
- Обучение с учителем. Классификация и регрессия.
Как передать текст компьютеру?
- Какие признаки бывают у объектов?
- Стемминг: как отсекать лишнее?
- Лемматизация: что делать с морфологическими омонимами?
- Токенизация и лемматизация русских текстов с помощью библиотеки spaCy. Практическое занятие.
- Ищем устойчивые сочетания слов. Статистика VS лингвистика.
- Выбор значимых элементов из «мешка слов» на основе критерия χ2.
- Векторизация текстов на основе TF-IDF и сокращение «мешка слов» на основе критерия χ2. Практика.
- Применение коллокатора для «умного» выявления наиболее частотных словосочетаний. Практика.
Как научить компьютер понимать тексты?
- Методы обучения с учителем. Логистическая регрессия.
- Как обучать логистическую регрессию?
- Что делать, если компьютер переучился?
- Как оценить качество логистической регрессии?
- Точность, полнота и F-мера для оценки качества классификации.
- Регуляризация и подбор гиперпараметров логистической регрессии.
- Применение библиотеки scikit-learn для анализа тональности твитов методом логистической регрессии. Практика.
- Оценка качества алгоритма классификации. Практика.
- Как улучшить качество классификатора? Практика.
- Как выбрать оптимальные гиперпараметры? Практика.
Как вырастить деревья решений?
- Для чего нужны деревья решений?
- Базовый алгоритм.
- Алгоритм ID3.
- Как бороться с переобучением деревьев?
- Дискретизация количественных признаков.
- Выращиваем деревья решений для анализа тональности сообщений. Практика.
- Выращиваем деревья решений без ограничений по глубине. Практика.

Автор курса

Иван Бондаренко
Старший преподаватель кафедры фундаментальной и прикладной лингвистики Гуманитарного института НГУ

Сертификат от НГУ

Подтвердит, что вы прошли курс, и усилит ваше портфолио или резюме.

Машинное обучение для анализа текстов

Чему вы научитесь

Трейлер курса

Содержание курса

Что такое разговорный искусственный интеллект?

Как передать текст компьютеру?

Как научить компьютер понимать тексты?

Как вырастить деревья решений?

Автор курса

Иван Бондаренко

Сертификат от НГУ