Новая образовательная платформа
Курс НГУ Сравнение и создание групп
Курс

Сравнение и создание групп

Сравнение и создание групп

Мы научим тебя сравнивать группы, находить и анализировать различия между категориями, освоить алгоритмы кластеризации. По итогам курса ты выполнишь исследовательский проект на реальных данных компании 2GIS.

Этот курс — часть профессии «Анализ данных» от НГУ.

Курс Новосибирского государственного университета

• НГУ входит в 24 международные коллаборации, 19 из них — в области физики элементарных частиц и астрофизики.
• Университет реализует модель «образование через исследования»: 80% преподавателей НГУ — действующие учёные, поэтому студенты с младших курсов работают над реальными исследовательскими проектами.
• Выпускники НГУ работают в ведущих зарубежных университетах и научно-исследовательских центрах.
• НГУ — центр экосистемы новосибирского Академгородка, где в шаговой доступности находятся один из самых высокоэффективных в России технопарков и 35 исследовательских организаций.

Кому подойдёт этот курс

  • Студентам

    Мы научим тебя анализировать различия между группами, находить структуры в данных при помощи алгоритмов кластеризации, покажем, как это работает, на простых и понятных примерах, дадим алгоритмы сравнения и выделения групп в SPSS и R.
    Ты выполнишь исследовательский проект на реальных данных, которые аналитики компании 2GIS используют в своей работе.

  • Начинающим

    Мы дадим тебе практические инструменты поиска и анализа различий между группами, научим находить группы в данных, применять алгоритмы кластерного анализа в SPSS и R. Покажем, как это работает, на реальных данных компании 2GIS, и поможем тебе сделать свой собственный исследовательский проект.

  • Аналитикам данных

    Ты освоишь конкретные технологии и инструменты статистического сравнения категорий, научишься находить группы в данных с помощью методов кластерного анализа и сразу применишь их на практике на реальных данных компании 2GIS.

Трейлер курса

Превью видеозаписи

Чему вы научитесь

  1. Проверять статистические гипотезы
  2. Анализировать различия между категориями
  3. Выявлять группы и структуры в данных
  4. Применять алгоритмы кластерного анализа
  5. Отличать случайности от закономерностей
  6. Решать задачи сравнения и создания групп в SPSS и R

Содержание курса

Курс состоит из 4 модулей, каждый из которых посвящен отдельному классу задач: статистическим критериям, сравнению выборок, основам кластерного анализа, итерационным методам кластеризации и интерпретации кластерных моделей. Каждый модуль завершается практическими видео решения задач в SPSS и R.
В конце каждого модуля и в конце курса вас ждет итоговый тест; также вы выполните практический проект на данных компании 2GIS.

  • 34 видеоурока
  • 9 практических видео с разбором решения задач в SPSS и R
  1. Модуль 1. Одновыборочные и двухвыборочные критерии

    В первом модуле курса мы начнем разбираться со статистическими инструментами сравнения параметров и распределений в группах. Сначала поговорим об основных задачах межгрупповых сравнений, затем рассмотрим одновыборочные и двухвыборочные критерии, научимся сравнивать связанные и несвязанные выборки и посмотрим на практике, на реальных данных, как рассчитывать основные статистики в R и SPSS и интерпретировать полученные результаты.

      1. 1.1. Введение в межгрупповые сравнения
      2. 1.2. Одновыборочные критерии сравнения средних
      3. 1.3. Сравнение двух независимых выборок
      4. 1.4. Сравнение дисперсий двух независимых выборок
      5. 1.5. Сравнение распределений двух независимых выборок
      6. 1.6. Сравнение двух связанных выборок
      7. 1.7. Критерии равенства групп. Практика
      8. 1.8. Сравнение средних в SPSS. Практика
  2. Модуль 2. Сравнение нескольких выборок

    В этом модуле мы продолжим разговор о сравнении групп. Мы научимся сравнивать несколько групп при помощи разных инструментов, грамотно выбирать инструменты исходя из задачи и типа данных, с которыми мы работаем, и на практике, на реальных данных посмотрим, как рассчитывать основные статистики в R и SPSS и интерпретировать полученные результаты.

      1. 2.1. Сравнение средних для k независимых выборок: параметрический случай
      2. 2.2. Сравнение средних для k независимых выборок: непараметрический случай
      3. 2.3. Сравнение средних для нескольких связанных выборок
      4. 2.4. Критерий Фридмана
      5. 2.5. Биномиальные данные
      6. 2.6. Проверка соответствия выборочных пропорций теоретическим
      7. 2.7. Проверка гипотез о равенстве средних для нескольких зависимых и независимых групп в R. Практика
      8. 2.8. Сравнение средних в SPSS: k-выборочные критерии. Практика
      9. 2.9. Сравнение средних в SPSS: тесты для связанных выборок. Практика
  3. Модуль 3. Введение в кластерный анализ

    В третьем модуле курса мы поговорим о методах выделения групп. Если до этого мы сравнивали уже известные нам группы, то во второй половине курса мы будем находить в данных группы, о существовании которых мы пока не знаем. Мы научимся их выделять, характеризовать, и узнаем, что можно делать с построенной классификацией дальше. Основной фокус модуля — агломеративные методы классификации. В заключении, как всегда, практика на реальных данных.

      1. 3.1. Особенности методов кластерного анализа
      2. 3.2. Меры сходства. Меры расстояния
      3. 3.3. Корреляционные меры сходства и меры ассоциативности
      4. 3.4. Иерархический кластерный анализ
      5. 3.5. Определение оптимального количества кластеров
      6. 3.6. Иерархический кластерный анализ: пример
      7. 3.7. Иерархический кластерный анализ в R. Практика
      8. 3.8. Иерархический кластерный анализ в SPSS. Практика
  4. Модуль 4. Итерационные методы кластерного анализа

    В заключительном модуле курса мы разберемся с еще одним классом методов кластеризации - с итерационными методами: увидим, как работают алгоритмы, каковы возможности и ограничения разных алгоритмов, научимся строить классификации, оценивать их качество, характеризовать и анализировать полученные группы, а также разберем некоторые инструменты визуализации результатов классификации. В заключении, как всегда, практика на реальных данных.

      1. 4.1. Метод k-средних
      2. 4.2. Метод K-средних. Пример
      3. 4.3. Алгоритм Forel
      4. 4.4. Forel. Пример
      5. 4.5. Способы оценки качества кластеризации
      6. 4.6. Графические инструменты в кластерном анализе
      7. 4.7. Построение кластерного анализа с помощью k-средних в R. Практика
      8. 4.8. Построение кластерного анализа методом k-средних в SPSS. Практика
  5. Модуль 5. Итоговый тест и оцениваемое задание

      1. Итоговый тест
      2. Практическое задание

Авторы курса

Наталья Галанова

Наталья
Галанова

Аналитик данных компании 2GIS

Виктор Демин

Виктор
Демин

Team lead, аналитик данных компании 2GIS, кандидат технических наук

Ольга Ечевская

Ольга
Ечевская

Социолог-исследователь, кандидат социологических наук, преподаватель курсов по анализу данных в НГУ

Стоимость курса

  • Единоразовая оплата:
  • 4 845
  • 5 700
Курс НГУ Сравнение и создание групп

Шаг 1. Выберите вариант оплаты

Шаг 2. Заполните контактные данные

Похоже, произошла ошибка. Попробуйте отправить снова или перезагрузите страницу.

Нажимая на кнопку, я соглашаюсь на обработку персональных данных и с правилами пользования Платформой

Нажимая на кнопку, я соглашаюсь с публичной офертой и политикой обработки персональных данных

Спасибо!

Ваша заявка успешно отправлена

Часто задаваемые вопросы

  • Как пройти курс?

    Для получения сертификата о прохождении курса вам необходимо набрать проходной балл по каждому из обязательных заданий: тесты по итогам каждого модуля, итоговый тест по курсу и практический проект по анализу данных.
    Видео, материалы для самостоятельного изучения, а также тренировочные упражнения помогут вам подготовиться к сдаче оцениваемых заданий.
  • Кто будет мне помогать в обучении на платформе?

    У вас будут кураторы в Telegram-чате курса. Они прокомментируют практические работы, дадут полезные советы и ответят на любые вопросы. Вы сможете перенять их опыт, профессиональные знания и лайфхаки.