Скидки до 60% и розыгрыш MacBook 0 дней 00 :00 :00 Выбрать курс
EdTech
#Интервью

Аналитика данных в образовании: почему психометрика ещё не стала индустриальным стандартом

Расспросили главного амбассадора психометрики в России, какие данные в EdTech анализируют сейчас и что стоило бы анализировать на самом деле.

Иллюстрация: Moreno Felix / Freepik / Minigan / Unsplash / Colowgee для Skillbox Media

Дмитрий Аббакумов

Российский и международный эксперт в области EdTech


Автор книги «Психометрика в EdTech: первые шаги» и разработчик ключевых учебных метрик: успеваемости студентов, посильности материалов, дельты успеваемости и скорректированного прогресса.

Получил докторскую степень по психометрике и статистике в Лёвенском католическом университете (Бельгия).

Работал в НИУ ВШЭ, «Яндекс Практикуме», как консультант — в ряде других российских и зарубежных EdTech-компаний.

Состоит в международном Психометрическом обществе и Европейской ассоциации методологии.

Автор работ, опубликованных в ведущих научных журналах, таких как Behavior Research Methods, Applied Measurement in Education и Psychologica Belgica.


Сайт Дмитрия с информацией об актуальных проектах.

В этом интервью мы обсудили:


«Психометрика — единственный возможный на сегодняшний день способ измерить обучение»

— Ваша книга называется «Психометрика в EdTech», и прежде чем обсуждать, что такое психометрика, давайте разберёмся, кому она может быть полезна. Вы написали книгу для образовательных онлайн-платформ, которые принято относить к EdTech-бизнесу?

— Я использовал понятие EdTech в названии книги для обозначения не сегмента бизнеса, а технологий, которые применяются для улучшения образования. Хотя я писал книгу на материале «Яндекс Практикума», я не фокусировался именно на образовательном бизнесе. Под EdTech я имел в виду такие образовательные приложения, сайты, проекты, которые собирают данные и которым будет интересно считать на их основе метрики.

Психометрика, о которой я рассказываю в книге, ориентирована на всех, кто учит людей и интересуется тем, как через сбор данных и их анализ улучшать свои образовательные продукты, настраивая их на студентов, и тем самым растить качество обучения.

Я рассчитывал, что книга будет полезна в более широком контексте всем, кто использует образовательные технологии, — в том числе учителям, которые занимаются репетиторством на различных онлайн-платформах, и университетским преподавателям, и корпоративному сектору онлайн-обучения. И судя по отзывам, которые я получаю, так и вышло.

— То есть ваша книга — для всех, кто непосредственно сам занимается аналитикой данных, собираемых на образовательных платформах, в LMS, образовательных приложениях и так далее?

— Я бы сказал, она для ещё более широкого круга. Книгу можно разделить на две части. Одна из них — практический гайд для образовательных проектов по тому, как логировать данные и считать на их основе метрики. Это «бери и делай» для тех, кто действительно работает с цифровыми данными в образовании.

Фото: Freepik

А вторая часть — для людей, которые просто интересуются в теории, как можно измерять уровень успеваемости студентов, трудности учебного контента и так далее. У таких читателей, может, ещё и нет своего образовательного проекта и данных из него, но по книге они могут сложить представление о том, как можно измерять образовательные результаты, опираясь на простой сбор данных.

— Хорошо, а что самое важное нужно знать о психометрике вашим читателям? В чём суть этой науки, с вашей точки зрения?

— Психометрика — наука об измерении ненаблюдаемых конструктов. В образовании такие конструкты — это знания, умения и навыки, в психологии — способности, черты, особенности личности.

Чтобы измерить что-то невидимое, нужны две составляющие. Первая — преобразовать это невидимое в какие-то наблюдения, которые уже можно посчитать. Так появляется направление психометрики, связанное с разработкой тестов, опросников, анкет, задачников, гайдов интервью, рубрикаторов оценки.

Вторая составляющая — какую математику, какой статистический аппарат мы можем применить, чтобы на основании этой информации посчитать метрику. Первое, что приходит в голову, — просто посчитать количество правильных ответов. Но три правильных ответа из пяти или из трёхсот — это очень разные показатели. Следующий шаг — рассчитывать среднее количество ответов или доли правильных ответов. Можно проследить, как психометрика развивалась от очень-очень простого подсчёта правильных ответов (чем, в принципе, занимался ещё Фрэнсис Гальтон) к первым метрикам, потом к факторному анализу и так далее.

Мне кажется, психометрика — единственный возможный на сегодня способ измерить обучение. Никакая психофизиология по энцефалограммам и томографам пока не может оценить количество знаний, умений и навыков.

— В очном обучении опытный преподаватель и так знает, на что способны его ученики, и видит, кому трудно, кому, наоборот, слишком легко. В таком случае психометрика не нужна, правильно?

— Преподаватели, конечно, настраиваются на свою аудиторию. Но мы не можем клонировать хорошего преподавателя и обеспечить единство его субъективности для всех групп, для всех изучающих его предмет. Поэтому в психометрике мы отказываемся от экспертной глубины в пользу попытки сделать универсальную стандартизированную процедуру, которая будет справедлива.

Как раз понятие справедливости — ключевое для психометрики. Психометрические оценки могут дать однозначный ответ, почему у Пети 5, а у Маши 4. Преподаватель, конечно, тоже стремится поставить объективную оценку, но всё-таки риски субъективной трактовки остаются.

Именно поэтому даже в самых высокоселективных университетах все инструменты отбора первокурсников, которые говорят нам о знаниях, способностях, подготовленности, основаны на психометрических методах. Этими инструментами всё не исчерпывается. Есть ещё, например в тех же Гарварде или в Стэнфорде, так называемый culture fit («соответствие культуре». — Ред.) — когда в беседе с абитуриентом выясняют его личные особенности, кто волонтёр, кто занимается спортом, кто ещё чем-то отличается.

«Образовательные проекты сталкиваются с тем, что студенты вроде не жалуются, но „отваливаются“»

— На ваш взгляд, с какого момента EdTech-проекту становятся нужны сбор данных и оценка поведения студентов по метрикам? Есть ли какие-то аргументы за то, чтобы начинать это как можно раньше, даже если у онлайн-школы всего десять-двадцать студентов?

— Те данные, о которых я говорю в книге, — это действительно первые шаги, их надо собирать со старта проекта. Сразу нужно фиксировать, как студенты взаимодействуют с контентом, как они справляются с заданиями. Здесь, на мой взгляд, не может быть отговорок в духе «Мы не будем заниматься сбором данных, пока у нас стартап».

Можно перефразировать — а в какой момент надо начинать собирать маркетинговую информацию по воронке продаж? Кажется, что любой проект с самого начала её фиксирует, и в образовательной части я не вижу никаких отличий от этого. Другой вопрос — в какой момент стоит завести дорогую CRM или облачное хранилище данных. Но в простом бесплатном диске логировать основные данные нужно с самого начала.

— Судя по результатам вашего проекта «М-Чекап», компании на российском EdTech-рынке гораздо больше ориентируются на показатели обратной связи от учащихся, чем на измеримые метрики. Какие вы видите причины для этого?

— Да, во всём, что касается качества образования или качества продукта, эффективности изменений, которые вносят в продукт, качества учебного опыта и всего остального, мы тотально, повально опираемся на фидбэк от студентов. Мы их спрашиваем, нравится ли им обучение, вместо того, чтобы собирать объективные данные о том, как они проходят это обучение.

У меня есть этому такое гипотетическое объяснение. Всё-таки основателями российского (да и мирового) EdTech выступали не педагоги и не методисты, а маркетологи, бизнесмены. И если открыть любую статью о том, какие метрики важны в EdTech — например, на Skillbox Media замечательная статья, — первое, что мы увидим, будут NPS, retention, LTV и так далее. Что умеем — те метрики и делаем, EdTech запускался как бизнес, и нужно было этот бизнес развивать.

Про качество продукта думали, кажется, просто с позиций здравого смысла. В рамках любой концепции продукты делаются так: проведи интервью, выяви, какие задачи клиенту важны, и от них пытайся отстраивать своё ценностное предложение. И я думаю, что применительно к качеству логика была такая же: если все уходят, retention низкий, то качество, видимо, плохое. А как понять качество поглубже? А давайте поспрашиваем учащихся.

Подчеркну, что в этих моих репликах нет никаких оценочных суждений, нет вывода, что все делали всё неправильно. Делали, как получалось. Но со временем, с ростом зрелости рынка, кажется, появляется запрос на точные измерения, сравнения, на оценку эффектов, на то, как связать качество контента с теми же метриками продукта типа retention.

— Почему вообще появился такой запрос? Жили же как-то, собирая обратную связь от студентов, — зачем что-то менять, усложнять?

— У фидбэка от студентов есть проблема — субъективность. Любые образовательные проекты сталкиваются с тем, что студенты вроде не жалуются, но «отваливаются». Из ста ушедших, условно, только трое заполняют анкету для обратной связи. И из них только один укажет на какие-то конкретные проблемы.

То есть фидбэк всегда содержит в себе ошибку выжившего — не каждый его заполнит, и не каждый заполнивший вообще способен рефлексировать. У меня есть показательный пример из практики TripleTen. Там студенты жаловались на трудный модуль, но когда мы посмотрели данные, увидели: они всё проходили быстро, все задачи решили с первой-второй попытки. В чём же трудность? А оказалось, что те, кто пожаловался, просто занимались один день вместо семи — они весь недельный модуль пытались «проглотить» за ночь пятницы. Представляете, если бы мы, полагаясь на такую обратную связь, стали упрощать модуль для всех?

И вот ещё пример из «Вышки»: в данных по курсам университета на Coursera мы видели, что некоторые студенты каждый тест проходили, условно, с десятой попытки, но в обратной связи ни о каких трудностях не сообщали. А отличники, которые всё сдавали с первого раза, на первой же теме, которая для них оказалась чуть-чуть сложнее — например, задание сдано на 97%, а не на все 100%, — уже жаловались на трудности.

Всё это говорит, что опираться нужно на точные данные, собирая их по всем студентам, и уже потом просить фидбэк, не наоборот. Как в медицине — хотя врач сначала собирает анамнез, диагноз он ставит только в более глубокой беседе после того, как вы сдали анализы, сделали рентген и так далее.

— А вак в идеальном мире образовательному проекту стоит использовать обратную связь от студентов, чтобы она не подменяла собой объективные метрики?

— Думаю, что к обратной связи нужно относиться как к источнику качественных данных. С помощью количественных метрик мы можем охватить всех, и дальше на основании этой информации сегментировать студентов на группы — тех, кто бросил курс в той или иной части, тех, у кого больше всего трудностей и так далее. А потом можно поговорить с представителями каждого кластера и уже не просто собирать отзывы, а задавать конкретные вопросы с опорой на собранные данные. Например: «Вы много раз решали такое-то задание, помогла бы вам в этот момент подсказка?» В этом случае ответы нам дадут глубину понимания, которой нет в количественных данных.

«Перестаньте опрашивать этих бедных студентов, начните рассчитывать прозрачные метрики»

— Кажется, по мере того, как усложняется общая ситуация на российском EdTech-рынке, компании начинают конкурировать в том, как они доказывают эффективность своих курсов. Как в этом им может помочь психометрика?

— Психометрика работает на повышение эффективности процессов. Можно привести три примера.

Раньше компании могли себе позволить проводить, скажем так, ковровое улучшение контента: проанализировали фидбэк, увидели, что есть какие-то проблемы, и переписывают весь контент. Сейчас появляется запрос на операционную эффективность, и психометрика в этом помогает, потому что показывает, что конкретно в составе учебного контента работает не так, что стоит улучшить точечно. И мы можем даже не тратить время на интервью со студентом и на анализ его обратной связи. Можно ориентироваться только на количественную информацию, на метрики — и уже получить значимый прирост в повышении эффективности.

То же самое в сопровождении — это в любой компании самая дорогая задача, потому что сопровождают студентов всегда люди. Психометрика помогает выделить группы студентов, которым нужна помощь поддержки.

Третий момент, где психометрика может помочь, — выявление потребности в новых продуктах. Например, психометрический анализ может показать, что на курсе по программированию есть существенная когорта студентов, которые допускают много ошибок в тренажёре, и это значит, что им стоит предложить какой-то кастомный курс-песочницу.

— А замечаете ли вы, что на российском рынке действительно становится больше примеров, когда EdTech-компании внедряют психометрику?

— О психометрике многие уже знают, но всё ещё, мне кажется, нам нужно прокачивать это. Один из выводов «М-Чекапа» — что психометрике ещё точно далеко до того, чтобы быть индустриальным стандартом. Например, казалось бы, как можно разрабатывать тестовые задания, не рассчитывая трудность, надёжность, валидность этих заданий? Но смотришь, а делается ли это в EdTech — и оказывается, нет, не делается. Думаю, что нужно просто просвещать, рассказывать. Кстати, один из отзывов на книгу от моих знакомых был такой: «Мы это всё старались как-то по наитию выводить, а оказывается, целая наука существует!»

И у меня есть объяснение, почему об этой науке у нас мало кто знает — с 1936 года у нас началось её забвение. Так сложилось — я не говорю, что это обязательно плохо — что российская педагогика очень теоретизирована, очень высока роль автора теории. Мы говорим — «педагогика Эльконина», «школа самоопределения Тубельского», — но очень мало фактуры, которая нам показала бы на цифрах, в чём один подход отличается от другого.

Я своей миссией вижу в том числе донесение той идеи, что обучение можно измерять эффективнее. Перестаньте опрашивать этих бедных студентов, начните рассчитывать по логам прозрачные метрики трудности контента и на этой основе его улучшайте.

Фото: Freepik

— На вашем выступлении во время конференции «Тенденции развития образования» в «Шанинке» прозвучал вопрос от зрительницы о том, как донести бизнесу ценность психометрических измерений, если в компании считают, что все нужные выводы о своих продуктах можно сделать по маркетинговым метрикам. Тогда вы из-за тайминга не успели ответить, а что могли бы сказать по этому поводу?

— Надо просто взять и нести эту ценность. Это непростой путь. Если бы я писал свою книгу до «Яндекс Практикума», у меня получилась бы диссертация — а благодаря этому опыту у меня появилась и мысль, и форма, как её донести. Следующий шаг, который я вижу, — провести курс «Инструменты учебной и психометрической аналитики для доказательного образования», который мы готовим в School of Education. Его участники — а среди них будут представители и большого EdTech, и стартапов — научатся рассчитывать метрики, строить дашборды и принимать решения. Ну а дальше, наверное, подоспеет уже и продолжение моей книги.

— Если донести ценность метрик — непростой путь, поделитесь, как вам удалось сделать это в команде «Яндекс Практикума»? Как вы заговорили на общем языке с маркетологами, методистами?

— Честно скажу: это было больно. В первые несколько месяцев я просто привыкал к бизнес-жаргону, учился «снимать запрос» у бизнеса и отвечать на него. Первое время я делал сложные вероятностные оценки: «Эта цифра значит, что этот студент ответит на это задание с такой-то вероятностью». И никто эти решения не понимал, все спрашивали: «Ну ты скажи просто, нам это улучшать или нет?» И так как я чувствовал, что мне нужно там выдать решения, которые будут работать и приносить результат, постепенно сонастройка и случилась.

— В книге вы упоминаете несколько примеров того, как психометрики связаны с маркетинговыми и продуктовыми показателями, более привычными для EdTech, как бизнеса. Например, как по успеваемости на пробном курсе понять, кто купит полный курс. В каком состоянии сейчас в мире продуктовая психометрика?

— В прошлом году в Праге на конференции Психометрического общества я делал доклад о продуктовой психометрике и как раз говорил о том, что, по-моему, мы как психометрики-учёные не инвестируем достаточно в то, чтобы быть полезными образовательному бизнесу.

Например, как в научном подходе принято разрабатывать и дорабатывать метрики? Мы видим какой-то пробел в научной литературе, что-то, что ещё не сделано: допустим, все измеряют какой-то коэффициент с точностью 0,9.

Научная задача может ставиться так: повысить точность до 0,95. И никто не задумывается, а нужна ли такая точность, воспользуется ли кто-то этим, есть ли у этого прагматический смысл.

Я не говорю, что все статьи надо писать с позиций прагматики, но если мы хотим влиять на рынок EdTech — а он кажется очень понятным рынком востребованности для психометрики — то нужно мыслить в продуктовом ключе. Пока у продуктовой психометрики нет системного вида, какого-то манифеста, но сейчас мы с коллегами движемся к выработке набора практик и методов.

Фото: ImYanis / Shutterstock

—  Какие примеры применения продуктовой психометрики уже сейчас можно привести?

— В целом направление продуктовой психометрики очень молодое, но у него есть энтузиасты. Например, директор по оцениванию в Duolingo Алина фон Давье — профессиональный психометрик, она раньше была директором по науке Educational Testing Service, где разрабатывают такие тесты, как TOEFL, SAT и так далее. Благодаря ей в Duolingo все AB-тесты, которые касаются обучающей части, то есть не цвета кнопок (хотя, оговорюсь, цвет кнопок тоже важен) делаются на психометрических методах. Трудность задач, запоминаемость слов — всё строго считается, и результаты непосредственно интегрируют в продукт, чтобы улучшать и продуктовые метрики.

«Нет ничего универсального, и показателей метрик это тоже касается»

— В книге вы приводите такие метрики, как успеваемость студента и посильность задания. Как вы пишете, в эффективных курсах оптимальные зоны обеих метрик находятся в одинаковом диапазоне 70–90%. Могли бы вы пояснить, почему так получается?

— Тут всё очень просто. В книге я ссылаюсь на статью, в которой доказано — error rate, то есть доля ошибок или вероятность ошибки в конкретном учебном задании, должна быть 0,15. То есть оптимальная трудность контента, его посильность — 0,85, когда 85% студентов справляются с ним успешно.

А оптимальная доля успешных заданий у студента, то, что называется learning rate, согласно этой статье, должна быть 0,85 (это когда 85% заданий студент решает верно, а в 15% допускает ошибки). Это и есть оптимальная успеваемость студента.

Чтобы получить оптимальную успеваемость на уровне 0,85, трудность учебного контента тоже должна быть 0,85. Поэтому эти метрики сходятся. Студенческий опыт при таких значениях считается оптимальным, потому что доказано — такие студенты быстрее доходят до конца курса, в целом они успешнее и удовлетворённее.

— Такие границы оптимальных зон успеваемости и посильности заданий универсальны для любых учебных курсов?

— Как считают авторы упомянутой статьи, в целом это универсальная история. Они связывают это с зоной ближайшего развития Льва Выготского. Идея в том, что именно когда доля успешно выполненных заданий близка к 0,85, учащийся воспринимает свои шансы на успех на следующем шаге оптимальным образом.

Но в книге я специально не говорю об универсальности, моя задача была скорее в том, чтобы показать, как установить оптимальные значения для своего курса. И ещё для меня было важно, что выведенные на данных «Яндекс Практикума» оптимальные значения совпали с тем, что получили другие учёные. Судя по отзывам и по тем проектам, с которыми я тоже работал, эти значения много где соблюдаются. Люди говорят: «Кажется, так и есть!»

Фото: gpointstudio / Freepik

— Как вы считаете, могут ли быть успешными нишевые курсы, где посильность заданий низкая — то есть они специально разработаны так, чтобы с ними с первой попытки почти никто не справлялся? Идея проекта может быть в том, что учиться трудно, зато прогресс будет ощутимый. Ведь каких-то студентов это может привлекать?

— Да, думаю, такое возможно. Во-первых, нет ничего универсального (и показателей метрик это тоже касается), а во-вторых, всё зависит от того, в какой парадигме мы выстраиваем обучение. Моя книга описывает обучение, которое опирается на оптимальность, бережность, комфортность для учащихся и заботу о них. Но, например, есть такой учёный, профессор Высшей школы экономики Александр Николаевич Поддьяков — автор концепции компликологии, науки о создании развивающих, диагностирующих и деструктивных трудностей, в том числе в обучении. И в рамках этой теории он рассматривает различные интенции преподающего и то, какие способы обучения он использует.

В преподавании можно ориентироваться на бережный подход, а можно, условно, зайти в аудиторию и сказать: «Вы все бестолочи, но я из вас сделаю олимпийских чемпионов! Каждому — сто отжиманий!» И по идее, во втором подходе и learning rate нужен другой, ломающий — 80% неудач, 20% успехов.

По личному примеру знаю, что оба подхода могут работать. Когда я учился играть на гитаре, мой преподаватель меня подначивал: «У тебя пальцы — „сардельки“, ничего у тебя не получится». И на мне это сработало, я стал играть и через два года выиграл конкурс для учеников музыкальной школы. Но когда я в детстве занимался спортом, карате, аналогичный приём на меня совсем не работал, я приходил домой и говорил маме — всё, больше я туда не пойду. Хотя приём, казалось бы, был один и тот же.

Так же и бережный подход с оптимальным количеством удач где-то может сработать, а где-то может получиться так, что студентам будет слишком легко и они потеряют интерес. В общем, может существовать масса педагогических подходов — мы ни в коем случае не пытаемся отнять хлеб у преподавателя или методиста, указывая им единственный верный подход. Если курс разрабатывается как зубодробительный челлендж — это тоже вариант.

— А верно ли обратное — что для чисто развлекательных курсов, которые покупают для общего развития, для формирования кругозора, посильность заданий должна быть ещё выше — например, 95% все решают с первой попытки — потому что студенты не готовы сталкиваться с трудностями на таких курсах?

— Абсолютно согласен, но есть ощущение, что и на таких курсах посильность контента не должна быть слишком высокой, иначе студентам будет скучно. Возможно, в таких случаях опасна только крайняя степень упрощения: условно, ты решил научиться варить борщ, а на курсе тебе начинают рассказывать, что нужна вода, чтобы налить воду, нужно открыть кран, а чтобы открыть кран, нужно повернуть ручку по стрелочке и так далее…

А ещё есть доказанная, на мой взгляд, гипотеза об инфляции этих оптимальных значений трудности контента и успеваемости студентов. В начале 2010-х вышла статья нидерландских учёных, где эмпирическим путём вывели оптимальную трудность задания — 0,75. Если у задачи такая трудность, то учащиеся, решив её верно, не воспринимают это как какую-то невероятную удачу, а ошибившись — не считают это обескураживающим опытом.

Прошло меньше десяти лет, и вот в другой научной статье мы уже видим значение оптимальной трудности задания 0,85, тоже доказанное эмпирически. То есть за эти годы случилась инфляция. Почему я говорю, что это только на мой взгляд доказано? Потому что можно провести параллель между этими двумя исследованиями, но никакого лонгитюдного эксперимента на этот счёт не было.



Жизнь можно сделать лучше!
Освойте востребованную профессию, зарабатывайте больше и получайте от работы удовольствие.
Каталог возможностей
Понравилась статья?
Да

Пользуясь нашим сайтом, вы соглашаетесь с тем, что мы используем cookies 🍪

Ссылка скопирована