Психометрика: что это такое и зачем она нужна образованию
Расспросили руководителя магистерской программы по этой науке.
Иллюстрация: freepik / macrovector / Freepik / James Kovin / Unsplash / Дима Руденок для Skillbox Media
Алёна Куликова
Кандидат наук об образовании, академический руководитель магистерской программы «Обучение и оценивание как наука», научный сотрудник Центра психометрики и измерений в образовании Института образования НИУ ВШЭ.
Из этой статьи вы узнаете:
- как связаны учебные тесты и наука психометрика;
- когда и в связи с чем появилась психометрика;
- почему психометрики не доверяют нейросетям и скептически относятся к призывам изучать цифровые следы;
- что в образовании можно и нельзя измерить с помощью тестов;
- что не нравится психометрикам в современном ЕГЭ и почему они всё равно считают его скорее достоинством, чем недостатком.
Как связаны психометрика и тесты
— Что такое психометрика?
— Исторически это дисциплина об измерениях качеств людей в социальных науках. Начиналась психометрика с оценки качества тестов. Так, тест считается качественным, если все задания в нём измеряют одно и то же. Иначе вместо итогового балла мы получим сборную солянку. Сложите вопрос по математике с вопросами по русскому языку и по географии, что такой балл будет означать? Ничего.
Современная же психометрика — уже наука о поведении людей в целом. Она использует сложные статистические модели. Например, сейчас популярна сетевая психометрика. Она применяет модели из статистической физики для описания поведения людей.
В современной психометрике много направлений учебной аналитики и машинного обучения. Например, как определить, когда ученик освоил тему и ему можно двигаться к следующей. Эти решения по-прежнему основаны на тестах. Каждый вопрос теста в психометрике — поведенческий индикатор, то есть внешнее видимое проявление того, что происходит в голове ученика. Мы не можем напрямую измерить изменения в психике и знаниях, поэтому мы изучаем, как они проявляются в поведении, и измеряем эти поведенческие особенности.
— Современная психометрика — это отдельная наука или скорее набор практических навыков, применимых в разных областях?
— Ответ зависит от того, с каким психометриком вы говорите. Я придерживаюсь мнения, что психометрика — раздел вычислительных наук о поведении, наряду с социологией, нейроэкономикой и другими нейронауками. И исследования поведения потребителей в маркетинге тоже попадают сюда. Если вы хотите понять, какой цвет кнопки привлекает больше покупателей, то вам потребуется анализировать поведение людей.
То есть для меня психометрика — история про то, когда статистика встречается с данными о поведении. И применяется это в разных дисциплинах. Такой взгляд поддерживают, кстати, основные международные конференции по психометрике. Там можно увидеть любые выступления, от каузального анализа до машинного обучения в маркетинге.
— То есть психометрик — это уже не только специалист по составлению тестов?
— Классическая хрестоматийная психометрика с разработкой заданий всё ещё очень популярна и важна. Но с развитием технологий грань между психологическим оцениванием и, например, маркетинговыми исследованиями сильно размывается. И там, и там делаются выводы о поведении людей на основе данных. Получается, современный психометрик не только составляет задания, но и анализирует данные.
— В какую сторону развивается современная психометрика?
— В сторону вычислительной психометрики. По своей природе психометрика работает изначально с хорошо размеченными, хорошо структурированными данными. Это отдельные поведенческие индикаторы, задания, в качестве которых мы уверены.
А сейчас тренд на то, чтобы брать эти поведенческие индикаторы из естественного поведения. Это неструктурированные данные: чтобы обрабатывать их, нужно машинное обучение. Их использование ведёт к повышению аутентичности, то есть естественности оценивания. Но также и к потенциальным угрозам валидности выводов.
— Нейросети уже активно применяются в психометрике?
— Нет, почти не применяются. Главная причина этого — неинтерпретируемость. Допустим, к разработчику приходит респондент, недовольный результатами своего теста. В классической психометрике разработчик должен и может защитить вывод теста. То есть объяснить, исходя из профиля ответов и действий респондента, почему балл именно такой. А применяя нейросети, всё ещё очень сложно понять, почему респонденту был присуждён конкретный балл.
Как психометрика пришла в образование и зачем она здесь
— Когда появилась психометрика?
— Как следует из её названия, начало психометрике положили психологи. Причём начали они не с самых простых вещей — с измерения интеллекта. Первым тестом считается тест IQ Бине — Симона, опубликованный в 1905 году. А кто-то говорит, что всё началось ещё раньше, с лаборатории Вильгельма Вундта. Он с 1870-х изучал интенсивность ощущений — то, как мы воспринимаем раздражители.
Тренд на психометрику в индустрии образования зародился в США. Там культура такая — если ты не можешь доказать, что твой тест для поступления в вуз или другой цели хороший, то ты не сможешь его использовать. Поэтому там появились специалисты, которые стандартизировали тесты, доказывали, что их задания действительно измеряют именно то, что в них заявлено. Со временем тесты стали золотым стандартом в изучении качеств людей в США. Это переняли и другие страны, заинтересованные в развитии человеческого капитала, — Нидерланды, Бельгия.
— А когда психометрики говорят о тестах, они всегда имеют в виду вопросы с выбором вариантов ответа?
— Нет, психометрика может работать с разными видами заданий и типами данных. Поведенческим индикатором может быть не только правильно выбранный ответ. Например, задание может быть похоже на компьютерную игру, и поведенческим индикатором выступают действия, которые респондент совершает в этой игре. В таких сценарных заданиях оценивают не только сам выбор, который делает респондент, но и скорость принятия решений. Ещё используют последовательность решений и нажатия клавиш, кликстрим. В общем, любую информацию, если она важна для определения измеряемой способности.
— Как связаны психометрика и изучение цифрового следа в образовании, о котором сейчас так много говорят?
— По моему опыту, за разговорами про цифровой след ничего дельного обычно не стоит. Сбор цифрового следа в большей степени продиктован потребностями индустрии и часто политики. Там важно «быстрее, выше, сильнее». А психометрика — всё-таки академическая дисциплина. Для неё важны продуманность выводов и отсутствие альтернативных объяснений.
Психометрика строит статистические модели на основе представлений о том, как работает научное знание. Мы сначала формулируем теоретические рамки на основе предыдущих исследований. Изучаем, какие процессы происходят в психике, что они из себя представляют и как проявляются, как соотносятся друг с другом. И только после этого создаём статистические модели.
Маркетинговые применения Data Science используют более математически ориентированный подход, который не подразумевает сильной теоретической модели. Он больше ориентирован на предсказание мира, чем на его объяснение. Из-за этого бывает сложнее интерпретировать результаты. Проще говоря, сбор цифрового следа для маркетинговых целей может оказаться бесполезным для анализа с научно обоснованными выводами, если за ним нет теоретического обоснования, а только тактический продуктовый запрос.
— Что в образовании нельзя измерить с помощью тестов?
— Если коротко, измерить можно всё что угодно — от простых математических способностей до креативности, критического мышления, интеллекта.
Остальное — вопрос теоретической рамки и операционализации.
— Что такое операционализация?
— Операционализация — это выделение в измеряемом явлении или свойстве отдельных элементов, которые можно наблюдать. То есть чтобы измерить, например, учебную мотивацию, нам нужно очень точно определить, что это такое, как она проявляется, что делают и чего не делают высокомотивированные люди.
Причём теоретическая модель мотивации у нас может быть одна и та же для всех — школьников, студентов, взрослых людей. Но конкретные поведенческие индикаторы, конечно, должны отличаться. Точно так же необходимо адаптировать тесты при переводе, потому что в разных странах есть культурные особенности, которые влияют на понимание заданий. А ещё нужно учитывать гендерные различия — нам важно, чтобы на ответ респондента влияло только то, что мы измеряем, а не его пол, происхождение, родной язык или что-то ещё.
Где работают психометрики и занимаются ли они заданиями для ЕГЭ
— Где обычно работают психометрики? Востребованы ли они в образовании? Расскажите на примере выпускников магистерской программы ВШЭ.
— Многие работают исследователями в коммерции — это UX и продуктовые исследования, аналитика данных, оценивание в HR, EdTech. Ежегодно кто-то из выпускников продолжает академическую карьеру, поступая в аспирантуру.
В образовании психометрики востребованы, но не везде это осознанная и актуальная потребность. У психометриков — это не только российская история — не очень хорошо с умением доказывать, зачем они нужны. Обычно они приходят и говорят: «Сейчас мы найдём плохие задания в ваших тестах». А кому надо, чтобы ему говорили: «У вас плохие задания»? Поэтому некоторые психометрики уходят в продуктовые исследования. Там способность правильно собирать, анализировать и доказательно интерпретировать данные очень востребована.
— А в ФИПИ, где разрабатывают ЕГЭ, работают психометрики?
— Нужно сказать, что главные специалисты в психометрике в России стояли за созданием ЕГЭ. Другое дело, что с тех пор ЕГЭ сильно изменился.
Сейчас в ФИПИ есть хорошие специалисты, которые работают над ЕГЭ. Но я лично знаю только единицы таких, а масштабы ЕГЭ таковы, что психометрики просто физически не способны их покрыть. Самые сильные специалисты, которых я знаю, далеки от государственных измерений в образовании. И это создаёт опасную ситуацию с ЕГЭ.
А по сути, кроме ЕГЭ, в России нет других тестов — нет мониторинговых исследований с хорошей психометрикой, с контролем образовательного прогресса, с формирующей обратной связью.
— А какие недостатки психометрики видят в современном ЕГЭ?
— Хороший современный тест должен надёжно измерять способность у максимального числа респондентов. А каких респондентов больше всего? Средних, это закон нормального распределения. Раньше за надёжную оценку нижней и средней части распределения отвечала часть «А» с выбором варианта ответа. Когда её убрали из ЕГЭ под эгидой «борьбы с угадайкой», получился тест для оценки более сильных учеников. Ученики из нижней половины распределения теперь оценены ненадёжно.
— Но разве плохо бороться с «угадайкой»?
— Основной аргумент за такие задания — то, что они справедливы. Если человек угадал, то он всё равно сам добился этого. Пусть кто-то угадал ответ на два-три вопроса, дайте ему эти два-три первичных балла. В общей популяции таких «гадателей» будет мало. А если нужно глобально снизить вклад угадывания, лучше добавлять больше вариантов ответа.
Но ЕГЭ пошёл по пути экспертной оценки. А эксперт — всегда дополнительный фактор, отрицательно влияющий на справедливость оценивания. Если работа ученика попадёт к двум строгим экспертам, то он получит заниженный балл. Попадёт к двум снисходительным — балл будет завышен. Это лотерея, и, в отличие от «угадайки», она никак от ученика не зависит.
В мире создатели тестов идут по пути снижения экспертной вовлечённости, чтобы защитить справедливость и чтобы от самого респондента в тестировании зависело как можно больше.
— Кроме «угадайки», тесты часто ругают потому, что из-за них учеников натаскивают на конкретные типы заданий. Так ли это и в чём же польза тестов?
— У тестов, у того же ЕГЭ, есть одно большое неоспоримое достоинство: они хотя бы измеримы. Да, педагогика — это и наука, и искусство, как сказал Ушинский. Но образование сегодня — вдобавок ко всему индустрия. А в индустрии важны измеримые количественные характеристики и масштабируемость. Поэтому в плане качества образования ЕГЭ, скорее, достоинство, чем недостаток. Но, конечно, его нужно улучшать.
Натаскивание на тесты — отчасти правда. Любой тест измеряет, помимо того, на что он направлен, и навык решения тестов в целом. Например, респонденты могут быть лучше или хуже знакомы с типичными формулировками вопросов. И это одна из серьёзных проблем тестирования.
Но психометрики над этой проблемой работают. Создаются разные способы уменьшить в результатах тестов вес этого навыка. То, что детей учат не предмету, а сдаче тестов, — проблема не самих тестов. И если ученик действительно готовился решать тесты — это не повод оставлять его без оценки. Он долго и усердно работал и тренировался и заслужил свой высокий балл!