Стоит ли пользоваться готовыми тестами из интернета?
Ответы профессионального психометрика.
Кадр: фильм «Учитель на замену» / Paper Street Films
И методистам, и преподавателям приходится иногда самим делать тесты для проверки знаний по учебной программе. Но мало кто знает, как их делать правильно. Иногда кажется, что гораздо проще взять за основу готовый тест из интернета. Но как понять, стоит ли ему доверять? Мы попросили эксперта рассказать про плохие и хорошие тесты по-простому, «для чайников».
Кто помог нам разобраться
Ирина Брун
Специалист по психометрике, преподаватель магистерской программы «Обучение и оценивание как наука» Института образования Высшей школы экономики, директор R&D-подразделения консалтинговой компании «Форматта».
Чем отличается хороший тест от плохого?
У хорошего теста всегда есть детальное описание того, что, как и для чего измеряется, — паспорт теста или спецификация. Это описание показывает, что именно измеряется. В нём детально описано, что из себя представляет измеряемое свойство, какие у него есть компоненты, как они друг с другом связаны, как проявляются в поведении, какими заданиями измеряются, как начисляются баллы, кто и как проводит тестирования и какие выводы по результатам теста допустимо делать.
Например, чтобы измерить критическое мышление, надо выделить его компоненты — поиск и оценка информации, формирование аргумента. Каждый из этих компонентов измеряется пятью заданиями такого-то формата, с таким‑то начислением баллов и так далее.
Плохой тест — когда вы видите только задания и ничего больше. Если недоступна (или просто отсутствует) информация о том, что измеряется, как интерпретировать результаты и в каких ситуациях тест можно использовать, доверять ему не стоит.
Существуют ли правила «для чайников», как составить хороший тест?
На самом деле таких правил очень много. Например, в руководстве по разработке тестов 2013 года 23 правила, которым должны следовать только задания с выбором ответа. Для других типов заданий таких правил ещё больше. Но самое главное правило хорошего теста — готовить как можно больше документов в процессе разработки теста, свидетельств и доказательств валидности его результатов.
Как обычно строится процесс разработки теста?
Весь процесс можно разделить на три этапа, и на каждом есть свои правила.
Разработка спецификации. Здесь критически важно разделить то, что мы хотим измерить, на как можно более мелкие кусочки и описать, каким именно заданием (да, нужно написать номер задания!) будет измеряться каждый из этих кусочков.
Составление заданий.
- По возможности лучше избегать в формулировке вопросов отрицаний — иначе человек может ответить неправильно, потому что невнимательно прочитал вопрос, а не потому, что не знает ответ. Например, вариант «В такой-то ситуации вы повернёте направо?» лучше, чем «В такой-то ситуации вы не повернёте направо?».
- Одно задание — одна идея, которую мы хотим проверить. Не стоит объединять две и более идеи в одном задании. Поскольку если человек совершит ошибку в таком задании, будет невозможно установить, чего именно он не знает или какой навык западает.
- Если в тесте есть варианты ответа, надо делать их как можно более похожими, чтобы правильный не выделялся внешне.
Валидизационные исследования призваны доказать, что ваш тест реально измеряет то, что вы заявляете. Они сильно зависят от того, для какой цели делается тест. Но общим правилом хорошего теста здесь будет проведение двух апробаций:
- качественная апробация — интервью, чтобы проверить, как респонденты понимают формулировки заданий;
- количественная — на 30–100 респондентах проверяются статистические показатели функционирования теста: надёжность, трудность и другие.
В каких книгах преподаватели и методисты, которым иногда приходится делать тесты, могут найти базовые рекомендации по «тестостроению»?
Это книги «Теория и практика конструирования педагогических тестов» Марины Челышковой, «Форма тестовых заданий» Вадима Аванесова, «Практическая тестология» Александра Шмелёва. Несмотря на то что часть рекомендаций в них уже потеряла актуальность из-за развития психометрической науки и технологического прогресса, многие базовые рекомендации будут актуальны и сейчас.
Также будет очень полезно скачать и изучить перед разработкой теста Российский стандарт тестирования персонала. Несмотря на то что он был разработан для сферы оценки персонала, принципы разработки тестов и психометрики одинаковы для всех областей: онлайн-образования, психологии, HR.
Если взять готовый тест из интернета, как понять, хороший он или нет?
Простой чек-лист адекватности теста будет выглядеть так:
- Есть ли в открытом доступе паспорт теста или спецификация к нему? Если нет, запросите эту информацию у правообладателя. Если правообладатель говорит, что есть только задания, бегите от этого теста в противоположную сторону и никогда не оглядывайтесь. Такой тест в лучшем случае бесполезен, а в плохом — вреден.
- Инструкции и вопросы должны быть написаны понятно.
- Это свежая, созданная с учётом последних научных данных версия теста. Например, у теста интеллекта Векслера вышла в 2020 году седьмая версия. Русскоязычный тест, который можно найти в открытом доступе, — перевод третьей версии, он уже устарел.
- Для тестов психологических характеристик хороший знак — описание в результатах отличий людей, которые получают разные баллы. То есть не просто сказано, что измеряемая черта выражена сильно или слабо, а описано, как это проявляется в когнитивной, поведенческой, эмоциональной сфере.
- В базовой информации о тесте указано, как проводилась валидизация, то есть доказательство правомерности выводов. Неспециалисты вряд ли разберутся в этом, но если такие данные указаны — уже хорошо.
К сожалению, на русском языке качественных инструментов измерения очень мало. Многие когнитивные или клинические психологи используют абсолютно ненадёжные тесты, разработанные в 1970–1980-х годах. К примерам хороших валидизационных исследований можно отнести работы коллег из Центра психометрики и измерений в образовании Института образования ВШЭ по опросникам социально-эмоциональных навыков: в статьях описаны теоретические рамки, выяснено, из каких шкал состоят опросники, проведён анализ надёжности выводов и так далее.
К чему может привести использование плохого теста?
К неверным управленческим решениям. Возьмём пример с онлайн-курсом. Чтобы улучшить его, нужно понимать, где проблема. Хороший тест покажет, в каких темах студенты чаще всего ошибаются, позволит определить, какая часть курса не сработала, не помогла развить нужные навыки.
А если наши тесты не показывают проблему или показывают её не там, то при переработке курса мы можем оставить самые неудачные лекции и задания на своих местах. В итоге курс вроде бы был обновлён, ресурсы на это потрачены — а качество образовательного продукта не улучшается, люди всё равно бросают обучение или оставляют плохие отзывы.