Разработка учебных тестов: инструкция, как это сделать
Основные правила психометрики, которые помогут составить хороший тест.
Иллюстрация: PH888 / Shutterstock / Annie для Skillbox Media
Кто помог нам разобраться
Ирина Угланова
Научный сотрудник лаборатории измерения новых конструктов и дизайна тестов в Центре психометрики и измерений в образовании Института образования ВШЭ. Руководитель проекта «4К: измерение критического мышления, креативности, коммуникации и кооперации». Преподаёт в Институте образования психометрику и методологию измерений в психологии и образовании.
В этой статье речь пойдёт о разработке образовательных тестов — заданий по проверке предметных знаний и навыков. Но в целом описанные правила универсальны: тесты для оценки психологических качеств или софт-скиллов разрабатываются аналогично.
Вы узнаете:
- можно ли с помощью теста, где учащийся выбирает из вариантов ответов, проверить, как он умеет рассуждать;
- можно ли измерить тестом не просто знание фактов, а понимание учебного материала;
- чем трудные задания отличаются от сложных и почему трудным тест может быть, а вот сложным его лучше не делать;
- с каких заданий лучше начинать — простых или трудных;
- какое количество вариантов ответа оптимально;
- как проверить, работает ли тест.
Что нужно знать перед разработкой теста
Психометрики называют тестом любой инструмент измерения — и ролевую игру, и эссе, и оценку портфолио. Мы подробно разберём инструмент, за которым в русском языке закрепилось слово «тест» в узком значении, — вопросы с выбором ответа из предложенных вариантов.
Когда стоит использовать тесты с выбором ответа
У стандартизированных тестов в образовании не лучшая репутация. Но психометрики по-прежнему отстаивают такой способ измерения: тесты с выбором ответа масштабируемы, справедливы и объективны. Это значит, что по одному и тому же тесту можно проверить сколько угодно учащихся, причём все будут в равных условиях, а на результат не повлияет ничьё постороннее мнение.
Но в то же время любой психометрик скажет вам, что тесты с выбором ответа — не универсальный инструмент. Способ проверки знаний выбирают с учётом того, какой именно конструкт необходимо измерить. Конструктом в психометрике называют свойство психики или способность, которые нельзя наблюдать напрямую, но можно измерить по внешним поведенческим признакам.
Для каких конструктов подходят тесты с выбором ответа? Это практически идеальный инструмент для оценки знания фактов и сугубо технических навыков. Например, для проверки знания о том, как отделить команды друг от друга при программировании на определённом языке.
А вот проверить, как учащийся умеет рассуждать, взаимодействовать с коллегами или находить практическое решение в сложной ситуации, тест с выбором ответов не поможет. Чем сложнее природа конструкта, тем более гибким должен быть инструмент измерения.
Можно ли с помощью теста проверить понимание
Такие тесты способны выявить не любые знания. В любой дисциплине есть простые факты, и по ним легко написать вопросы с несколькими вариантами ответа. Например, спросить, в каком году Колумб открыл Америку.
А есть элементы знания, для которых простого запоминания недостаточно. Например, если мы хотим спросить, какие события и явления стали предпосылками для открытия Америки, вопрос с выбором ответа из нескольких уже не так хорош.
Каждый преподаватель хочет, чтобы студенты не только помнили факты, но и понимали материал. Но, увы, понимание как таковое пока невозможно измерить. Может быть, нейронауки в отдалённом будущем дадут возможность следить за всем, что происходит внутри черепной коробки каждого ученика. Но сейчас психометрика работает с тем, что можно наблюдать, с поведенческими проявлениями. У понимания таких универсальных проявлений нет.
Потому в педагогических измерениях, когда нужно оценить более глубокие, не фактологические знания, измеряют не само по себе понимание, а умение интерпретировать или анализировать. И более практичны, чем тесты с выбором из нескольких вариантов, тут задания с открытым ответом или компьютерные симуляции и игры. В таких инструментах среда тестирования будет более гибкой, чем стандартизированные тесты.
Составляем тест: практические советы
Если ваша задача — проверить усвоение фактологических знаний или отдельных навыков, тест с выбором ответов вполне подойдёт. Чтобы составить и распространить такой тест, не нужны сложные цифровые сервисы. Для базовых задач вполне достаточно форм Google или «Яндекса».
В этом разделе статьи разберёмся с основными вопросами о том, как составить хороший тест. А если нужно узнать по этой теме больше, советую книгу: Haladyna T. M., Rodriguez M. C. Developing and validating test items (Routledge, 2013) — и другие работы её авторов. Правда, на русском языке она, к сожалению, не выходила.
Подгоняйте длину теста под стандартное время занятия
К концу теста любой учащийся устаёт. Поэтому последние задания зачастую уже не дают никакой информации о знаниях тестируемого. Получается, делать тест слишком длинным нельзя.
Но и коротким он быть не может — у небольших тестов ниже надёжность. На какой-то вопрос учащийся даст неверный ответ по невнимательности, а где-то, наоборот, случайно угадает правильный вариант. Если тест будет достаточно объёмным, больше шансов, что такого рода ошибки уравновесят друг друга и итоговый результат будет достоверен.
Так как определить, какой длины должен быть тест? Нужно отталкиваться от времени на решение одного задания. Оно зависит от трудности и может составлять от нескольких десятков секунд до пяти минут. Также стоит учитывать возраст учащихся:
- Детям до подросткового возраста нельзя давать задание дольше, чем на 20 минут, — или нужно предусмотреть возможность перерыва в тесте.
- Для старших подростков и студентов, а также взрослых лучше исходить из продолжительности привычного занятия. Например, для старшеклассника нормально посвятить тесту урок в 45 минут (или два урока с переменой между ними). А для студентов уже можно написать тест и на 80 минут.
- В дополнительном образовании взрослых следует учитывать, что взрослый человек уже не считает себя обязанным участвовать ни в каких тестах. Ему нужна дополнительная мотивация. Например, можно пообещать индивидуальную обратную связь по результатам теста (и потом обязательно её предоставить!).
Ставьте не меньше трёх заданий на одну тему
Золотое правило таково: чем больше часов на тему отведено в курсе, тем больше вопросов в финальном тесте. Потому что изначально, когда курс составлялся, большее число часов было запланировано на более важную тему.
Если темы не слишком дробные, хорошо бы поставить минимум три вопроса на каждую. Опять же, потому, что случайные ошибки уравновесят друг друга. Но обратную связь потом лучше давать не только по каждому отдельному заданию, но и по теме в целом.
Начните с лёгких вопросов
Небольшое отступление: в психометрике задание может быть трудным, но не сложным. Трудность в этой науке понимают так же, как обычно в русском языке. Чтобы справиться с трудным заданием, нужно обладать высоким уровнем знаний по теме. Скорее всего, немногие ученики решат трудное задание.
А сложность — отдельное психометрическое понятие. Оно характеризует, сколько действий и когнитивных операций нужно выполнить в процессе решения. Возьмём математический пример. Задание разделить 0,219 на 0,365 трудное, но не сложное: оно состоит всего из одного действия.
И начинать тест следует с более лёгких заданий, то есть с нетрудных. В начале теста уровень стресса всегда выше, что искажает результаты. Если вопросы в тесте распределены по тематическим блокам, можно в каждом из них располагать задания от лёгких к трудным.
Структурируйте тест
Кстати, вопрос о распределении по тематическим блокам сам по себе непростой. С одной стороны, правильнее, чтобы тестируемый концентрировался в каждый момент теста на одной теме. С другой стороны, иногда важно проверить, может ли он быстро переключаться с одной проблемы на другую.
Как именно поступить, решают в зависимости от дисциплины и задач теста. Но важно ставить всех тестируемых в одинаковые условия, чтобы результаты были сопоставимы.
В целом делить на блоки тест правильно: так тестируемый увидит, что тест не бесконечен. В ситуации компьютерного тестирования, когда нельзя пролистать задания и понять, сколько ещё осталось, это важно. И, конечно, нужно предупредить, если время на ответы ограничено.
Предлагайте три-четыре варианта ответа
Наиболее привычны сегодня тесты как в ЕГЭ — с четырьмя вариантами ответа. Иногда можно услышать, что это связано с объёмом рабочей памяти: якобы четыре варианта появились, потому что именно такое количество элементов средний человек способен одновременно удерживать в уме.
Психологи-когнитивисты такое обоснование считают ненаучным. Скорее всего, к четырём вариантам ответа практики пришли случайно, и ничего биологически или психологически заданного в этой цифре нет. Вариантов может быть и меньше — например, три.
А вот придумать больше неверных ответов обычно затруднительно.
Формулируйте привлекательные неверные варианты
Создание неправильных вариантов ответа — на самом деле сложное психометрическое мастерство. Не зря их называют дистракторами, то есть отвлекающими внимание от верного варианта.
Суть в том, что неправильные ответы должны быть похожи на правильный и привлекательны. Очевидно неправильных ответов нужно избегать, как и ответов из другой области. Например, если в вопросе стоит формулировка «В каком году?», все ответы должны быть датами примерно из одного диапазона.
Но неверные варианты не должны содержать в себе правильный ответ или какую-то его часть — иначе нужно в вопросе объяснить, что тестируемый должен выбрать самый правильный ответ.
Высший пилотаж — неправильные варианты на основе типичных ошибок студентов. Это позволяет давать более глубокую обратную связь: не просто показывать, где учащийся ошибся, а анализировать, почему он выбрал именно такой неправильный вариант.
Убедитесь, что задание измеряет именно то, что вы хотите измерить
Кроме надёжности, у любого теста есть ещё одно важное качество — валидность. По классическому определению, валидность — свойство теста измерять то, на что он направлен. Более современное определение гласит, что результаты валидного теста можно интерпретировать в той логике, в которой он создан.
И иногда на валидность может повлиять просто то, что тестируемый иначе (но не неправильно!) смотрит на ситуацию в задании.
Возьмём пример из теста на критическое мышление, разработанного в ВШЭ. Это тест‑симуляция онлайн-среды, в ней нужно общаться с ботом. Одна из задач — получить недостающую информацию для рецепта торта.
По идее, тестируемый должен задать боту конкретный вопрос, например: «Сколько яиц нужно добавить?» Но человек может начать с приветствия, и не потому, что не понял задание. Сказать «Привет, как дела?» перед тем, как уточнять рецепт, вообще‑то нормально. Но если об этом не подумать при составлении теста, такой ответ будет оцениваться как ошибочный.
Не бойтесь угадывания
Одно из частых опасений по поводу тестов и причин, почему в них предлагают добавлять больше вариантов ответа, — «угадайка». Кажется, что в задании с двумя вариантами ответа вероятность угадать составляет 50%. Но это верно только в случае, когда весь тест состоит из одного вопроса с двумя вариантами ответа.
Если добавить второй вопрос, в котором не будет подсказок к первому и наоборот, вероятности просто перемножатся. И шанс случайно угадать правильные ответы составит уже 25%. В случае с тестом из десяти заданий вероятность ответить на всё правильно случайно пренебрежимо мала.
Но такой расчёт справедлив только для тестов с хорошо написанными неправильными ответами.
Как проверить, работает ли тест
На магистерской программе Института образования психометриков учат проверять работоспособность тестов все два учебных года. Попробуем коротко разобрать, что именно они изучают.
Проверить тест можно качественным или количественным методом. Качественный метод представляет собой интервью. Разработчик теста выдаёт задания представителю целевой группы, наблюдает за ним и расспрашивает. Так можно выяснить, всё ли понятно в заданиях, что именно тестируемый делает для решения, какие вопросы ставят его в тупик, а какие кажутся слишком простыми.
Цель качественной проверки — убедиться, что решение теста задействует именно те когнитивные процессы, которые требовалось вовлечь (скажем, тестируемый действительно решает математическую задачу, а не навскидку выбирает из вариантов наиболее подходящий), что варианты-дистракторы не содержат элементов правильного ответа, что все инструкции к тесту понятны и так далее.
Оценка работоспособности теста количественными методами — как раз психометрика в узком смысле слова. Проводится она через статистический анализ, для которого нужно порядка 100 наблюдений.
Понятно, что для каждого курса такую проверку не проведёшь, обычно достаточно интервью. Но количественная оценка обязательна, если по результатам теста принимается какое-либо решение — о зачислении на курс, о сертификации.
В результате разработчик теста получит все те же данные, что и при качественной оценке. К тому же количественная оценка покажет, какие вопросы и утверждения не измеряют то, что должны, а какие вообще избыточны — тест работает и без них.