Образование
#статьи

С какими этическими проблемами связано измерение интеллекта в образовании

Взгляд экспертов-психометриков.

Иллюстрация: Катя Павловская для Skillbox Media

У тестов для диагностики интеллекта долгая история. По ней можно проследить, как развивались подходы к психодиагностике и психометрике, как менялись представления об этичных и неэтичных измерениях. Об этом на XII ежегодной международной конференции Евразийской ассоциации оценки качества образования (ЕАОКО) рассказали:

  • Екатерина Орёл, заведующая проектно-учебной лабораторией моделирования и оценивания компетенций в высшем образовании и старший научный сотрудник Центра психометрики и измерений в образовании Института образования НИУ ВШЭ;
  • Татьяна Канонир, доцент Департамента образовательных программ и научный сотрудник Центра психометрики и измерений в образовании Института образования НИУ ВШЭ.

Спикеры обозначили роль измерений интеллекта в образовании, назвали основные этические принципы, которые сформулировало профессиональное сообщество, и рассмотрели, какие этические проблемы вызывают тесты интеллекта с момента своего появления в 1905 году.

Запись выступления Екатерины и Татьяны можно посмотреть на YouTube, а в этой статье — пересказ их ключевых тезисов.

Для чего измерения интеллекта используются в образовании

Как рассказала Татьяна Канонир, в образовании тестирование интеллекта используется очень широко. Во-первых, по результатам этого измерения можно понять особенности интеллектуального развития ребёнка. Это важно для того, чтобы спланировать обучение с учётом сложностей, которые ученик может испытывать в образовательном процессе.

Во-вторых, результаты тестов интеллекта применяют при диагностике задержки умственного развития, специфических нарушений в формировании учебных навыков (таких как дислексия), расстройств аутистического спектра. Эти же показатели учитывает психолого-медико-педагогическая комиссия (ПМПК), составляя заключение, нужны ли ребёнку с особенностями развития специальные условия для получения образования. Например, сопровождение тьютора в обычной школе или обучение в коррекционном учебном заведении.

Подобные решения сильно влияют на жизнь ребёнка и его семьи, поэтому, объясняет спикер, крайне важно убедиться в том, что применяемые методы измерения валидны и надёжны. И конечно, нельзя забывать об этичности измерений. Татьяна предложила рассмотреть, как с начала XX века до нашего времени в области диагностики интеллекта соблюдались четыре основных принципа:

  • уважения прав, свобод и достоинства личности;
  • честности;
  • компетентности;
  • ответственности.

Как некорректное использование тестов приводит к дискриминации

Принципы честности и уважения прав личности, по словам спикера, соблюдать несложно только в теории. Достаточно освободиться от предубеждений по отношению к разным группам людей, поставить целью справедливое оценивание и учесть нюансы вроде добровольного участия и информированного согласия.

На практике же, как заметила Татьяна, бывает непросто осознать факт нарушения этих принципов, и история измерений интеллекта это демонстрирует.

Прообраз современных тестов для измерения интеллекта появился в 1905 году. Шкалу умственного развития Бине — Симона разработали французские психологи Альфред Бине и Теодор Симон, и в своей пятой версии (с доработками исследователей из Стэнфордского университета) она используется до сих пор. Учёные создавали этот тест, чтобы выявлять детей с нарушениями развития, которые не могут учиться по общеобразовательной программе.

Как рассказала Татьяна Канонир, уже при разработке самого первого теста Альфред Бине подчёркивал, что использовать его этично только для отбора учеников на специальные программы обучения — и ни в коем случае не стоит применять для того, чтобы вешать на детей ярлыки из-за особенностей развития. Кроме того, психолог хорошо понимал, что его шкала измеряет лишь часть интеллектуальных способностей, и предостерегал коллег от применения теста для оценки интеллекта в целом.

В 1916 году, уже после смерти Бине, тест попал в США, где его адаптировали для американской выборки (с тех пор он известен как тест Стэнфорд — Бине). А в 1917 году группа психологов во главе с президентом Американской психологической ассоциации Робертом Йерксом разработала тесты интеллекта Army Alfa и Army Beta — для массового тестирования новобранцев во время Первой мировой войны. В общей сложности их прошли более миллиона человек, и, по словам Татьяны Канонир, инструменты Йеркса заметно повлияли не только на развитие тестирования, но и на общепринятые представления об интеллекте.

Army Alfa был вербальным тестом, и очень многие новобранцы не могли его пройти просто потому, что не умели читать или были иммигрантами, не владеющими английским языком. Для таких испытуемых разработали невербальную версию теста Army Beta. Сам Йеркс утверждал, что его тесты определяют врождённый уровень интеллекта, а вовсе не уровень образования или приобретённые навыки. Однако, по словам Татьяны, эти тесты были, очевидно, рассчитаны на образованный средний класс.

В те времена были широко популярны идеи евгеники, которые гласили, что уровень интеллектуальных способностей фиксирован и напрямую зависит от наследственности, а значит — от принадлежности к определённому социальному классу, расе и национальности. И результаты тестов Йеркса только подкрепляли антииммигрантские предубеждения и ксенофобию в США — приезжие справляются с заданиями плохо, а значит, их интеллект ниже, чем у местных граждан.

Впоследствии работа психолога (который сам придерживался евгенических взглядов) повлияла на разработку Формулы национального происхождения — серии федеральных законов, жёстко ограничивающих иммиграцию в зависимости от национальности. Они действовали с 1921-го по 1965 год.

По словам спикера, некорректное тестирование подкрепляло дискриминацию в США ещё дольше. Так, в 1971 году в Сан-Франциско началось громкое судебное дело о направлении темнокожих учеников в спецклассы для «умственно отсталых» по результатам IQ-теста. В итоге суд пришёл к выводу, что тест измеряет не интеллект, а знания и навыки, которые афроамериканские дети, не имея доступа к качественному образованию, не могли получить в том же объёме, как их белые сверстники. Поэтому результаты такого тестирования неправомерно использовать для отбора учеников на общеобразовательные или специальные программы обучения.

В 1954 году Верховный суд США признал расовую сегрегацию в школах незаконной. На фото — афроамериканские ученики идут в школу, где учатся преимущественно белые дети, штат Теннесси, 1956 год
Фото: Thomas J. O’Halloran / Library of Congress

Как заметила Татьяна Канонир, в современной психометрике эта проблема отчасти решена. Научное сообщество в целом придерживается позиции, что интеллектуальные способности не только врождённые, и культура с образованием оказывают на них огромное влияние. Учёные больше не исследуют расовые и национальные различия в уровне интеллекта, потому что, судя по всему, проблема в самих измерениях — инструменты, разработанные для одной популяции, не могут корректно оценивать другую популяцию. Но значит ли это, что современная психометрика застрахована от подобных ошибок?

«Кажется, что мы с вами защищены от нарушения принципов уважения и честности. Но на самом деле у нас всех есть какие-то предубеждения. И мы, как те, кто разрабатывает тесты и продвигает их к использованию на практике, должны быть очень внимательны к тому, что мы на самом деле думаем о детях, студентах, взрослых, которых мы оцениваем, к представлениям о конструкте, которые у нас имеются. Неважно — это оценка интеллекта или образовательный результат», — считает Татьяна.

Почему специалистам трудно выбрать качественные тесты

Как рассказала Екатерина Орёл, другие два принципа диагностики интеллекта — компетентности и ответственности — выражаются прежде всего в том, что специалист, проводящий такую диагностику, отвечает за выбор качественного инструментария и его правильное применение.

И здесь, по словам спикера, возникает вопрос, насколько вообще профессионалам доступны хорошие психологические тесты. В России ситуация осложняется тем, что измерения и диагностика в педагогике и психологии были под запретом с 1936 года — после выхода постановления ЦК ВКП(б) «О педологических извращениях в системе наркомпросов». Из-за этого на протяжении десятилетий психодиагностики и психометрики в нашей стране не существовало, и только в 1980-х они начали возрождаться. Тогда, например, появился русский перевод классической работы Анны Анастази «Психологическое тестирование».

Как отметила Екатерина, к тому времени в России не было не только развитой науки об измерениях, но и тестологической культуры. Из-за этого практики применяли заимствованные с Запада инструменты, часто не заботясь об их качестве и экспериментальной проверке в российских условиях. А в 1990-х ситуацию усугубил общесистемный кризис, в том числе кризис финансирования российской науки. Екатерина Орёл привела цитату психолога, специалиста по психодиагностике и психометрике Александра Шмелёва из его статьи «Тест как оружие»:

«Производство отечественных тестов погибло, фактически не поднявшись из младенческой колыбели. Оказалось гораздо выгоднее пользоваться крадеными западными методиками, чем оригинальными отечественными, за которые отечественные специалисты законно хотели получить компенсацию вложенного квалифицированного труда».

С выхода книги «Лучшие психологические тесты» в 1992 году стартовал поток публикаций разнообразных тестовых сборников. По словам спикера, в подобных изданиях, находившихся в широкой продаже, были собраны «непонятно кем и непонятно как составленные» тесты, чаще всего переведённые. Причём в одной книге более-менее профессиональные инструменты для изучения памяти или внимания могли соседствовать с тестами в духе «Станете ли вы миллионером?». И отечественным специалистам приходилось пользоваться тем, что есть, так как на разработку качественных инструментов или серьёзную адаптацию западных тестов у них просто не было ресурсов.

Используя тесты ненадлежащего качества, психолог или психодиагност, по словам спикера, неизбежно совершает ошибки. И в ситуации, когда диагностика влияет на жизненную траекторию респондента, цена такой ошибки может быть очень высокой.

Также, по словам Екатерины, выбор качественных инструментов диагностики затрудняется тем, что далеко не всегда их разработчики уделяют достаточное внимание проблемам стандартизации и апробации. Например, школьные и клинические психологи, в том числе сотрудники психолого-медико-педагогических комиссий, широко применяют текст Векслера, измеряющий уровень интеллектуального развития. Однако в его руководстве, как объясняет докладчик, нет информации о выборке, на которой он был стандартизирован. Более того, там имеется примечание, что никаких стандартизационных исследований на российской выборке для этого теста проведено не было.

Екатерина Орёл предупреждает, что недобросовестные разработчики диагностических инструментов могут указывать целевую аудиторию шире, чем та, на которой они фактически испытывались:

«Например, тест, разработанный каким-нибудь психологическим факультетом, апробируется на наиболее доступной студенческой выборке. При этом в сфере применения указывается и тестирование школьников, и тестирование взрослых людей в целях отбора персонала. Это не единичная история, к сожалению. Специалистам важно понимать, что такого рода расширение аудитории недопустимо».

Екатерина также объяснила, что процесс стандартизации, принципы валидности и надёжности описываются в учебниках для психологов и входят в обязательный курс психодиагностики для психологов-бакалавров. Однако профессиональная траектория у всех разная, и пользователями теста могут быть и люди без высшего психологического образования. По словам спикера, на Западе эту проблему решают тем, что при покупке определённого теста специалист обучается тому, как его применять, и осваивает принципы выбора качественного инструментария. Однако в России эта культура пока не прижилась.

Как добавила Татьяна Канонир, сегодня фактически нет ни одного современного и валидного теста, который позволил бы проводить комплексное измерение интеллекта. Популярные тесты разработаны очень давно, и их материал уже неактуален. Например, и взрослый, и детский варианты теста Векслера используются с 1950-х годов. Представления о структуре интеллекта, то есть о том, какие именно параметры должны измерять эти тесты, с тех пор тоже изменились. Поэтому российские специалисты, по словам Татьяны, остро нуждаются в качественном и актуальном инструментарии.

Больше интересного про образование ― в нашем телеграм-канале. Подписывайтесь!

Проверьте свой английский. Бесплатно ➞
Нескучные задания: small talk, поиск выдуманных слов — и не только. Подробный фидбэк от преподавателя + персональный план по повышению уровня.
Пройти тест
Понравилась статья?
Да

Пользуясь нашим сайтом, вы соглашаетесь с тем, что мы используем cookies 🍪

Ссылка скопирована