Валидность

Валидность

Первую важную информацию такого рода, которая будет постоянно обсуждаться в данной книге, часто называют «критерием валидности». Вопрос здесь состоит в том, насколько результаты тестирования измеряют то, что они должны измерять в соответствии со своим назначением. Отражают ли они то, что от них действительно ожидают? Например, критерием валидности тестов проверки умственных способностей часто служат оценки, которые ученики получают в школе; а если речь идет о программах профессиональной подготовки, критерием может быть последующая эффективность на рабочих местах.

В так называемых технических руководствах по использованию тестов приводится масса статистических материалов, связанных с критериями валидности тестов. Но здесь, опять-таки, не все так просто. В какой степени нас должны беспокоить оценки в школе? Разве они служат показателем того, что один человек умнее другого? Или должны ли нас волновать показатели стандартизованных тестов достижений? Мой сын начал выпускать свою газету в школе, он постоянно готовит материалы в уже существующую школьную газету, пилотирует самолет, переводит в местной больнице на английский язык жалобы и другие медицинские проблемы испаноязычных пациентов. По-моему, неплохие достижения для семнадцатилетнего парня. Однако ни одно из них не относится к тем критериям, по которым проверяется валидность тестов проверки интеллектуальности. А разве взрослых людей волнуют полученные когда-то оценки? Может быть, кандидатов на ответственные посты в промышленности отбирают на основе этих оценок? Сомневаюсь!

С моей точки зрения, очень печально, что мы относимся к результатам тестирования способностей как к официальным, важным данным, а к внеклассной деятельности детей – как к чему-то второстепенному. И поскольку часто бывает удобно прикрываться количественными результатами, мы предпочитаем просто считать, а не серьезно анализировать такую деятельность. В результате ученик, посещающий три внешкольных клуба, оценивается выше того, кто придумал и организовал один клуб. Наилучшим предсказателем интеллекта успеха в будущем является интеллект успеха в прошлом. И предсказания должны базироваться на успешной деятельности в реальном мире в течение длительного периода времени, а не на успехах в мире тестирования, длительность существования которого составляет всего три часа.

Уже не один год я заявляю: тесты не измеряют то, что действительно важно для подлинного успеха и в учебе, и на работе. В частности, я утверждаю, что на уровне аспирантуры, где готовятся профессионалы, тесты не измеряют навыки и способности, которые важны для получения работы. В конце концов, я решил подтвердить свои слова объективными фактами. Вместе с Венди Вильямсом мы исследовали значимость предсказаний приемного письменного экзамена (GRE). В выборку были включены абитуриенты за двенадцатилетний период (166 студентов), обучавшиеся в рамках нашей программы по психологии для аспирантов. Результаты прогнозов GRE сравнивались с оценками, полученными в первый и второй год аспирантуры, а также, что более важно, с оценкой студентов преподавателями с точки зрения (а) аналитических способностей, (б) творческих способностей, (в) практических способностей, (г) исследовательских способностей, (д) способностей к преподаванию, (е) подготовленных диссертаций. Безусловно, в аспирантуре последний показатель имеет гораздо большее значение, чем полученные оценки.

Ну и какими оказались результаты? Рассматривая совместно мужчин и женщин (последние на равных основаниях участвовали и в тестах, и в самой программе), мы обнаружили, что GRE устойчиво прогнозирует оценки, получаемые в течение первого года программы, но не более. Хотя уровень оправданности предсказаний и здесь был более чем скромен. Для GRE-тестов на вербальное мышление общая корреляция составляла 0,18 (0 – отсутствие корреляции, 1– полная корреляция) – результат на грани статистической значимости. Для аналитических способностей корреляция была равна 0,17 – опять-таки на пределе статистической значимости. Максимальная корреляция, что не удивительно, была получена для теста достижений в психологии – 0,37. Достижения в тесте явились наилучшим предсказанием достижений в программе. Какие-либо другие важные критерии тест не прогнозировал. Он не предсказывал даже оценки на втором году обучения. Стало понятно, почему издатели теста, приводя информацию о валидности теста, уделяли такое внимание оценкам в течение первого года обучения!

Интересные особенности были обнаружены после того, как мы провели классификацию по половому признаку. Один из субтестов – аналитический – с умеренной точностью, но статистически значимо прогнозировал некоторые из наиболее важных критериев, но только для мужчин. Например, для мужчин корреляция показателей аналитического GRE-теста с оценкой преподавателями аналитических способностей аспирантов составляла 0,31. Для женщин эта корреляция была равна всего 0,05. Фактически, для женщин тест вообще не давал статистически значимых предсказаний. Таким образом, комбинация результатов для мужчин и женщин дает обманчивую картину эффективности теста в прогнозировании успеха в аспирантуре. Хотя достижения мужчин и женщин в рамках нашей программы в общем равнозначны, предвестники их успехов существенно различаются. Причины этих расхождений пока неизвестны.

Мы полагаем, что на основании проведенных исследований можно сделать несколько полезных выводов. Во-первых, тесты предсказывают прежде всего оценки, и часто именно оценки оказываются их единственным удачным прогнозом. Нет ничего плохого в предсказании оценок – они также важны, тем более что мы постоянно себя в этом убеждаем, – но жизнь вовсе не сводится к одним только оценкам. Во-вторых, точность прогноза не одинакова для различных групп, о чем нельзя забывать, анализируя результаты тестирования. Женщинам приходится решать ряд проблем, которые неведомы мужчинам. Кроме того, как показывают исследования, женщины часто убеждены, что не способны выполнять определенные задачи, в результате чего они действительно очень слабо справляются с этими задачами. Когда человек настраивается на неудачу, вероятность неудачного исхода заметно возрастает.

Мы не были особо поражены результатами наших исследований GRE-тестирования, равно как не были удивлены и реакцией на них в различных группах, где мы показывали эти результаты. Те, кто с самого начала скептически относился к тестам, кивали головой – дескать, ничего другого мы и не ожидали. Но горячие приверженцы тестирования со скепсисом отнеслись как раз к нашим изысканиям. Они, например, заявили, что для подлинной проверки теста необходима информация о том, насколько преуспели бы в программе те, кто не был принят.

В определенном смысле они правы. Было бы замечательно узнать, как бы пошли дела у тех, кто не был принят. Лично я считаю, что у большинства из них все было бы в порядке. Но проблема в том, что мы не можем провести подобные исследования – именно потому, что такие люди не были допущены к участию в программе, причем чаще всего на основании результатов тестирования. То есть чтобы разубедить скептиков, необходимо провести исследования, которые провести невозможно. Но зато можно сделать что-то довольно близкое к этому. В течение года или нескольких лет мы могли бы принимать всех абитуриентов, независимо от результатов тестирования, и посмотреть, как они проявят себя в различных аспектах программы. В этом случае базовая выборка была бы свободна от того смещения, которое «портит» выборку, сформированную по результатам тестирования. Идеальным с точки зрения эксперимента был бы, безусловно, случайный прием абитуриентов. Но, конечно же, никто не захочет закрывать глаза на результаты тестирования в течение года или двух, а руководство факультета будет против набора аспирантов по случайному принципу. Таким образом, система остается на прежнем месте, а люди – при своих убеждениях, которые, похоже, так никогда и не удастся переломить.

Наши исследования GRE-тестов и другие подобные данные указывают на необходимость получения дополнительной информации о валидности тестов – помимо той, что обычно приводится в технических руководствах. Нужны более универсальные критерии, а также данные о валидности тестов для различных групп людей и различных ситуаций. Часто подразумевается, что, раз тесты работают для одной группы, они будут работать и для других, хотя на практике можно наблюдать обратное.

Данный текст является ознакомительным фрагментом.