Валидность
Валидность
Первую важную информацию такого рода, которая будет постоянно обсуждаться в данной книге, часто называют «критерием валидности». Вопрос здесь состоит в том, насколько результаты тестирования измеряют то, что они должны измерять в соответствии со своим назначением. Отражают ли они то, что от них действительно ожидают? Например, критерием валидности тестов проверки умственных способностей часто служат оценки, которые ученики получают в школе; а если речь идет о программах профессиональной подготовки, критерием может быть последующая эффективность на рабочих местах.
В так называемых технических руководствах по использованию тестов приводится масса статистических материалов, связанных с критериями валидности тестов. Но здесь, опять-таки, не все так просто. В какой степени нас должны беспокоить оценки в школе? Разве они служат показателем того, что один человек умнее другого? Или должны ли нас волновать показатели стандартизованных тестов достижений? Мой сын начал выпускать свою газету в школе, он постоянно готовит материалы в уже существующую школьную газету, пилотирует самолет, переводит в местной больнице на английский язык жалобы и другие медицинские проблемы испаноязычных пациентов. По-моему, неплохие достижения для семнадцатилетнего парня. Однако ни одно из них не относится к тем критериям, по которым проверяется валидность тестов проверки интеллектуальности. А разве взрослых людей волнуют полученные когда-то оценки? Может быть, кандидатов на ответственные посты в промышленности отбирают на основе этих оценок? Сомневаюсь!
С моей точки зрения, очень печально, что мы относимся к результатам тестирования способностей как к официальным, важным данным, а к внеклассной деятельности детей – как к чему-то второстепенному. И поскольку часто бывает удобно прикрываться количественными результатами, мы предпочитаем просто считать, а не серьезно анализировать такую деятельность. В результате ученик, посещающий три внешкольных клуба, оценивается выше того, кто придумал и организовал один клуб. Наилучшим предсказателем интеллекта успеха в будущем является интеллект успеха в прошлом. И предсказания должны базироваться на успешной деятельности в реальном мире в течение длительного периода времени, а не на успехах в мире тестирования, длительность существования которого составляет всего три часа.
Уже не один год я заявляю: тесты не измеряют то, что действительно важно для подлинного успеха и в учебе, и на работе. В частности, я утверждаю, что на уровне аспирантуры, где готовятся профессионалы, тесты не измеряют навыки и способности, которые важны для получения работы. В конце концов, я решил подтвердить свои слова объективными фактами. Вместе с Венди Вильямсом мы исследовали значимость предсказаний приемного письменного экзамена (GRE). В выборку были включены абитуриенты за двенадцатилетний период (166 студентов), обучавшиеся в рамках нашей программы по психологии для аспирантов. Результаты прогнозов GRE сравнивались с оценками, полученными в первый и второй год аспирантуры, а также, что более важно, с оценкой студентов преподавателями с точки зрения (а) аналитических способностей, (б) творческих способностей, (в) практических способностей, (г) исследовательских способностей, (д) способностей к преподаванию, (е) подготовленных диссертаций. Безусловно, в аспирантуре последний показатель имеет гораздо большее значение, чем полученные оценки.
Ну и какими оказались результаты? Рассматривая совместно мужчин и женщин (последние на равных основаниях участвовали и в тестах, и в самой программе), мы обнаружили, что GRE устойчиво прогнозирует оценки, получаемые в течение первого года программы, но не более. Хотя уровень оправданности предсказаний и здесь был более чем скромен. Для GRE-тестов на вербальное мышление общая корреляция составляла 0,18 (0 – отсутствие корреляции, 1– полная корреляция) – результат на грани статистической значимости. Для аналитических способностей корреляция была равна 0,17 – опять-таки на пределе статистической значимости. Максимальная корреляция, что не удивительно, была получена для теста достижений в психологии – 0,37. Достижения в тесте явились наилучшим предсказанием достижений в программе. Какие-либо другие важные критерии тест не прогнозировал. Он не предсказывал даже оценки на втором году обучения. Стало понятно, почему издатели теста, приводя информацию о валидности теста, уделяли такое внимание оценкам в течение первого года обучения!
Интересные особенности были обнаружены после того, как мы провели классификацию по половому признаку. Один из субтестов – аналитический – с умеренной точностью, но статистически значимо прогнозировал некоторые из наиболее важных критериев, но только для мужчин. Например, для мужчин корреляция показателей аналитического GRE-теста с оценкой преподавателями аналитических способностей аспирантов составляла 0,31. Для женщин эта корреляция была равна всего 0,05. Фактически, для женщин тест вообще не давал статистически значимых предсказаний. Таким образом, комбинация результатов для мужчин и женщин дает обманчивую картину эффективности теста в прогнозировании успеха в аспирантуре. Хотя достижения мужчин и женщин в рамках нашей программы в общем равнозначны, предвестники их успехов существенно различаются. Причины этих расхождений пока неизвестны.
Мы полагаем, что на основании проведенных исследований можно сделать несколько полезных выводов. Во-первых, тесты предсказывают прежде всего оценки, и часто именно оценки оказываются их единственным удачным прогнозом. Нет ничего плохого в предсказании оценок – они также важны, тем более что мы постоянно себя в этом убеждаем, – но жизнь вовсе не сводится к одним только оценкам. Во-вторых, точность прогноза не одинакова для различных групп, о чем нельзя забывать, анализируя результаты тестирования. Женщинам приходится решать ряд проблем, которые неведомы мужчинам. Кроме того, как показывают исследования, женщины часто убеждены, что не способны выполнять определенные задачи, в результате чего они действительно очень слабо справляются с этими задачами. Когда человек настраивается на неудачу, вероятность неудачного исхода заметно возрастает.
Мы не были особо поражены результатами наших исследований GRE-тестирования, равно как не были удивлены и реакцией на них в различных группах, где мы показывали эти результаты. Те, кто с самого начала скептически относился к тестам, кивали головой – дескать, ничего другого мы и не ожидали. Но горячие приверженцы тестирования со скепсисом отнеслись как раз к нашим изысканиям. Они, например, заявили, что для подлинной проверки теста необходима информация о том, насколько преуспели бы в программе те, кто не был принят.
В определенном смысле они правы. Было бы замечательно узнать, как бы пошли дела у тех, кто не был принят. Лично я считаю, что у большинства из них все было бы в порядке. Но проблема в том, что мы не можем провести подобные исследования – именно потому, что такие люди не были допущены к участию в программе, причем чаще всего на основании результатов тестирования. То есть чтобы разубедить скептиков, необходимо провести исследования, которые провести невозможно. Но зато можно сделать что-то довольно близкое к этому. В течение года или нескольких лет мы могли бы принимать всех абитуриентов, независимо от результатов тестирования, и посмотреть, как они проявят себя в различных аспектах программы. В этом случае базовая выборка была бы свободна от того смещения, которое «портит» выборку, сформированную по результатам тестирования. Идеальным с точки зрения эксперимента был бы, безусловно, случайный прием абитуриентов. Но, конечно же, никто не захочет закрывать глаза на результаты тестирования в течение года или двух, а руководство факультета будет против набора аспирантов по случайному принципу. Таким образом, система остается на прежнем месте, а люди – при своих убеждениях, которые, похоже, так никогда и не удастся переломить.
Наши исследования GRE-тестов и другие подобные данные указывают на необходимость получения дополнительной информации о валидности тестов – помимо той, что обычно приводится в технических руководствах. Нужны более универсальные критерии, а также данные о валидности тестов для различных групп людей и различных ситуаций. Часто подразумевается, что, раз тесты работают для одной группы, они будут работать и для других, хотя на практике можно наблюдать обратное.
Более 800 000 книг и аудиокниг! 📚
Получи 2 месяца Литрес Подписки в подарок и наслаждайся неограниченным чтением
ПОЛУЧИТЬ ПОДАРОКДанный текст является ознакомительным фрагментом.
Читайте также
23. Конструктная валидность. Конвергентная и дискриминантная валидности
23. Конструктная валидность. Конвергентная и дискриминантная валидности Конструктная валидность – один из основных типов валидности, отражающий степень репрезентации исследуемого психологического конструкта в результатах теста. В качестве конструкта могут выступать
24. Факторная валидность
24. Факторная валидность Факторная валидность. Прямое отношение к характеристике конструктной валидности имеет факторный анализ, позволяющий строго статистически проанализировать структуру связей показателей исследуемого теста с другими известными и латентными
26. Критериальная валидность
26. Критериальная валидность Критериальная валидность – комплекс характеристик, включающий текущую и прогностическую валидности методики и отражающий соответствие диагноза и прогноза определенному кругу критериев измеряемого явления. В качестве критерия
29. Прогностическая валидность
29. Прогностическая валидность Прогностическая валидность – информация о том, с какой степенью точности и обоснованности методика (тест) позволяет судить о диагностируемом психологическом качестве спустя определенное время после измерения. Прогностическая валидность
30. Содержательная валидность. Этапы валидизации
30. Содержательная валидность. Этапы валидизации Содержательная валидность – один из основных типов валидности методики, характеризующий степень репрезентативности содержания заданий теста измеряемой области психических свойств.Комплекс сведений содержательной
Валидность
Валидность В каждом исследовании есть переменные и отношения между ними. Поэтому, когда мы хотим описать исследование, центральным является конструкт переменных: какого вида различия изучаются и какими способами? Если мы хотим выйти за рамки описания и перейти к оценке
Валидность
Валидность При оценке валидности теста ставится следующий вопрос: измеряет ли тест то, что, как предполагается, он должен измерять? Если это, к примеру, IQ-тест, действительно он измеряет различия в уровне интеллекта или различия показателей испытуемых обусловлены чем-то
Валидность и надежность проверок на полиграфе
Валидность и надежность проверок на полиграфе Ведущими учеными подняты главные вопросы, связанные с валидностью и надежностью проверок на полиграфе. Валидность — научный термин для оценки критериев измерения. Надежность — измерение совпадения результатов, при
Валидность
Валидность Первую важную информацию такого рода, которая будет постоянно обсуждаться в данной книге, часто называют «критерием валидности». Вопрос здесь состоит в том, насколько результаты тестирования измеряют то, что они должны измерять в соответствии со своим