Надежность

Надежность

Стандартизованный тест должен обладать не только валидностью, но и удовлетворять критерию надежности. Вопрос надежности в его применении к тестам также довольно очевиден: Согласованы ли результаты измерения данным тестом? Предположим, что мы даем одному ребенку IQ -тест несколько раз подряд, а затем сравниваем результаты. Если они близки, тест обладает хорошей надежностью; значительный разброс результатов свидетельствовал бы о недостаточной надежности.

Пример с IQ иллюстрирует одну из основных форм надежности — ретестовую надежность. Существует два способа оценки ретестовой надежности. Один — дать один и тот же тест дважды. Однако понятно, что если тесты одинаковы, ребенок может вспомнить свои ответы, а это приведет к искусственному завышению надежности (это также может привести к занижению надежности, если ребенок воспримет повторное предъявление теста как сигнал к изменению своих ответов). Дабы избежать этой проблемы, ретестовую надежность иногда оценивают с использованием взаимозаменяемых форм теста. Как следует из названия, такой подход требует наличия двух разных, но эквивалентных версий теста, при этом один вариант предъявляется в момент 1, а другой — в момент 2. Вновь высокая согласованность ответов будет свидетельствовать о высокой надежности.

Второй из основных типов надежности называется надежностью внутренней согласованности. Теперь суть состоит в согласованности ответов на разные вопросы одного теста, предъявляемого однократно. Как правило, для этого пользуются процедурой «расщепления» теста на нечетные и четные задания с

последующим сравнением ответов между двумя этими категориями. Вновь о высокой надежности будет говорить высокая согласованность ответов.

Важно отличать надежность от других конструктов, которые также имеют отношение к согласованности независимо от полученных результатов. Предположим, что интервал между первым и вторым выполнением теста интеллекта не один день, а два года. Обнаружив значительное расхождение между этими двумя показателя -ми, должны мы сделать вывод о ненадежности теста или о том, что IQ ребенка действительно изменился за два года? Допустим, мы решили измерять не интеллект, а вес. Если наши измерения показывают, что 9-летний ребенок весит на 15 фунтов больше, чем он весил в 7-летнем возрасте, должны ли мы заключить, что наши весы неисправны? Разумеется, вероятнее всего, что наш ребенок действительно прибавил в весе за прошедшие два года, то есть в период физического развития стабильность веса далека от идеальной. Многие аспекты жизнедеятельности ребенка (включая успешность выполнения IQ -тестов) далеки от идеальной стабильности в период его развития. Поэтому важно понимать разницу между надежностью измерения и стабильностью поведения.

Надежность измерения также важно отличать от типичности поведения. Вопрос типичности — это вопрос согласованности поведения в разных ситуациях. Предположим, нас интересует агрессия у дошкольников. Мы идем в детский сад и регистрируем все наблюдаемые там акты агрессии. На основе полученных данных мы вычисляем индекс агрессии для каждого ребенка. Затем мы отправляемся домой к детям и измеряем агрессию там. Обнаруживается, что наши показатели агрессии в домашних условиях слабо связаны с показателями агрессии в детском саду — иными словами, эти показатели существенно расходятся. Заключим ли мы, что один или оба метода измерения ненадежны? Хотя это вполне возможный вывод, более разумно было бы заключить, что уровень агрессии зависит от обстановки. В этом случае обнаруженный факт связан с типичностью поведения, а не с надежностью измерений.

Вероятно, полезно было бы резюмировать сказанное выше. Надежность — это свойство метода измерения; стабильность и типичность — это свойства поведения. Надежность — это то, что исследователь всегда пытается максимизировать. Стабильность и типичность же — это феномены, которые нужно изучать, а не максимизировать. Наконец, эти феномены можно изучать только по достижении достаточно высокого уровня надежности. Только будучи уверенными в надежности наших методов для определенного времени и ситуации, мы можем попробовать оценить согласованность поведения во времени (вопрос стабильности)*и в разных ситуациях (вопрос типичности).