Надежность (достоверность)

Надежность (достоверность)

При оценке тестов их издатели и потребители уделяют пристальное внимание еще одной характеристике. Речь идет о надежности (достоверности), которая определяет, насколько устойчиво тест измеряет то, для чего он предназначен. Другими словами, если тест выполняется один раз, а затем еще раз, будут ли совпадать результаты?

Многие из распространенных тестов достаточно надежны – в противном случае они бы и не завоевали такую популярность. Но здесь речь идет об усредненных показателях. Встречаются люди, результаты которых флуктуируют в умеренных пределах, а есть и такие, у которых разбежки от теста к тесту могут быть значительными. Так, например, с помощью специальных пособий и курсов подготовки многим удается улучшать результаты выполнения таких тестов, как SAT и GRE, или других аналогичных конкурсных тестов.

В связи с доступностью таких книг и курсов, а также с учетом того, что они позволяют в среднем заметно повышать показатели тестирования, возникает вопрос о равноправии. Как быть с теми, кто не знает о существовании таких курсов, кто не может себе их позволить или у кого нет на них времени? Безусловно, издатели тестов будут настаивать, что даваемые книгами и курсами преимущества не так уж велики. В среднем, конечно, нет. Но для отдельных людей они существенны, а что более важно, когда речь идет о миллионах решений, принимаемых в течение года по результатам миллионов тестов, даже очень маленькие различия приведут в среднем к весьма впечатляющим последствиям. Для некоторых соответствующая книга или курсы могут сыграть важную роль, и ввиду неравноправного доступа к ним результаты тестирования для различных людей не могут интерпретироваться единым образом. Поэтому общая надежность тестов призвана нивелировать подобные нежелательные последствия неравноправия.

Издатели также отдают предпочтение таким тестам, в которых отдельные задания конкретного субтеста измеряют примерно одну и ту же характеристику. Они даже приводят статистические данные, демонстрирующие однородность различных элементов субтеста по отношению к измеряемой характеристике. Хотя за такую согласованность результатов приходится расплачиваться. Чем больше элементов теста измеряют одно и то же, тем меньше диапазон проводимых измерений. Другими словами, согласованность достигается за счет широты охвата. Узость используемых тестов, похоже, мало кого волнует; но тесты ведь действительно очень ограничены! Мы имеем надежные хорошие измерения пассивного интеллекта. Но как использовать результаты этих измерений?

Данный текст является ознакомительным фрагментом.