(Не)значимость статистической значимости

Когда речь заходит о статистике, большинство людей знает, что результаты опросов и исследований не вполне точны. Мы выбираем испытуемых наугад и надеемся, что они представляют собой население в целом. То есть существует «предел погрешности».

Как эту погрешность определить? Вот, например, так: в тесте на общую эрудицию я попросил в одном из заданий назвать нынешнего спикера палаты представителей. Джона Бейнера – правильный в те годы ответ – выбрали 70,6 % испытуемых. На самом же деле нашей задачей было установить, какой процент от всего населения США ответил бы правильно. Наверняка мы этого не знаем, потому что я опросил не каждого жителя страны, а только 445 выбранных наугад людей, участвовавших в сетевом панельном исследовании. Статистика говорит о том, что если в выбранной наугад группе 445 человек, то предел погрешности для 70,6 % равен ± 4,2 %. Следовательно, в масштабах всей страны эта величина, вероятно, оказывается в промежутке 66,4–74,8 %.

Нас также интересуют корреляционные связи – область более зыбкая. Как я уже упоминал, чем лучше испытуемый справлялся с тестом, тем больше, как правило, был у него доход. Это открытие потенциально интересно, но опять же насколько можно быть уверенным, что оно отражает состояние всего населения?

Допустим, я опросил 10 случайных добровольцев, один из которых оказался миллиардером, и притом весьма любознательным. Одно только это укажет на предполагаемую связь между широтой кругозора и уровнем дохода, однако на деле это статистический «шум», который не стоит учитывать.

По этому поводу специалисты по статистике беспокоятся, и довольно сильно. Свои сомнения они выражают через оценку значения p. Говоря простым языком, p-значение – это вероятность того, что получен совершенно случайный результат, а выводы исследования ошибочны. Поскольку нам нужны результаты, соответствующие действительности, а не ошибочные, чем меньше p-значение, тем лучше.

Условно p-значение, не превышающее 0,05 (что соответствует 5 %, или одному из двадцати), считается «статистически значимым». Другими словами, исследователи хотят быть уверенными хотя бы на 95 %, что результат получен не по ошибке. Конечно, вся эта «статистическая значимость» свидетельствует лишь о том, что вероятность, с которой вывод подкрепляется данными, достаточно высокая. Чего-то таинственного в этом 5 %-м пороге нет, да и залогом истинности он быть не может. Тем не менее этот порог важен для публикации в академических журналах. Поскольку существует принцип «публикуйся или умри», скептики утверждают, что достижение порогового p-значения 0,05 похоже на выкидывание игральной кости с 20 гранями: повторяйте эксперимент достаточно долго, и непременно появится что-нибудь, что можно опубликовать. (Подобные действия считаются подтасовкой p-значения.) Журналисты и интервьюеры широко, хотя и не повсеместно, пользуются 0,05 p-значением, когда пишут о результатах проведенного исследования.

Вернемся к тесту на общую эрудицию. P-значение для связи между количеством правильных ответов и размером семейного дохода оказалось равным <0,001. Это означает, что вероятность ошибочного результата составила менее одного шанса из тысячи. Как вам теперь известно, низкое p-значение само по себе не доказывает истинность результатов. Но если вышло <0,001, то, по крайней мере, можно сказать, что лучшего p-значения нельзя и желать. (И на этом в рассуждениях на тему p-значений я ставлю точку. Скажу лишь тем, кому может быть интересно, что p-значения для многих исследований, упомянутых в этой книге, приводятся в приложении. Все корреляции, о которых пойдет речь, будут существенными, а у большинства пороговое значение гораздо ниже 0,05.)

Пришло время поговорить о еще одном важном правиле статистики: корреляция не доказывает причинно-следственную связь.

В качестве наглядного подтверждения я с удовольствием вспоминаю веб-сайт Spurious Correlations[126] о ложных корреляциях, где приводится впечатляющая и совершенно бессодержательная статистика. С 1999 по 2009 г., к примеру, прослеживается корреляционная связь между числом людей, утонувших в бассейне, и количеством фильмов с Николасом Кейджем. Существует корреляция за тот же период между возрастом победительниц конкурса «Мисс Америка» и числом смертей из-за обваривания кипятком и других ожогов.

Корреляция между возрастом победительниц «Мисс Америка» и числом смертей из-за обваривания кипятком и других ожогов

В наш перенасыщенный данными век отыскать бессмысленные совпадения вроде этих довольно просто.

Некоторые из них успешно проходят тест на статистическую значимость. Всякий, кто станет искать корреляции достаточно долго и упорно, обязательно их найдет.

Вот почему разумно сосредоточиться на корреляциях, которые не лишены смысла. Существует очевидный фактор, объясняющий связь между знанием фактов и уровнем дохода: образование.

Если человек знает много фактов, он наверняка больше времени посвятил учебе. Кто хорошо образован, тот зарабатывает лучше. Помимо прочего, это подходящий девиз для рекламы подготовительных курсов и студенческого кредита. Дипломы Лиги плюща, Стэнфорда или Массачусетского технологического института приносят неплохие дивиденды (как было многократно засвидетельствовано)[127]. Для многих престижных профессий степени бакалавра искусств, магистра делового администрирования, доктора философии или медицины – эквивалент профсоюзного билета.

В связи с этим возникает вопрос: считать ли знание фактов исключительно надежным предвестником размера доходов или только индикатором уровня образования, полученного в учебных заведениях (то есть считать ли знание фактов «суррогатом» образования)?

Специалистам по статистике часто хочется определить влияние не одного, а сразу нескольких факторов, ответственных за определенный результат. Один из наиболее часто используемых методов – линейные регрессии. За мудреным названием стоит простая идея. Допустим, вам кажется, что между количеством пончиков, которые съедает человек, и его весом существует взаимосвязь. Можно ли по съедаемым пончикам предсказать вес едока? Один из способов это выяснить – собрать личные данные о весе и недельном пончиковом рационе. Затем возьмите лист миллиметровой бумаги и для каждого едока – персонального набора данных – отметьте точку (получится точечная диаграмма). Положение точек указывает на число съедаемых пончиков (по оси x) и вес соответствующего едока (по оси y).

Если корреляция имеется – люди, которые съедают много пончиков, весят больше, – то на диаграмме появится облако точек, устремленное вверх от нижнего левого угла к верхнему правому. Эта линия и называется линейной регрессией. С ее помощью можно строить прогнозы. Понадобилось узнать, сколько будет весить человек, съедающий в месяц 14 пончиков? От отметки 14 на «пончиковой» оси проведите вертикальную линию вплоть до ее пересечения с диагональю предполагаемой зависимости. Прямая, проведенная из этой точки по горизонтали, упрется в отметку на «весовой» оси. Так вы узнаете вероятный вес едока.

По сути, именно так и работают программы статистической обработки данных при создании линейных регрессий. И хотя машина, строя точечную диаграмму, на миллиметровке линий не чертит – для этого у нее есть четкий набор математических команд, – программы действуют по тому принципу, который я только что описал.

Гораздо интереснее учитывать не один, а несколько факторов, влияющих на результат. Предсказать вес едока можно точнее, приняв во внимание его пол – ведь мужчина обычно тяжелее женщины. Для этого нужно построить диаграмму рассеяния в трех плоскостях, что на бумаге сделать непросто. А вот для статистических программ это нетрудно.

Главным методом обработки большого массива данных служат так называемые множественные регрессии. Потребитель x пола, купивший y и имеющий почтовый индекс z, склонен покупать a, выбирать b и голосовать за c. По такой модели можно, например, оценить значимость каждого конкретного фактора при составлении прогноза. Когда факторов много, некоторые зачастую оказываются лишними. Если в модели есть почтовый индекс, то нет необходимости указывать населенный пункт (почтовый индекс содержит информацию о штате и указывает на место жительства более точно). Программа это принимает в расчет.

Надбавка за знания: у тех, кто выполнил тест на общую эрудицию без ошибок, доход оказался в два с лишним раза больше

Почему почтовый индекс сообщает больше информации, чем указание на населенный пункт, мы понимаем. Однако перекрывание одного фактора другим обычно не так просто увидеть и не так легко объяснить. Множество разнообразных факторов иногда говорит об одном и том же, но при этом каждый будет, возможно, нести какую-то уникальную информацию. В этом случае модель строит прогноз благодаря учету множества факторов.

Поскольку связь между годами, проведенными в стенах учебных заведений, и размером дохода считается общепризнанной и – как нам кажется – в полной мере понятной, целесообразно включать ее в любую модель, прогнозирующую уровень дохода. Что я и сделал применительно к модели, построенной по результатам моего теста из 10 вопросов на общую эрудицию. Результаты теста остались релевантными – статистически значимыми для прогнозирования дохода – даже после того, как я включил в модель фактор уровня образования[128]. Это значит, что знание фактов не является просто суррогатом уровня образования.

Возраст – другой релевантный фактор. Люди среднего возраста, как правило, зарабатывают больше, чем люди помоложе, – также у них за плечами больше лет, в течение которых они знакомились с фактами. Здесь легко можно усмотреть зависимость дохода от знаний; на самом же деле может оказаться, что доход больше у тех, кто выше поднялся по служебной лестнице.

В итоге при построении регрессии я учел факторы возраста, образования, а также результаты теста. Знание по-прежнему оказалось весьма существенным индикатором дохода[129]. Даже при тождестве возрастных и образовательных показателей больше зарабатывают те, у кого кругозор шире.

Разница в доходах тех, кто знает больше, и тех, кто знает меньше, оказывается впечатляющей. Для наглядности рассмотрим гипотетический случай, в котором за образец возьмем 35-летнего человека, проучившегося четыре года в колледже. Статистическая модель позволяет предположить, что, если этот человек не может ответить ни на один вопрос из теста на общую эрудицию, его семейный доход в среднем составляет 40360 долларов в год. Другой человек того же возраста и уровня образования, ответивший верно на все 10 вопросов, имеет годовой доход в 94959 долларов. А ведь это больше почти на 55 тысяч, или, если хотите, в 2,35 раза.

Необходимо объяснить, что нулевого результата на самом деле ни у кого не было – вопросы я подобрал довольно простые – и лишь несколько испытуемых набрали 100 %. Но среди этой группы не оказалось тех, кому ровно 35 или кто учился в колледже ровно четыре года. Программа статистической обработки данных учитывает каждую единицу набора данных и рассчитывает зависимость дохода от этих трех факторов. Благодаря этому она может дать прогноз – графически отображенный в виде прямой линии – наиболее вероятного уровня доходов с учетом любого количества заданных факторов.

В таком случае получается, что уровни дохода сильно отличаются из-за разницы в знаниях, но никак не в образовании или возрасте. Это различие в доходах заслуживает внимания еще и потому, что речь о доходе семейном, а человек, отвечающий на вопросы теста, не обязательно является главным кормильцем в семье. Такое соображение должно было бы ослабить зависимость дохода от знаний, однако связь эта все-таки значимая и хорошо просматривается.