Чарльз Уилан, американский экономист и автор книги «Голая статистика», делится мысленными экспериментами и объясняет, в какие ловушки попадают люди, работая с ненадежными данными.

«Данные для статистики — примерно то же самое, что для выдающегося куортербека мощная линия блокирующих игроков. Сами по себе они не представляют особого интереса для зрителей, но без них выдающийся куортербек не сможет проявить свои способности», – именно с такой установки Чарльз Уилан начинает рассуждать о данных. Проблема заключается в том, что собирать надежные данные не так легко, как кажется на первый взгляд.

Даже самый тщательный анализ будет бесполезным, если за основу взять сомнительные данные. И здесь Уилан, выступающий за качество, предлагает вспомнить выражение: «Мусор на входе – мусор на выходе» (берешь неверные входные данные – и получаешь неправильный результат).

Есть разные типы ошибок в работе с данными, которые подтверждают истинность этого выражения. В своей книге «Голая статистика» автор описывает пять таких ошибок.

1. Систематическая ошибка выбора

Реклама
bbi summit

Иллюстрируя эту ошибку, Чарльз Уилан приводит интересный случай. По слухам, известный кинокритик Паулина Кейл, работающая в The New Yorker, после того как Ричард Никсон победил на президентских выборах, усомнилась в его честной победе. По ее мнению, Никсон не мог победить, потому что в ее окружении нет ни одного человека, который бы за него проголосовал.

С помощью этого примера Чарльз Уилан пытается показать, как ничтожная выборка, включающая приятелей некоего человека, может создать ложное представление о гораздо большем числе людей – в данном случае обо всех избирателях США.

Чтобы избежать этой ошибки, нужно обращать внимание на то, как сформирована выборка для получения результата. «Если каждому члену генеральной совокупности не предоставлены равные шансы на включение в выборку, у нас наверняка возникнут проблемы с результатами, полученными на ее основе», – предупреждает автор.

Обстоятельства, в результате которых возникает систематическая ошибка выбора, могут быть разными. Проводите опрос в аэропорту? Он будет искажен тем фактом, что самолетами предпочитают летать в основном более состоятельные люди, и этот факт нужно учитывать. Опрашиваете 100 человек в общественном месте и просите их заполнить анкету? Будьте готовы к тому, то те 60, которые согласятся это сделать, будут существенно отличаться от остальных 40, которые откажутся участвовать в опросе.

Когда люди сами напрашиваются в подопытную группу, это может привести к систематической ошибке самоотбора.

2. Систематическая ошибка публикации

О позитивных результатах медицинские журналы, СМИ и блогеры сообщают охотнее, уверяет Чарльз Уилан. Негативные результаты не производят особого впечатления и не привлекают повышенное внимание.

Автор предлагает рассмотреть два случая. В первом вы проводите научное повторное исследование и приходите к результату, что увлечение видеоиграми не препятствует развитию рака толстой кишки. При этом ваша репрезентативная выборка включает 100 000 человек, исследование проводится на протяжении 20 лет. Выясняется, что среди фанатов видеоигр и тех, кто ими не интересуется, заболеваемость раком толстой кишки находится примерно на одном уровне. Такой вывод вряд ли заинтересует хоть один медицинский журнал, считает Уилан. Хотя бы потому, что сам факт того, что некий фактор не препятствует заболеванию раком, не представляет научной ценности.

Во втором случае ваш приятель тоже проводит повторное исследование и приходит к выводу, что среди тех, кто много играет в видеоигры, заболевание раком толстой кишки встречается реже. И к такому результату (будьте уверены!) все проявят повышенный интерес. И первыми будут разработчики компьютерных игр, которые возьмут результаты исследования на вооружение для запуска эффектной рекламной кампании.

Чарльз Уилан предупреждает, что в одном из 100 аналогичных исследований наверняка обнаружатся нелепые результаты. И проблема заключается в том, что результаты 99 работ, которые не выявят эту нелепую связь, останутся неизвестными. И только единственное исследование, которое «отличится», попадет на страницы журналов и распространится в интернете.

«Источником данной систематической ошибки является не исследование как таковое, а сомнительная информация, которая фактически становится достоянием широкого круга читателей», – делает вывод автор в своей книге «Голая статистика».

3. Систематическая ошибка памяти

Чтобы избежать этой ошибки, ученые предпочитают проводить повторные исследования, благодаря чему данные собираются на протяжении всего времени проведения исследования.

Почему нельзя рассчитывать на память? Потому что память, по мнению автора, оказывается «систематически хрупкой», когда человек объясняет какой-либо особенно хороший или плохой результат в настоящем. «Человеку свойственно воспринимать настоящее как логическое следствие прошедших событий», он интуитивно пытается находить причинно-следственные связи.

Так, например, исследование, проведенное в 1993 году ученым из Гарвардского университета, продемонстрировало, как заболевание раком влияет на память женщины о ее питании в прежние годы. В процессе исследования были опрошены две группы женщин – страдающие раком груди и здоровые. И тех и других попросили заполнить анкету об особенностях их питания в молодости. Женщины, страдающие раком груди, вспомнили, что употребляли много жиров, в то время как здоровые женщины не отметили каких-либо существенных отклонений в своем рационе.

Систематическая ошибка памяти в этом случае заключалась в том, что больные женщины искали в своих воспоминаниях причину заболевания и затем внедряли ее в память.

4. Систематическая ошибка доживаемости до определенного возраста

Такая ошибка возникает, когда какие-то из наблюдений выпадают из выборки и тем самым меняют состав оставшихся наблюдений, влияя в итоге на результаты всего анализа. Элементарный пример: если в одном помещении соберутся люди разного роста, а затем из него выйдут те, что пониже, то средний рост оставшихся увеличится, хотя каждый из них в отдельности выше не стал.

Помните об этой ошибке, когда кто-то хвастается своими достижениями в работе. Чарльз Уилан показывает, как это обычно происходит, на примере директора школы, который сообщает об улучшении экзаменационных результатов определенной группы учащихся на протяжении четырех лет. Каждый год, по словам директора, группа становится более успешной, без каких-либо манипуляций данными. Казалось бы, при таких показателях директор достоин награды и похвалы. Но можно запросить у него дополнительные данные, чтобы убедиться в адекватности результатов. И эти данные наверняка раскроют иную картину происходящего.

Может оказаться, что учебный процесс у директора организован настолько плохо, что каждый год половина учащихся бросает учебу. Разумеется, это позитивно сказывается на общих результатах экзаменов, хотя оценки каждого отдельно взятого ученика не становятся лучше. «Если сделать вполне разумное допущение, что школу бросят самые нерадивые ученики (которые получали на экзаменах самые низкие оценки), то средний результат сдачи экзаменов оставшимися учащимися будет неуклонно повышаться по мере увеличения числа учеников, бросающих учебу», – объясняет феномен «успеха» Чарльз Уилан.

5. Систематическая ошибка здорового человека

Суть этой ошибки в работе с данными эксперт иллюстрирует еще одной выдуманной историей. Представьте, что Министерство здравоохранения продвигает теорию, согласно которой детей следует укладывать в постель в лиловых пижамах, так как это положительно влияет на их умственное развитие. Повторное исследование, проведенное спустя 20 лет, действительно это подтверждает. Оказывается, что 98% студентов Гарвардского университета в детстве спали в лиловых пижамах.

Имеют ли значение в этом случае лиловые пижамы? Чарльз Уилан считает, что нет. При этом он предлагает обратить внимание на родителей, которые заставляют своих детей спать в таких пижамах. Люди, старательно выполняющие рекомендации, которые кажутся им чрезвычайно полезными (принимают лекарства, прописанные врачом, соблюдают диеты), принципиально отличаются от тех, кто к таким советам не прислушивается.

И этот эффект, по мнению Уилана, способен обесценить любое исследование, претендующее на то, чтобы определить реальную пользу действий, якобы положительно влияющих на здоровье человека. Допустим, мы намерены сравнить влияние двух диет – с капустой и без нее. «Но если подопытная и контрольная группы сформированы случайным образом, мы сравниваем две диеты, которых придерживаются две разные категории людей, – объясняет Чарльз Уилан. – У нас есть подопытная группа, и она отличается от контрольной группы в двух аспектах, а не в одном».

Автор книги «Голая статистика», подробно описывая возможные ошибки, показывает, как от качества и надежности данных зависят результаты исследований. «Если статистика напоминает работу следователя, то данные являются аналогом вещественных улик», – предупреждает он.

Об авторе

Чарльз Уилан – американский экономист, профессор, преподаватель экономики и политики в Чикагском университете и Дартмутском колледже. Автор книг «Голая экономика», «Голые деньги» и «Голая статистика». Бестселлер «Голая экономика» переведен на 13 языков, попал в список 100 лучших бизнес-книг всех времен и народов по версии 800-CEO-READ. Уилан писал для изданий The Economist, Chicago Tribune, The New York Times и Wall Street Journal.

Хотите получать новости?

Подписывайтесь на нашу рассылку