Множественные сравнения
Статистические выводы исследований имеют ауру особой доказательности, особенно для неспециалистов. Однако, как справедливо замечают скептики, возможна "ложь с помощью статистики", пусть даже неумышленная.
Более того, это возможно даже когдаисследование хорошо спланировано, математические методы корректны, а намерения авторов безупречны.
Статистические выводы могут вводить в заблуждение, так как точность статистических критериев зависит от количества рассматриваемых в работе вопросов и от того, когда эти вопросы поставлены. Если в большом массиве данных проводятся сравнения между многими переменными, то величина р для каждого индивидуального сравнения недооценивает вероятность случайного результата этого сравнения. Как это ни удивительно, но интерпретация величины р для статистического критерия зависит от контекста.
Рассмотрим следующий пример. Допустим, что было выполнено масштабное исследование с большим количеством подгрупп больных и различными исходами. В частности, это может быть клиническое испытание эффективности лечения ишемической болезни сердца, в которое включено несколько разных групп больных (с поражением одной, двух или трех коронарных артерий; с нарушением и без нарушения функции левого желудочка; с нарушениями ритма сердца и без них; с различными сочетаниями этих состояний) и рассматривается несколько исходов (смерть, инфаркт миокарда, стенокардия). Предположим также, что в действительности не существует связи между разными видами лечения и исходами в любой из подгрупп. И наконец, предположим, что эффекты лечения оцениваются раздельно для каждой подгруппы и для каждого исхода. Это процесс, который включает в себя очень много сравнений. Как указывалось ранее в этой главе, при уровне значимости 0,05 одно из 20 таких сравнений по случайным причинам даст статистически значимый результат. В общем случае, если производится 20 сравнений, то в среднем одно покажет статистически значимый результат; если 100 сравнений, то примерно 5 и т.д. Таким образом, при большом числе сравнений некоторые из них просто вследствие случайности превысят уровень статистической значимости различий, даже если на самом деле истинных связей между переменными не существует.
Чем больше проводится сравнений, тем выше вероятность выявления статистически значимых различий.Этот феномен называется проблемой множественных сравнений. Вследствие этой проблемы, доказательность данных клинических исследований зависит от того, планировалось ли до начала исследования проведение этих сравнений.
К сожалению, из публикуемых результатов исследования не всегда можно узнать, сколько в действительности было сделано сравнений. Часто важные находки отбираются из большого числа несущественных. Выборочное принятие решения о том, что важно
и что неважно в отношении большого объема данных, может привести к значительному искажению действительности.
Как учесть статистический эффект множественных сравнений при интерпретации результатов исследования? Хотя с этой целью предлагались методы стандартизации все же лучше всего, понимая проблему, с осторожностью относиться к положительным заключениям исследований с множественными сравнениями. Один специалист по статистике выразил это следующим образом [13]:
"Если Вы анализируете данные достаточно глубоко и делаете это достаточно часто, Вы наверняка найдете что-нибудь необычное. Многие из этих странных находок связаны со случайностью. Я не имею ввиду, что манипуляции с данными - предосудительное занятие, просто находки, которые не были исходно сформулированы в качестве главных задач испытания, следует воспринимать с предельной осторожностью. Когда-нибудь теоретическая статистика научит нас, что делать с подобными результатами. А сейчас, я думаю, самая лучшая позиция - это осторожность, соединенная со стремлением подтвердить или отвергнуть находки в дальнейших исследованиях".
Об оценке достоверности статистически значимых различий в подгруппах сообщалось в главе 7.
Еще по теме Множественные сравнения:
- 16.0. Множественный регрессионный анализ
- Расстройство множественной личности
- 29.Желчный пузырь со множественными перегородками.
- Множественный (или рассеянный) склероз
- Теория множественного интеллекта Гарднера
- Множественные месенджеры
- Распространенность первично множественных злокачественных новообразований на территории Алтайского края
- Заболевания с множественным механизмом передачи
- Примечание: Р - уровень достоверности различий показателей по сравнению со здоровыми мальчиками; Рі - уровень достоверности различий показателей по сравнению с больными II и III группы.
- 11.Понятие о Я-концепции. Единство личности и множественность Я-образов.
- 11.Понятие о Я-концепции. Единство личности и множественность Я-образов.
- Использование в исследованиях множественно изотопно меченных БАВ
- Прогностическое значение определения маркеров сердечной недостаточности BNP и NT-proBNP у пациентов с множественной миеломой
- Качественное сравнение с литературными источниками
- Сравнение рисков
- Сравнение эффективности стимуляции с предыдущими протоколами ЭКО
- Клиническая характеристика больных второй группы сравнения.
- 13 достижение внутренней валидности в экспериментах с межгрупповым сравнением
- 6.1. Эпидемиологическое сравнение
- Лабораторные показатели больных первой группы сравнения.