ОЦЕНКА ВЕЛИЧИНЫ (СТЕПЕНИ) РАЗЛИЧИЙ РАСПРЕДЕЛЕНИЙ D(x,)
Используем понятие степени или величины различий распределений D (xf), понимая под этим долю наблюдений, которая отличает опыт от контроля. Будем ее называть расхождением распределений.
Рассмотрим, как влияет численность наблюдений на характер вывода и достоверность различий на примере бинарных признаков. При сравнении двух выборок численностью по 4 наблюдения вывод о повышении величины параметра достоверен по ТКФ только в том случае, если в опыте повышение в сравнении с каким-то уровнем хи наблюдалось во всех 4 случаях, а в контроле — ни в одном. Иначе говоря, частота повышений величины исследуемого параметра для достоверного вывода о ее повышении должна составлять в опыте 100%, а в контроле — 0 (табл. 9.1). При увеличении численности выборок разница в частоте наблюдаемого эффекта в опыте и в контроле, достаточная для достоверного вывода о различиях между опытом и контролем, стремительно убывает (см. табл. 9.1).
Знание не только достоверности, но и величины различий распределений важно во многих медико-биологических исследованиях для обоснования выводов. Действительно, удовлетворит ли исследователя лечебный комплекс, который в среднем достоверно уменьшит длительность лечения, но этот эффект проявится у 55% больных, а у остальных 45 % его не будет? Еще менее пригоден подход, основанный на оценке достоверности различий, в диагностических исследованиях. Ясно, что симптом Хф который при состоянии Ах встречается в 55%, а при состоянии А2 — в 45% случаев, даже если эти различия достоверны, позволит при его использовании для диагностики давать правильный ответ «Состояние Ах» лишь в 55%. Именно величина (степень), а не достоверность различий распределений может служить критерием диагностической информативности одномерных признаков. Все это более или менее ясно для бинарных признаков, рассмотренных в табл. 9.1. Другие случаи рассмотрены ниже.
Таблица 9.1
Зависимость от объема выборки степени различий альтернативных распределений при одинаковой значимости этих различий (р = 0,05)
| Объем каждой из двух выборок | Процент наблюдений с регистрируемым эффектом в опыте и контроле, при котором р = 0,05 | Объем каждой из двух выборок | Процент наблюдений с регистрируемым эффектом в опыте и контроле, при котором р = 0,05 | ||||
| Опыт | Контроль | Разность | Опыт | Контроль | Разность | ||
| 1 | 2 | 3 | 4 U 1 | 2 | 3 | 4 | |
| 4 | 100 | 0 | 100 | 1000 | 52,5 | 48 | 4,5* |
| 10 | 80 | 20 | 60 | 10000 | 51 | 49,5 | 1,5* |
| 20 | 65 | 35 | 30 | 100000 | 50,5 | 50 | 0,5* |
| 100 | 54 | 45 | 9 | ||||
* Расчет произведен по методу (хи) в зоне прироста
где 5 — номера диапазонов зоны прироста, в которых D (хи) положительны (на рис. 9.2 они обозначены точками).
Тот же результат, что и при использовании формулы (9.2), мы получим, если ВЫЧИСЛИМ полусумму абсолютных значений (модулей) всех Dfoj) во всех диапазонах:
Здесь и далее, когда речь идет о распределении или о частоте или вероятности признака х* при состоянии А1 (или Аг\ применяется сокращенная формулировка «распределение Аі» (или А2) либо «частота или вероятность наблюдения А{» (или А2).
Рис. 9.2. Простейшая оценка одностороннего расхождения распределений по их площади. Случайные флюктуации полностью учитываются.
а — 100% > D(Xi) > 0; б — Л(х,) = 0; в — D(x4) = 100%; d — граница между укрупненными диапазонами; jc/(1) — первый укрупненный диапазон, в котором преобладает частота наблюдений Ах\ х;-(2) —второй укрупненный диапазон, в котором преобладает частота наблюдений А2.
Рис. 9.1. Площадь D(x,) как мера расхождения распределений А у и Л2.
Общая площадь распределений А у и Л2 заштрихована. Необщая площадь распределения А у обозначена точками. Сплошная ломаная линия — накопленные частоты А у, прерывистая ломаная линия — накопленные частоты А2. Стрелками обозначена максимальная разность
накопленных частот, численно равная необщей площади распределения А і-
поскольку расхождения в «зоне прироста» и «зоне убыли» равны, но имеют противоположный знак. При простом суммировании их сумма равна нулю, а при суммировании модулей равна удвоенному £>(х,). Ее половина равна £>(х,).
Соответственно во всех диапазонах может быть вычислена величина, равная модулю полуразности вероятностей состояний А1 и Л2 в каждом диапазоне. Это и есть для каждого диапазона та величина, суммирование которой по
формуле (9.3) дает расхождение распределений для признака в целом. Назовем ее расхождением градации признака d(xu). Она равна:
Она отражает степень расхождения вероятностей состояний А1 и Л2 в данном диапазоне признака xf в пользу того состояния, которое в этом диапазоне преобладает, и равна модулю полуразности этих вероятностей.
Простое суммирование величин сІ(хи) при вычислении D(Xi), как показано в формуле (9.3), удобнее в вычислительном плане, чем суммирование величин Ь(х^) в «зоне прироста» [формула (9.2)]. Численно же формулы (9.2) и (9.3) дают идентичный результат.
Как видно из рис. 9.2, величины D (xis), суммируясь, обусловливают возрастание разности накопленных частот AF (х0). Эта разность увеличивается с каждым диапазоном на величину очередного Z)(x/S), достигает максимума к концу зоны прироста и начинает убывать в зоне убыли расхождения распределений, где, как следует из формулы (9.1), величина Ь(х^) отрицательна. Максимальная величина разности накопленных частот AF (хи)тах численно, как следует из этого описания (рис. 9.2), равна D(xt):
Еще по теме ОЦЕНКА ВЕЛИЧИНЫ (СТЕПЕНИ) РАЗЛИЧИЙ РАСПРЕДЕЛЕНИЙ D(x,):
- Меры вариации
- 3.2. Анализ связи полиморфизма генов NRAMP1, IL12B, VDR, IL1B, IL1RN с туберкулезом
- Эффективность
- ВЕРОЯТНОСТНЫЕ МОДЕЛИ
- ПОДХОД К КЛИНИЧЕСКИМ РАЗРАБОТКАМ
- ОЦЕНКА ВЕЛИЧИНЫ (СТЕПЕНИ) РАЗЛИЧИЙ РАСПРЕДЕЛЕНИЙ D(x,)
- 9.5. УМЕНЬШЕНИЕ СЛУЧАЙНЫХ ФЛЮКТУАЦИЙ В РАСПРЕДЕЛЕНИЯХ
- 9.7. ЭТАП 11. ПРЕДЛАГАЕМЫЙ РАСЧЕТ ДЛЯ ОЦЕНКИ ВЕЛИЧИНЫ И ЗНАЧИМОСТИ ЛЮБЫХ РАЗЛИЧИЙ С ПОМОЩЬЮ СОЧЕТАНИЯ КРИТЕРИЕВ X И ф
- ПРИЛОЖЕНИЯ
- ОГЛАВЛЕНИЕ
- Анализ ЭЭГ с помощью вейвлет-преобразования Морле