3.2 Метод оценки уровня информативности разнородных признаков в условиях плохой формализации
При решении задач прогнозирования и классификации в медицине, экологии, психологии, биологии и других смежных областях знаний одной из важных задач является задача оценки и выбора информативных (наиболее существенных) признаков.
В практических приложениях наиболее часто для оценки информативности данных используются различные статистические методы, например, на основе методов классификации, на основе энтропии, на основе непараметрических оценок плотности и др. [1].Одним из ограничений существующих методов оценки информативности признаков является требование репрезентативности обучающих выборок, что на практике не всегда выполняется.
В данной работе рассматривается возможность использования теории измерения латентных переменных и метода группового учета аргументов при решении задач оценки и выбора информативных признаков в условиях недостаточной статистики при плохоформализуемой структуре данных.
Теория измерения латентных переменных разрабатывалась для исследования взаимосвязей переменных имеющих скрытую (латентную) природу по отношению к плохо формализуемым понятиям типа психоэмоциональное напряжение, утомление, функциональное состояние, прогноз появления и развития заболеваний, ранняя стадия заболевания и др.
Рассмотрим, как используя механизмы, реализуемые в теории измерения латентных переменных, решать задачи оценки информативных признаков для плохоформализуемых структур данных. Теория измерения латентных переменных ItemResponseTheory (IRT) является общепризнанной теорией перехода от индикаторных переменных к латентным. Уникальность модели Г. Раша состоит в том, что она задает механизм преобразований формальных наблюдений за исходом событий в объективные измерения на метрической шкале латентных стимулов этих событий [14, 214].
В теории IRT устанавливается связь между двумя множествами значений латентных переменных.
Первое множество - значения латентных переменных, характеризующих уровень качества объектов наблюдения θ, где i- номер объекта и i=1,2, п. Второе множество - значения латентных переменных, определяющих значимость j-го индикатора βj∙ ,j=1,2, ..., т.Для математической модели Г. Раша, связывающего «успех» объекта с уровнем его качества и значимостью индикатора принята логистическая функция, имеющая вид:
где p- вероятность достижения i-м объектом значения латентного переменного θпри значении j-ой индикаторной переменной βj.
Графики данной функции называются характеристическими кривыми индикаторов.
Для исследования роли индикаторных переменных в формировании латентной переменной разработан пакет прикладных программ RUMM 2020 (Rasch Unidimensional Measurement Models) [14, 214]. Используя значения индикаторных переменных переведенных в логиты, пакет RUMM 2020 строит теоретические (характеристические) кривые модели Г.Раша, по которым судят о соответствии индикаторных переменных этой модели и в ходе итерационных процедур формируют пространство информативных признаков.
Относительно теоретической кривой по обучающей выборке формируется три примерно равные группы - с низким, средним и высоким уровнем исследуемых состояний, для которых определяются координаты их средних значений. Считается, что если индикатор (информативный признак) хорошо соответствует общему набору индикаторов, то точки соответствующие "слабым", "средним" и "сильным'' уровням близко располагаются относительно характеристической кривой.
Мера близости координат средних значений к теоретической кривой Г. Раша определяется по критерию Хи -квадрат.
В ходе реализации пакета RUMM 2020 рассчитываются:
- степень соответствия индикаторных переменных модели измерения (латентной переменной «утомление» -
- местоположения индикаторной переменной измеряемой в логитах -
- Location;
- погрешность измерения местоположения индикаторной переменной измеряемой в логитах SE;
- величина, характеризующая суммарное отклонение значений данного индикатора от ожидаемых значений на основе модели - FitResid.
Считается, что индикаторная переменная, для которой ^критич. ro ≥ 0,05 (при доверительной вероятности 0,95) удовлетворяет модели Г. Раша и может быть использована для описания исследуемой переменной.
В работах [14, 66] можно найти подробное описание процедуры
формирования списков индикаторных переменных адекватных модели Г. Раша и пригодных для оценки исследуемой латентной переменной.
Мерой информативности индикаторных переменных xi по
отношению к латентной переменной является переменная Location (f ■).
Основным ограничением использования модели Г. Раша для оценки информативности является наличие обучающего материала достаточного объема, а так же то, что структура исходных данных должна удовлетворять используемой математической модели, в частности логистической модели Г. Раша.
Менее жесткие ограничения к структуре данных предъявляются МГУА [3, 48, 49], однако это метод имеет менее развитый доказательный механизм степени доверия к информативной ценности анализируемых показателей.
С учетом достоинств и недостатков обеих методов предлагается объединить эти два подхода, добавив к ним экспертную составляющую для решения задачи оценки информативных показателей, используемых в медицинских, психологических и экологических приложениях.
МГУА характеризуется использованием моделей структурно параметрической идентификации представленных компонентами
Колмогорова-Габора, который в исследуемых приложениях реализуется моделью вида [3].
где Yke- целевая функция (прогноз, диагноз, состояние окружающей среды и т.д.) по группе признаков определяемых вектором
для класса
вектор признаков с номером j группы k класса ω;
- вектор
настраиваемых параметров.
После синтеза правил (3.18) из всех исходных признаков отбираются те, которые имеют устойчивые связи с У^ .
Эти отобранные признаки предлагается считать информативными по отношению к классу ω. Величины элементов вектора aiопределяют меры информативности признаков xi.В моделях типа (3.18) настраиваемые параметры по отношению к xiмогут включаться как множители и показатели степени, поэтому числовые значения aiнельзя использовать как меру информативности. Задачу определения числовых значений меру информативности miпризнаков xiдля модели (3.18) могут решать эксперты исходя из свойств модели и знаний предметной области.Экспертная оценка информативности ei(важности) признаков определяется по методикам хорошо отработанным в рамках квалиметрии.
Полученные величины информативности целесообразно для каждого из признаков агрегировать в интегральный показатель по формуле:
где yl ,γ2 ,y3 - коэффициенты определяющие вклад каждой из трех
составляющих в интегральную оценку информативности признака xi.
Одним из хорошо зарегистрировавших себя математических аппаратов, обеспечивающих принятие решения в медицине, психологии, биологии, экологии и других смежных областях является теория нечеткой логики принятия решений и, в частности, методы синтеза коллективов гибридных нечетких моделей. Одной из трудно формализуемых задач при синтезе этих моделей является выбор формы и параметров функций принадлежности к исследуемым классам состояний ω [3]. Учитывая свойства введенных показателей f , mi, ei, Iiпосле приведения к интервалу [0,...,1] их можно
рекомендовать для оценки максимальных значений соответствующих функций принадлежности μω (xi).
Таким образом, предложенный метод оценки информативности может быть использован не только по своему прямому назначению, но и при синтезе прогностических и диагностических моделей для медицины, биологии и других смежных областей.
Рассматривая результаты работы коллективного решающего правила как латентные переменные, а результаты работы частных решающих правил UGNr, UGV, UGP , UGD , UGG , UGMr, UGR как индикаторные переменные и используя логистические модели Г. Раша типа (3.17) определяем целесообразность включения частных моделей в коллективные выражения (3.16) и значения весовых коэффициентов αj (j=1, 7). В следующих
разделах остановимся подробнее на методах синтеза каждой из рассмотренных составляющих.
3.3
Еще по теме 3.2 Метод оценки уровня информативности разнородных признаков в условиях плохой формализации:
- Динамика и информативность стандартных методов оценки степени ожирения для прогнозирования массы тела женщин в условиях прогрессирования беременности
- Математические модели для оценки риска повторного инфаркта миокарда по информативным признакам хі... хі8
- Объект и методы исследования. Выбор пространства информативных признаков
- Метод и алгоритмы формирования пространства информативных признаков для интеллектуальных агентов, работающих на основе биоимпедансных исследований
- Формализация творческой задачи на метамодеьном уровне
- 26. Объективные методы оценки уровня стресса
- 27. Субъективные методы оценки уровня стресса
- Формирование пространства информативных признаков
- Современные методы и средства для оценки адаптационных возможностей и уровня здоровья организма человека
- Исследование уровня притязаний и уровня самооценки у детей по Дембо-Рубинштейн в модификации А.М. Прихожан («Лесенка»), оценка результатов.
- Формирование пространства информативных признаков для интеллектуальной системы прогнозирования артериальной гипертензии у водителей транспортных средств
- Формирование пространства информативных признаков на основе спектрального анализа трех потоков системных ритмов модулированного сигнала
- Формирование подпространства информативных признаков на основе исследования биоактивных точек
- Исследование гетерогенного пространства информативных признаков для классификатора повторного инфаркта миокарда в реабилитационном периоде
- Метод оценки функционального состояния и функционального резерва организма и его систем в условиях действия электромагнитных факторов.
- Формирование пространства информативных признаков на основе амплитудно-частотных характеристик биоимпеданса в аномальных зонах проводимости
- Обоснование комплексного применения маркерных параметров оценки уровня спонтанной и Бе2+-инициированной окислительной модификации белков, коррелирующих с уровнем молекул средней массы, на модельной биологической системе желточных липопротеидов.
- Сравнение информативности ТП РОГ и метода ЦДК и УЗДГ для уточнения и постановки диагноза миопии
- Исследование уровня тревожности матерей по Спилбергеру в модификации Ю.Л. Ханина и оценки матерями своих детей (экспертная оценка) по Дембо-Рубинштейн в модификации А.М. Прихожан, интерпретация результатов.
- 39. Фазы и уровни консультативного процесса семьи, (в конце ->) признаки его успешности.