Метрики для классификации ситуаций
Многие задачи сводятся к сравнению текущего вектора признаков, характеризующих некоторое состояние или процесс, с эталонным (типичным) вектором той же размерности для выяснения степени близости или расстояния.
В общем случае возникает задача парного сравнения текущего вектора с множеством векторов — например эталонов лечебно-диагностических процессов.Рассмотрим образ в некотором пространстве признаков. В случае, если рассматривается п признаков, имеем для каждого образа точку тг-мерного пространства. Пусть в некотором тг-мерном пространстве заданы 3 точки — А, В, С.
К метрикам можно предъявить следующие требования:
Близость образов можно определять с помощью мер близости, определённых несколько иным образом. Условия, которым они должны удовлетворять, таковы:
3 Г. И. Назаренко, Г. С. Осипов
В качестве меры близости, например, может быть использован классический коэффициент корреляции:
Рассмотрим основные типы метрик, которые могут быть использованы в задачах извлечения информации о медицинских технологических процессах.
Евклидова метрика:
Метрика Евклида, используемая для определения расстояния между точками пространства признаков х\1 тд, удовлетворяет всем аксиомам расстояния; она удобна для определения расстояния между двумя точками, например между точкой наблюдаемых параметров и центром (выборочным средним) класса. Она не учитывает распределение точек в классе.
Мера сходства Хемминга:
где Щк — число совпадающих признаков у образцов Xj и Х^.
Вероятностная мера сходства:
где j — номер эталона, Х{(і = 1,2,..., АГ) — элемент неизвестного входного образца, Wij — значение весового коэффициента, соответствующее математическому ожиданию г-го элемента (признака) j-ro эталона. Величина среднеквадратичного
отклонения Gj находится в результате экспериментов для каждого эталона.
Мера сходства Роджерса-Танимото:
Метрика Махаланобиса:
где г,] — все возможные пары индексов измеряемых признаков, (i,j = 1,2, ...,ІѴ). Выражения в скобках есть отклонения значений переменных Х^к ОТ соответствующего среднего Xjk. N — количество объектов в классе. При і = к вычисляются среднеквадратичные отклонения, которые соответствуют дисперсиям параметров, а при і ф к оценивается ковариация между двумя параметрами. Метрика Махаланобиса неприменима, если выборочная дисперсия хотя бы одного из параметров равна нулю.
Метрика Журавлева:
Манхэттенская метрика:
Показано, что евклидова и манхеттенская метрики приводят к близким результатам.
Расстояние Чебышева:
З*
где N — количество переменных (признаков), і и j — номера объектов.
Частично используется в нечётких нейронных сетях в виде минимаксных критериев. Недостаток — кластеры, полученные с помощью расстояния Чебышева, «склеиваются» друг с другом. Метрика Брея-Кертиса:
В этом случае значения заключены между 0 и 1. Обычно перед использованием этой метрики данные стандартизуют. Данные после стандартизации должны быть неотрицательными.
Метрика Чекановского:
Коэффициенты а, Ь, с, и d берутся из таблицы (матрицы) ассоциативности, построенной для двух объектов і и fc, в которой 1 указывает на наличие признака у объекта, 0 — на его отсутствие. Проще всего рассмотреть эти коэффициенты, обратившись к таблице (матрице) ассоциативности размера 2x2:
Метрика Жаккара:
Как и в случае метрики Чекановского, коэффициенты а, 6, с и а берутся из таблицы ассоциативности.
Обобщённое расстояние Евклида-Махаланобиса рассмотрим, следуя [27,28].
Для определения расстояния от точки, координаты которой представляют собой параметры наблюдаемого объекта, до класса п сходных объектов обычно пользуются метриками Евклида и Махаланобиса. Каждая из этих метрик имеет свои преимущества и недостатки.
Метрика Евклида, используемая для определения расстояния между точками Х\, Х2,
удовлетворяет всем аксиомам расстояния, она удобна для определения расстояния между двумя точками, например между точкой наблюдаемых параметров и центром (выборочным средним) класса. Она не учитывает распределение точек в классе.
Метрика Махаланобиса не применима, если выборочная дисперсия хотя бы одного из параметров равна нулю:
Метрику Евклида, как и метрику Махаланобиса, можно представить в виде квадратичной формы, матрицей которой является единичная матрица:
Метрика Махаланобиса может также использоваться и для измерения расстояния между двумя классами Х\ и Х%.
Для этого берут среднее взвешенное расстояний Махаланобиса от выборочных средних:
Видно, что данные по жд практически одинаковы, что затрудняет использование метрики Махаланобиса. Рис. 3.1. поясняет относительное расположение объектов. Каждый объект представлен точкой (жд, жз) в пространстве только двух параметров.
Линии наилучшего приближения к множеству точек каждого класса построены по методу наименьших квадратов. Серые кружки соответствуют классу 1, чёрные — классу 2. Рассмотрим
Таблица 3.1
Рис. 3.1. Относительное расположение объектов
в качестве примера произвольную точку А с координатами (20,828; 14; 6,1) трёхмерного пространства (в соответствии с размерностью табл. 3.1). Измерим для сравнения расстояния от заданной точки до классов с помощью различных метрик. Результаты измерений отражены в табл. 3.2.
Таблица 3.2
| Расстояние | Класс 1 | Класс 2 |
| Евклида Обобщённое Махал анобиса | 5.768 1,3580 5,3884 | 1,4877 1,3590 1218130,7445 |
Видно, что расстояние Махаланобиса достаточно велико. Предложенная обобщённая метрика ЕвклидаЛМахаланобиса учитывает корреляционные свойства классов таким образом, что расстояние между точкой и классом стремится к расстоянию Евклида, когда дисперсии параметров класса стремятся к нулю. Это обстоятельство делает обобщенную метрику более предпочтительной, особенно в условиях неопределённости, когда корреляционные характеристики классов заранее не известны и сами классы формируются и уточняются в процессе измерений в реальном времени.
3.3.
Еще по теме Метрики для классификации ситуаций:
- 17. Экспериментальный метод и методики измерения переменных.
- ОГЛАВЛЕНИЕ
- Метрики для классификации ситуаций