Результаты многофакторного анализа протеомных данных
С целью определения оптимального набора протеомных данных, которые могли бы использоваться для диагностики рака яичников, нами был предпринят многофакторный анализ методами опорных векторов (SVM) и логистической регрессии (LR).
В качестве исходных данных были апробированы различные варианты комбинаций протеомных данных, в частности:1. Концентрации Са125, измеренные методом ИФА.
2. Концентрации CA125 и А-SAA, измеренные методом ИФА.
3. Значения интенсивностей 48 SELDI-MS m/z пиков, определенные методом масс-спектрометрии.
4. Концентрации CA125 и А-SAA, измеренные методом ИФА и данные масс-спектрометрии;
5. Концентрации CA125 и A-SAA, измеренные методом ИФА и формализованные данные масс-спектрометрии (две переменные, отобранные методом пар с наибольшим счетом).
Эффективность диагностических алгоритмов, полученных на основе указанных комбинаций с помощью классификаторов SVM и LR, проверяли путем перекрестной проверки на достоверность. Доверительный интервал вычисляли для доверительной вероятности, равной 0,05.
Значения точности, чувствительности и специфичности полученных диагностических алгоритмов представлены в таблицах № 8 и 9 из которых явствует, что добавление значений концентраций А-SAA к значениям концентраций CA125 не приводит к повышению точности классификации, несмотря на то, что у некоторых больных раком яичников уровень А-SAA был существенно повышен на фоне нормального уровня CA125.
Многофакторный анализ данных масс-спектрометрии методом опорных векторов (таблица № 9) дал лучшие результаты, чем метод логистической регрессии (таблица № 10): точность метода опорных векторов (SVM) для данных масс-спектрометрии оказалась значительно выше, чем при использовании только концентрации CA125 (89,5% против 86,1%,
соответственно). LR-классификатор, напротив, дал существенно лучшие результаты, чем SVM при обработке бинарных данных методом пар с наибольшим счетом (TSP) в комбинации с данными ИФА, причем данные TSP существенно повысили точность классификации (90,7% по сравнению с 8586% только для CA125).
Наилучшей точности распознавания рака яичников и его отсутствия, составившей 95,2%, удалось достичь при использовании метода опорных векторов для анализа комбинированных данных ИФА и масс-спектрометрии.
Для методов классификации, построенных с использованием метода опорных векторов на основе только масс-спектрометрических данных и на основе комбинации масс-спектрометрических данных с данными ИФА, был
Таблица № 9
Результаты применения метода опорных векторов для классификации сывороток крови пациенток исследуемой выборки
| Метод опорных векторов | Точность (в %) | Специфич ность (в %) | Чувствитель ность (в %) |
| SVM (CA125)[1] | 86,2±0,7 | 98,8±0,3 | 64,7 ±1,7 |
| SVM (ИФА)[2] | 86,4±0,7 | 96,5±0,5 | 70,3±1,8 |
| SVM RFE (MS)[3] | 89,5±0,7 | 93,3±0,7 | 83,6±1,6 |
| SVM С^^)+ИФА)[4] | 86,7±0,7 | 92,8±0,8 | 77,5± 1,6 |
| SVM RFE (ИФА+MS)[5] | 95,2±0,4 | o' +1 QO О | 90,8±1,1 |
Таблица № 10
Результаты применения метода логистической регрессии для классификации сывороток крови пациенток исследуемой
выборки
| Метод логистической регрессии | Точность (в %) | Специфич ность (в %) | Чувствительность (в %) |
| LR (CA125) | OO 1+ JO Li | 95,6±0,5 | 67,5± 1,7 |
| LR (ИФА) | 86,6±0,7 | 94,3±0,6 | r- +1 (Nv r- |
| LR (MS) | 86,0±0,7 | OO Ul 1+ Lj | 83,7±1,5 |
| LR AIC ^Р^)+ИФА) | 90,7±0,6 | 96,9± 0,5 | +1 OO |
| LR AIC (ИФА+MS) | 91,9±0,6 | 92,7±0,7 | +1 r- о" о |
В таблице № 11 приведен полный список исследованных сывороток крови, которые хотя бы один из 100 раз были неправильно распознаны.
Для каждой сыворотки указан процент ошибок при проверке двух указанных выше методов классификации. Сыворотки, не указанные в таблице, были распознаны правильно все 100 раз.Как можно видеть в таблице № 11, диагностический метод,
разработанный на основе комбинации масс-спектрометрических данных с данными иммуноферментного анализа, имеет наибольшую точность диагностики по сравнению с диагностическим методом, разработанным на основе только масс-спектрометрических данных.
На примере сывороток 12 и 341 виден решающий вклад концентрации СА125 в постановку диагноза. В обоих случаях концентрация СА125 превышает более чем на порядок критический уровень, и если при использовании масс-спектрометрического профиля сыворотки эти случаи почти всегда ошибочно относили к контрольной группе, то добавление данных о концентрации СА125 свело процент ошибочного распознавания к нулю.
Практически в 100% случаев была неправильно распознана сыворотка 337, соответствующая серозной цистаденоме. Это объясняется тем, что в этой сыворотке наблюдался очень высокий уровень А-SAA - около 5 г/л.
В таблице № 12 приведен усредненный процент ошибочных диагнозов для каждой исследованной группы. Как можно видеть, наибольшим этот процент оказался в группе сывороток больных доброкачественными опухолями яичника. Следует отметить, что согласно полученным нами данным, рак яичников на ранних стадиях диагностируется не хуже, чем рак на более поздних стадиях. Из семи исследованных сывороток больных раком на ранней стадии 4 были правильно диагностированы все 100 раз.
Что же касается сывороток крови больных миомой матки, то все они были распознаны правильно, так что средний процент ошибок в группе больных миомой матки оказался ниже такового для группы здоровых женщин.
Таблица № 11
Процент неправильных распознаваний
| Номер сыворотки | Частота ошибочных распознаваний (в %) | Диагноз | СА125 (ед/мл) | A-SAA (г/л) | |
| SVM (MS) | SVM (ИФА+MS) | ||||
| 18 | 11 | 2 | Рак яичника, 2 стадия | 33 | 1,361 |
| 16 | 4 | 0 | Рак яичника, 2 стадия | 199 | 0,015 |
| 19 | 0 | 10 | Рак яичника, 2 стадия | 96 | 0,708 |
| 303 | 0 | 1 | Рак яичника, 3 стадия | 2 | 0,448 |
| 2 | 23 | 2 | Рак яичника, 3 стадия | 883 | 0,006 |
| 12 | 96 | 1 | Рак яичника, 3 стадия | 539 | 0,031 |
| 15 | 83 | 80 | Рак яичника, 3 стадия | 76 | 0,161 |
| 24 | 12 | 1 | Рак яичника, 3 стадия | 234 | 0,083 |
| 25 | 0 | 12 | Рак яичника, 3 стадия | 14 | 0,009 |
| 304 | 29 | 0 | Рак яичника, 3 стадия | 809 | 0,333 |
| 341 | 99 | 0 | Рак яичника, 3 стадия | 800 | 0,037 |
| 403 | 41 | 5 | Рак яичника, 3 стадия | 805 | 0,429 |
| 1 | 0 | 31 | Рак яичника, 4 стадия | 48 | 3,161 |
| 424 | 49 | 1 | Серозная цистаденома | 11 | 0,017 |
| 347 | 2 | 0 | Серозная цистаденома | 12 | 0,153 |
| 337 | 100 | 91 | Серозная цистаденома | 22 | 4,767 |
| 338 | 93 | 0 | Муцинозная цистаденома | 12 | 0,038 |
| 420 | 9 | 0 | Миома матки | 29 | 0,017 |
| 427 | 2 | 0 | Миома матки | 42 | 0,013 |
| 413 | 15 | 12 | Миома матки | 65 | 0,010 |
| 416 | 9 | 0 | Миома матки | 14 | 0,011 |
Продолжение таблицы № 12
Номер
сыворотки
Частота ошибочных распознаваний (в %)
Диагноз
SVM
(MS)
SVM
(ИФА+MS)
| СА125 | A-SAA |
| (ед/мл) | (г/л) |
| 406 | 3 | 9 | Миома матки | 52 | 0,023 |
| 33 | 3 | 0 | Здоровые | 21 | 0,079 |
| 35 | 16 | 17 | Здоровые | 12 | 0,061 |
| 28 | 94 | 13 | Здоровые | 16 | 0,003 |
| 38 | 1 | 0 | Здоровые | 7 | 0,034 |
| 309 | 12 | 0 | Здоровые | 5 | 0,029 |
| 307 | 0 | 1 | Здоровые | 22 | 0,014 |
| 340 | 2 | 0 | Здоровые | 41 | 0,004 |
| 27 | 0 | 1 | Здоровые | 13 | 0,014 |
| 345 | 2 | 0 | Здоровые | 12 | 0,184 |
Таблица № 13
Усредненные значения ошибочных распознаваний каждой группы исследуемых образцов
| Г руппа образцов | Средние значения ошибочных распознаваний (в %) | |
| SVM (MS) | SVM (ИФА+MS) | |
| Рак яичника (ранняя стадия) | 2,1 | 1,7 |
| Рак яичника (поздняя стадия) | 14,5 | 7 |
| Доброкачественные опухоли яичника | 17,4 | 6,6 |
| Миома матки | 2,2 | 0,5 |
| Здоровые | 5 | 1,2 |
| Всего | 10,2 | 4,2 |
3.6.