Многофакторный анализ полученных данных
С целью статистической обработки материала исследования была сформирована база данных, введенных в таблицу MS Excel, включившая: клинические сведения о пациентках исследуемой выборки, данные о концентрациях СА125 и A-SAA в их сыворотках крови, измеренные методом ИФА и данные масс-спектрометрии - значения интенсивностей 48 пиков, идентифицированных с помощью программы Biomarker Wizard™.
Всю статистическую обработку материала проводили с помощью R языка, находящегося в открытом доступе [www.r-project.org].
Для создания диагностического алгоритма были применены два метода классификации: метод опорных векторов (SVM) [Vapnik, V.N.,1998] и метод логистической регрессии (LR) [Skates et al, 2004].
Метод опорных векторов представляет собой метод распознавания образов с учителем [Guyon et al, 2002] и масс-спектров SELDI-TOF [Le et al, 2005; Zhang et al, 2006; Mao et al, 2005]. Основной целью метода опорных векторов является поиск наилучшего способа разделения множества исследованных сывороток на «раковые» и «не раковые». Перед применением метода опорных векторов был проведен отбор информативных признаков. Для этого применили алгоритм рекурсивного исключения признаков (Recursive Feature Elimination algorithm RFE, [Guyon et al, 2002]). Сначала алгоритм применяли на всех данных, затем переменная, получившая наименьший вес, исключалась, и эту операцию повторяли, пока все переменные не были ранжированы в соответствии с порядком их исключения. Затем отбирали тот набор признаков, который позволял добиться наилучшей точности классификации на всей исследуемой выборке.
В качестве альтернативы методу опорных векторов применяли метод логистической регрессии, который позволяет оценивать вероятность принадлежности исследуемого образца сыворотки крови больной раком яичников. Как и в методе опорных векторов, для улучшения модели предварительно проводили отбор признаков.
Для отбора признаков использовали ступенчатую модель отбора, основанную на информационном критерии Акаике (AIC), который позволяет достигнуть баланса между сложностью модели (количеством входящих в уравнение регрессии переменных) и ее эффективностью для классификации.Для проверки чувствительности и специфичности разработанных диагностических моделей использовали 10-кратную перекрестную проверку достоверности. При этом все имеющиеся образцы разделили на 2 группы. Первую группу использовали в качестве обучающей выборки для разработки диагностического алгоритма, а вторую группу - в качестве экзаменационной выборки для его проверки. 10-кратную перекрестную проверку достоверности проводили по 100 раз для диагностических алгоритмов, полученных как методом опорных векторов, так и методом логистической регрессии. Для каждого диагностического алгоритма была вычислена чувствительность и специфичность с доверительными интервалами.
Сравнительно новым, простым и эффективным подходом к классификации является метод пар с наибольшим счетом (TSP) [Tan et al, 2005; Xu et al, 2005]. Этот метод основан на относительных, а не абсолютных интенсивностях пиков и позволяет получать правила классификации, которые легко интерпретировать. Как и метод опорных векторов, этот метод применим в случае, когда число исследуемых признаков очень велико. Реальные значения интенсивностей пиков внутри каждого профиля заменяли рангами. Затем выявляли такие пары пиков, у которых ранги в наибольшей степени различались между исследуемыми классами. Для обработки данных с помощью TSP и проверки эффективности модели путем перекрестной проверки на достоверность с исключением по одной пробе использовали программу, созданную разработчиками метода TSP и доступную на их сайте (http://www.bme.jhu.edu/~actan/KTSP/) с неизмененными настройками.
Для анализа взаимосвязи между интенсивностью масс- спектрометричекого сигнала и концентрации амилоида А в сыворотке, измеренной методом иммуноферментного анализа, использовали ранговый коэффициент корреляции Спирмана, который позволяет выявлять нелинейные взаимосвязи.
Глава 3
Еще по теме Многофакторный анализ полученных данных:
- 23. MMPI -многофакторный метод изучения структуры личности человека. Возможности использования в семейном консультировании
- СОДЕРЖАНИЕ АктиваторА плазминогена урокиназного типа В ОПУХОЛЯХ МОЛОЧНОЙ ЖЕЛЕЗЫ
- Сердечно-сосудистая система и болезнь Альцгеймера: клинические данные
- Анализ полиморфных вариантов генов 2 фазы биотрансформаиии ксенобиотиков (GSTMI, GSTTl, GSTPI, NAT2)
- ОБСУЖДЕНИЕ ПОЛУЧЕННЫХ РЕЗУЛЬТАТОВ
- ГЛАВА 4. ОБСУЖДЕНИЕ ПОЛУЧЕнных РЕЗУЛЬТАТОВ
- Оглавление
- Многофакторный анализ полученных данных
- Результаты многофакторного анализа протеомных данных
- ОБСУЖДЕНИЕ ПОЛУЧЕННЫХ РЕЗУЛЬТАТОВ
- 3. Многофакторный анализ как один из методов формирования групп повышенного онкологического риска. Использование интегральных клинико-лабораторных показателей в диагностическом мониторинге у больных раком желудка и толстого кишечника.
- ГЛАВА 5. ОБСУЖДЕНИЕ ПОЛУЧЕННЫХ РЕЗУЛЬТАТОВ
- Общая клинико-анамнестическая характеристика наблюдаемых детей с нарушениями мочеиспускания неорганического генеза.