СИСТЕМА ЛОГИКО-СЕМАНТИЧЕСКОЙ ОБРАБОТКИ ДЛЯ ВИРТУАЛЬНОЙ РЕАЛЬНОСТИ

Система автоматической формализации и логико-аналитической обработки текстовых и цифровых документов для задач медицины, экологии и демографии должна обеспечивать ведение следующих каталогов для выбора объектов поиска: событийной демографической документированной информации (тип документа, дата, фабула, источник, степень защиты и достоверности); физических лиц (Ф.И.О., дата и место рождения, смерти, регистрация); сотрудников социальных служб, бюро медицинской статистики, ЗАГСов, ИВІД УВД, соответствующих служб органов внутренних дел и центров занятости населения; юридических лиц - субъектов медико-клинического и социодемографического мониторинга; корпоративных объектов; предметов научного исследования.

Типовыми задачами информационно-аналитического центра для комплексных клинических и медико-социальных исследований является сбор, хранение и аналитическая обработка демографической информации, заключающаяся, как правило, в подборе необходимых документов, составлении обзоров, отчетов, ведении документооборота. В качестве основы используются базы данных (БД). Однако БД обеспечивают лишь какую-то часть информационных потребностей, и в тоже время, использование БД ограничено в связи со следующими факторами.

Во-первых, БД обладают рядом существенных недостатков при работе с текстовыми документами. Полнотекстовые БД дают большое количество шумов и потерь. БД, основанные на информационных карточках, требуют трудоемкой работы по формализации документов и заполнению полей. Часто оказывается, что не все документы укладываются в принятую систему признаков, рубрикаторов, ключей. При формализации значимая информация может оказаться труднодоступной. Во-вторых, многие аналитические задачи связаны с просмотром и анализом большого количества разнообразных документов. Здесь необходима существенная помощь человеку, заключающаяся в автоматическом выделении значимых объектов, признаков, установлении связей, компоновке информации с ее представлением в наиболее удобном для пользователя виде, например, путем ранжирования объектов, построения графических изображений, выдачи рекомендаций и др.

Для этого требуется логическая обработка, которую трудно обеспечить в рамках БД. И, в-третьих, работа с БД требует специальных навыков, обучения. Квалифицированный специалист, принимающий решения, часто плохо представляет себе, как работать с БД. Ему трудно «бегать» по многочисленным окнам, меню, анкетам. Возникает задача организации интеллектуального интерфейса, максимально приближенного к человеку [3-9].

Для преодоления этих ограничений требуется использование новейших технологий баз знаний и методов искусственного интеллекта. В связи с вышесказанным для расширения возможностей информационно-аналитического центра предлагается система АНАЛИТИК, которая способна извлекать из текстов значимую (концептуальную) информацию, анализировать ее и использовать в следующих направлениях:

- для обеспечения удобных способов доступа к медико-демографической и социологической информации широкого круга пользо- йателей, желающих для получения информации пользоваться приютным естественным языком;

- для глубокой обработки социально значимой визуальной информации с выдачей рекомендаций, экспертных решений на основе

анализа логико-семантических признаков, связей, для квалифицированной подборки информации о группах виртуальных объектов с учетом их классификации, взаимосвязей и др.

Во многих областях приложения имеют место громадные информационные потоки в виде зрительных образов, текстов естественного языка - разного рода специальных изображений, документов, публикаций, статистических таблиц, постановлений, законодательных актов и др. Для их обработки (например, использования для прогнозирования, анализа и предотвращения критических ситуаций) требуются значительные человеческие усилия по осмыслению зрительных образов, текстов, извлечению полезной информации, ее структуризации и подготовки для дальнейшего использования. Одной из важнейших задач является автоматизация наиболее трудоемких звеньев данного процесса. Например, для полнотекстовых образов имеется несколько направлений.

Первое основано на использовании специализированных БД, позволяющих искать информацию путем указания частей образов, слов, расстояния (меры близости) между ними. Другое направление основано на использовании логико-семантической (гипертекстовой) технологии, развивающейся по пути автоматического создания таких систем путем выделения образов, понятий, именных групп и автоматического построения ссылок.

Основные трудности обоих направлений заключаются в следующем. Во-первых, обычный пользователь выражает свои мысли достаточно произвольно, используя понятия различной степени общности. Он не может знать, какие объекты, слова использовались в визуальных образах, текстах и в каком контексте. Во-вторых, для уточнения вопроса человек, как правило, использует свойства зрительных образов, предметные отношения объектов, что трудно учесть в рамках «гипертекстовой» технологии. Для этого требуется соответствующая семантическая база, в том числе родовидовые деревья, в которых должны быть представлены свойства образов, объектов, отношения и др. В связи со сказанным перспективным представляется направление, основанное на предварительном глубинном семантическом анализе образов и текстов с отображением фрагментов изображений или слов на семантические категории, т. е. структуры базы знаний (БЗ).

Попытка построения такого рода систем не раз предпринималась у нас в стране и за рубежом, например, в системах ПОЭТ, ЛИНГВО и др. Здесь следует учитывать большое разнообразие языковых форм и явлений, обеспечивающих владение языком. В любом случае алгоритмы и программы получаются очень сложными. Важно найти подход, позволяющий упростить их хотя бы в какой-то степени. В то же время, в упомянутых системах обработка лингвистической и визуальной предметной информации осуществлялась на разнородной основе. Например, при разработке системы ПОЭТ отдельно рассматривалась задача автоматического анализа предложений естественного языка с построением лингвистических процессоров. Достаточно независимо рассматривались задачи распознавания образов, представления и обработки знаний, например, при ответе на запросы (это осуществлялось средствами БД ADABAS). Выделялось множество других самостоятельных задач.

При таком подходе возникает необходимость стыковки разнородных процессоров. По мере реализации новых виртуальных образов, паттернов, языковых явлений сложность системы н объем программ будут быстро расти, что затрудняет их совершенствование и модификацию. Представляются перспективными работы, где предлагается обойти многие трудности за счет предварительных научных исследований: использования адекватных средств для распознавания визуальных изображений, отображения глубинной сущности предметной области, семантики естественно-языковых текстов, унификации процедур виртуального, морфологического и синтактико-семантического анализа текстов естественного языка, разработки единой базы для представления различных видов информации и использования единых инструментальных средств для реализации методик и алгоритмов, для обеспечения комплексной обработки паттернов и знаний [8-10]. Следует отметить высокую сложность задачи комплексной обработки визуальных образов, лингвистических и предметных знаний, что вызвано высоким разнообразием паттернов, языковых форм и сложностью языковых процессов, обеспечивающих владение языком. В процессе разбора, например, предложений с построением смысловых структур требуется выявлять словосочетания, называющие объекты, уточнять их место во введенной системе классификации. Требуется различать омонимы, а также полисемичные глаголы, которым должны сопоставляться различные семантические коды. Требуется восстанавливать информацию, которая иногда дается по умолчанию, например, при использовании безглагольных форм, эллиптических конструкций, различных образов и словосочетаний. Семантическая база привносит трудности, которых нет в простых моделях, основанных на словах и словоформах. В то же время такая база дает возможность решать новые задачи, например, визуального, фактографического поиска, экспертных оценок. Семантическая база обеспечивает более точный анализ, так как наилучшим инструментом устранения многих неоднозначностей являются предметные знания. Например, для различения полисемичных образов или глаголов важным фактором является, что значит тот или иной образ, то или иное слово в окружении.

Система нового типа (ЭКОЛОРИ) базируется на новейших разработках в области «искусственный интеллект», связанных с созданием систем представления визуальных образов и обработки медикобиологических эколого-социальных знаний, формированием гипотез. Для этих целей осуществлялось развитие специальных средств:

- специализированных программ поддержки принятия решений по отнесению того или иного медико-демографического фактора к определенному классу, например, группировки по коду региона, социально значимому субстрату и т. п.;

- расширенных семантических сетей для представления различных видов знаний, в т. ч. отражающих различные формы взаимосвязей, динамический характер медико-демографических событий, происшествий;

- лингвистических процессоров с ориентацией на образносемантическую компоненту для выявления из паттернов и текстов естественного языка, полезной информации и интеллектуального интерфейса;

- гибких логических механизмов, которые можно быстро менять, учитывая особенности аналитических задач и пожелания пользователя;

- аппарата интервальных вероятностей для сравнительной оценки объектов, статистического анализа подтвержденных признаков, связей, для принятия решений в условиях повышенной неопределенности и экстремальных ситуациях, связанных с лимитом времени (выборах, операциях МЧС, в медицине катастроф, эпидемиологии и пр.).

В рамках системы ЭКОЛОРИ развивается подход АНАЛИТИК, в котором, во-первых, анализ зрительных паттернов или разбор предложений осуществляется в тесной связи с предметными знаниями невизуального характера (или семантической базой). Для этого используется формализм расширенных семантических сетей, который обеспечивает адекватное отображение глубинной семантики сложных выражений естественного языка с анафорическими ссылками, отглагольными формами, эллиптическими конструкциями. Такой формализм служит для представления как предметных образов, так и лингвистических знаний. В его рамках пространственнообразные отношения между элементами изображения или текста, а также предметные отношения между объектами с учетом их возможной интеграции представляются на однородной основе - в виде фрагментов семантической сети.

Во-вторых, для обработки знаний системы АНАЛИТИК используются структурные грамматики, основанные на продукционных правилах и формализме расширенных семантических сетей. Такие грамматики опираются на знания - лингвистические и предметно-образные. С их помощью обеспечивается распознавание образов, разбор предложений, восстанавливаются смысловые элементы, которые даются по умолчанию, осуществляется уточнение объектов, их идентификация, обеспечивается поиск сопоставимых структур знаний, ответ на запросы. Данный подход опирается на модель естественного языка, в которой упор делается на указание семантических характеристик слов и словосочетаний. Такие характеристики представляются в специальном семантическом словаре, в котором помимо морфологических компонент и допустимых синтаксических форм указывается значение слов и словосочетаний. Например, слово может называть социальный объект, выражать свойство, отношение, указывать действие и др. Упомянутые сети и грамматики образуют унифицированные средства, базирующиеся на однородных представлениях (семантических сетях). Анализ предложения сводится к нескольким уровням обработки. Вначале на основе предложения строятся семантические сети, представляющие пространственное расположение слов. Затем на места слов подставляются их значения - семантические коды, связанные со знаниями. Далее анализируется окрестность глаголов. В результате строятся предикатные структуры в виде семантических сетей. Такой подход является относительно новым. Он позволяет на всех уровнях обработки не только естественно-языковых выражений, но и зрительных образов использовать имеющиеся предметные знания и перенести акцент на логико-семантический анализ в дополнение к морфологическому и синтаксическому [1, 4, 5, 7, 10].

<< | >>

↑

Источник: П.И. Барабані. Проблемы создания виртуальных информационных моделей. Владивосток: Дальнаука,2006. 188 с.. 2006

Еще по теме СИСТЕМА ЛОГИКО-СЕМАНТИЧЕСКОЙ ОБРАБОТКИ ДЛЯ ВИРТУАЛЬНОЙ РЕАЛЬНОСТИ:

- Информационные технологии в медицине -

- Акушерство и гинекология - Анатомия - Андрология - Биология - Болезни уха, горла и носа - Валеология - Ветеринария - Внутренние болезни - Военно-полевая медицина - Восстановительная медицина - Гастроэнтерология и гепатология - Гематология - Геронтология, гериатрия - Гигиена и санэпидконтроль - Дерматология - Диетология - Здравоохранение - Иммунология и аллергология - Интенсивная терапия, анестезиология и реанимация - Инфекционные заболевания - Информационные технологии в медицине - История медицины - Кардиология - Клинические методы диагностики - Кожные и венерические болезни - Комплементарная медицина - Лучевая диагностика, лучевая терапия - Маммология - Медицина катастроф - Медицинская паразитология - Медицинская этика - Медицинские приборы - Медицинское право - Наследственные болезни - Неврология и нейрохирургия - Нефрология - Онкология - Организация системы здравоохранения - Оториноларингология - Офтальмология - Патофизиология - Педиатрия - Приборы медицинского назначения - Психиатрия - Психология - Пульмонология - Стоматология - Судебная медицина - Токсикология - Травматология - Фармакология и фармацевтика - Физиология - Фтизиатрия - Хирургия - Эмбриология и гистология - Эпидемиология -