4.2. ПОИСК ИНФОРМАЦИИ В ИНТЕРНЕТ. ВВЕДЕНИЕ В ПОИСКОВЫЕ СИСТЕМЫ. ПОИСК МЕДИЦИНСКОЙ ИНФОРМАЦИИ.
Основная притягательная сила Интернет состоит в гигантском объеме текстовых, графических, мультимедийных, архивных и прочих файлов, количество которых постоянно растет. Интернет можно сравнить с читальным залом библиотеки немыслимых размеров, содержимое которого постоянно меняется.
На начало 2005 года в Internet было размещено порядка 800 млрд. документов, но о большинстве из них знают только их создатели.Все дело в том, что специальные средства поиска информации – поисковые системы, могут вывести напрямую лишь (!) к 1 млрд. документов. Именно поэтому поиск информации в Интернет одна из самых важных задач при работе в Интернет и одновременно – одна из самых сложных задач для многих пользователей.
Создание универсального поискового сервиса, позволяющего находить информацию из различных ресурсов Интернет, стало возможным лишь с появлением в начале девяностых годов серверов WWW. Это произошло во многом благодаря появлению и широкому распространению клиентских программ, таких как Microsoft Internet Explorer и др.
В результате в обиход миллионов пользователей Интернет прочно вошел термин Search Engine, чаще всего переводимый на русский язык как поисковая система. Существуют и другие варианты перевода от строгого «Информационно-поисковая система Интернет» до слова «Искатель».
Итак, поисковые серверы – это специально созданные узлы WWW, доступ к которым свободен, и основная функция которых состоит в поиске информации среди различных информационных ресурсов Интернет, включая серверы WWW, FTP, телеконференции и списки адресов e-mail. Основное внимание мы сосредоточим на поиске в Web, как наиболее нужной и одновременно наиболее сложной задачей.
В общем случае механизм поиска включает в себя три главных элемента:
- паук или агент, который собирает информацию, перемещаясь по сети;
- каталог, в котором хранится вся информация, собираемая пауками;
- программное обеспечение поисковой системы с механизмом поиска по каталогу.
.Первый и основной элемент – паук (spider, crawler).
Паук, это специальная программа сети, которая посещает какую-либо страницу сети, читает содержимое и затем следует по ссылкам на другие страницы или другие узлы Web. Паук возвращается к узлу на регулярной основе, например каждый месяц или чаще, чтобы поискать изменения.Все сведения, найденные пауком входят во вторую часть механизма поиска, называемую индексом. Индекс, который еще иногда называют каталогом, является подобием гигантской книги, содержащей копию каждой страницы в сети, которую нашла программа-паук. Если со временем страницы изменяются, то при следующем посещении паук фиксирует эти изменения и эта книга-индекс модифицируется на основе найденной информации. Иногда на это может потребоваться некоторое время, включая то, что тратится пауком на поиск изменений и последующую добавку к индексу.
Программное обеспечение механизма поиска – третья часть поисковой системы. В общем случае – это программа, которая просеивает миллионы страниц, записанных в индексе, чтобы найти нужные пользователю. Именно это программное обеспечение позволяет отправить запрос на поисковый сервер, где происходит выделение из введенной фразы ключевых слов, производится поиск в индексе и в ответ пересылаются адреса страниц, где встречаются подобные слова или выражения.
С точки зрения методологии стратегия работы современных поисковых серверов базируется на трех основных подходах. Создание Web-индексов, Web-каталогов и гибридный метод, сочетающий в той или иной степени два первых. Кроме того, существует ряд дополнительных подходов к классификации информации.
Еще по теме 4.2. ПОИСК ИНФОРМАЦИИ В ИНТЕРНЕТ. ВВЕДЕНИЕ В ПОИСКОВЫЕ СИСТЕМЫ. ПОИСК МЕДИЦИНСКОЙ ИНФОРМАЦИИ.:
- Принципы поиска информации в Internet
- Хранение и поиск информации
- 16.2. Публикации и поиск психологической информации
- 3.5.4. Источники информации об инновациях и работа с информацией
- Поиск первичной мишени пептида TGeNHR-NH2 и ex vivo анализ изменения рецепторных характеристик мозга при его введении
- 3.1. Обмен информацией, как условие функционирования медицинского учреждения
- 9.Создание внутренней системы информации.
- Психологический инструмент управления психолого-политическими явлениями - политическая информация. Психолого-политические качества информации.
- Основные процедуры обработки передаваемой информации в телемедицинских системах.
- Теоретические основы передачи информации в телемедицинских системах.
- 2.2. Источники информации, необходимые для оценки качества медицинской помощи