Поиск информации на сайтах (HTTP-серверах)

Поиск через интернет-поисковики

Переключившись в режим поиска (можно использовать клавиатурное сочетание Ctrl-E) с использованием дополнительных модулей, можно искать файлы и документы на заранее не известных сайтах.

Например, поиск файла по фрагменту имени на FTP-серверах:

поиск на FTP

Простым выбором другого модуля можно запустить поиск по веб-сайтам:

поиск по веб-сайтам

Поиск на известных веб-сайтах

Поиск на веб-сайтах с помощью поисковой системы Интегра алгоритмически ничем не отличается от консольной поисковой утилиты. Общий подход тот же: пользователь указыват адрес начальной страницы сканируемого сайта, движок скачивает страницу и с помощью регулярных выражений анализирует ее исходный код на предмет наличия гиперссылок. Каждая гиперссылка проверяется заданным набором фильтров и помещается в очередь на скачивание. Закончив обработку страницы, движок берет из очереди гиперссылок первую и начинает обрабатывать соответствующую страницу.

Вышеописанный алгоритм содержит одну опасность - паук может уйти с исходного сайта и ничуть не стесняясь начать индексировать веб-сайты на просторах интернета, расходуя трафик и время. Чтобы такого не случилось, по умолчанию параметры паука содержат запрет уходить с исходного домена второго уровня. Таким образом, начав обработку сайта www.solarix.ru, паук не уйдет на www.boost.org по встретившейся тут ссылке. В поисковом движке соответствующий запрет оформлен командой -same_domain.

Для FTP серверов алгоритм паука напоминает работу с локальными папками. Сначала движок подключается к серверу и скачивает список файлов в корневом каталоге. Обработав файлы в этом каталоге, он рекурсивно приступает к обработке подкаталогов. Если не включать анализ содержимого, то есть полнотекстовый поиск, то индексирование FTP-сервера происходит достаточно быстро, в противном случае движок будет скачивать файлы в локальный временный каталог и распаковывать архивы, выделять текст из документов и т.д., что в приведет к серьезным тратам ресурсов, прежде всего сетевого трафика.

Для успешной работы паука необходимо правильно сконфигурировать параметры паука, если для выхода в интернет используется прокси-сервер (см. здесь), а также корректно задать пассивный/активный режим клиента для работы с FTP-серверами. Впрочем, для большинства случаев домашнего использования эти моменты неактуальны.

Рассмотрим сначала поиск (без индексирования) на веб-сайте (HTTP-сервере).

Прежде всего выбираем режим поиска без использования индекса:

переключение в режим поиска без индекса

Далее надо определить область поиска, состоящую из интересующего веб-сайта, либо из нескольких сайтов. Самый простой способ - не менять многочисленные параметры, управляющие работой сетевого паука, а просто ввести адрес сайта в диалоговом окне:

поиск на веб-сайте

Далее как обычно можно ввести поисковый запрос и увидеть результат:

поиск на веб-сайте

Либо можно нажать в мастере кнопку "Другие параметры" и задавать параметры сканирования сайта детально:

задание параметров работы сетевого паука

Конечно, ничто не мешает указать при поиске сразу несколько веб-сайтов, которые будут поочередно обработаны пауком:

обработка группы сайтов

Вы можете также проиндексировать содержимое FTP-серверов, и затем выполнять быстрый поиск файлов в режиме offline, то есть без фактического подключения к сети. В зависимости от имеющихся ресурсов, можно ограничиться сохранением в индексе только имен файлов (рекомендуется для экономии трафика), либо формировать индекс для полнотекстового поиска (потребует очень больших затрат трафика и времени). Соответствующие настройки находятся на диалоговом окне создания индекса (флаг "обрабатывать содержимое") и на вкладках диалогового окна настройки области поиска, в частности "Фильтры - Обрабатывать архивы". Каталогизатор поисковой системы работает с любыми индексами вне зависимости от того, из каких источников были получены документы:


Где скачать поисковую систему и SDK

Скачать SDK поисковой системы с примерами и другие компоненты можно здесь поисковая система

Дополнительная информация

вернуться к примерам поиска

команды работы с интернет-серверами в поисковом движке

поиск по HTTP серверам утилитой FAIND

поиск по FTP серверам утилитой FAIND

плагины внешних поисковиков

  © Mental Computing 2010
изменено 04-Jun-10