API поисковой машины: примеры программ

Использование встраиваемой поисковой системы

Компонент faind.win32.dll это загружаемая библиотека с полной поисковой машиной. Она поддерживает все возможности поискового движка FAIND, включая работу с интернетом и морфологический анализатор. Ее описание доступно здесь. Библиотека экспортирует небольшой набор функций, доступных для использования на многих языках программирования, включая C, C++ и Delphi.

Для программ на платформе .NET удобнее использовать обертку search_engine_fx.dll. В состав SDK входит соответствующий пример программы на C#.

Обратите внимание, что формат индексных баз, создаваемых настольной поисковой системой, консольной утилитой полнотекстового поиска и DLL, полностью идентичен, поэтому API поисковой системы помимо прочего позволяет автоматизировать манипуляции с индексами, например для Интегры.

Примеры

Примеры можно условно поделить на 2 категории - консольные и GUI.

В качестве примеров графических оболочек доступны несколько программ: простейший пример и полноценная поисковая система, а также утилиты для поиска без использования индекса DocFinder и WebCrawler.

Первая программа, не перегруженная интерфейсным кодом, позволяет легко увидеть основные принципы работы с API поисковой системы.

Вторая программа - это достаточно крупный проект, который содержит основные элементы полноценной поисковой системы - индексирование документов, поиск по индексу и безындексный поиск, просмотр результатов поиска.

Демонстрационная программа DocFinder находится в каталоге ...\demo\ai\solarix\Search_Engine\samples\DocFinder. Она написана на C++ с использованием только стандартных библиотек. В этом же каталоге находится проект для сборки в VisualStudio 2003. Файл test.cmd позволяет запустить программу для поиска в зашитом внутри test.cmd каталоге с запросом ключевых слов с клавиатуры. Поиск выполняется без использования индексов. Так как в состав SDK входят все основные плагины, то программа может искать в офисных документах разных форматов. Результаты сохраняются в файле формата HTML. Пути к файлам прописаны в test.cmd.

Демонстрационная программа WebCrawler находится в каталоге ...\demo\ai\solarix\Search_Engine\samples\WebCrawler. Ее функция - выполнить обход веб-сайтов и найти страницы с введенными ключевыми словами. Список веб-сайтов для просмотра задается в текстовом файле sites.txt. Ключевые слова для поиска вводятся с клавиатуры при выполнении командного файла test.cmd. Результаты сохраняются в HTML файле. Алгоритм обхода веб-сайтов задан в C++ коде программы и имеет некоторые особенности, а именно глубина просмотра веб-сайтов из списка ограничена одним переходом по гиперссылке (смотри команду -maxdepth), причем разрешены только переходы в рамках исходного домена сайта (команда -same_domain). Если поисковый движок загрузил плагины, то программа будет выкачивать с сайтов файлы офисных форматов и выполнять поиск в них. Поведение программы можно изменить, внеся соответствующие изменения в C++ код и пересобрав проект с помощью VisualStudio 2003.

Простейший графический front-end подробнее ►

Поисковая система βulldozer.net подробнее ►

Простой консольный front-end подробнее ►

Простой консольный front-end - подробнее

Создание и использование переносимых индексов - подробнее

Где скачать поисковую систему и SDK

Скачать SDK поисковой системы с примерами и другие компоненты можно здесь поисковая система

  © Mental Computing 2010
изменено 16-Aug-11