Библиотека для поиска текста с учетом морфологии

Назначение библиотеки

Библиотека позволяет находить все вхождения включевого слова в строку текста, правильно обнаруживая любые грамматические формы искомого слова.

Библиотека реализована на языке C# для платформы .NET. При ее разработке одним из главных требований было использование как в настольных приложениях, так и для ASP.NET-сайтов.

Лемматизатор и стеммер

Для эффективного сопоставления ключевого слова запроса и слов в обрабатываемом тексте используются два морфологических модуля - стеммер и лемматизатор.

Примет поиска текста для русского языка

Выполнять поиск очень просто. Фрагмент кода на C#:

   string text = "Вижу кошку и собаку, кошке надо погулять. "+
                 "В кошелку положи пирожок, пусть лежит в лукошке. "+
                 "Птички порхают, с кошками не играют."; 
   foreach( StringLib.WordHit hit in StringLib.LexemeMatcher.Match(text,"кошка") )
    {
     Console.WriteLine( "Hit: {0}", text.Substring( hit.Pos, hit.Length ) );
    }

Класс LexemeMatcher имеет ряд методов, среди которых для демонстрации выбран Match. Он позволяет перечислить все вхождения ключевого слова кошка, возвращая для каждого сопоставления номер позиции и длину совпадения. Это позволяет распечатать список найденных в тексте словоформ:

поиск текста с учетом морфологии

Почти такой же код работает в ASP.NET приложении:

поиск текста в ASP.NET

Исходный текст обоих примеров вместе с проектами для MS VisualStudio включены в состав SDK Грамматического Словаря.

Дополнительные материалы

Приобретение SDK грамматического словаря

Лемматизатор

Стеммер

  © Elijah Koziev 2010
прикладные проекты на основе грамматического словаря API грамматической машины компоненты для доступа к грамматическому словарю условия получения SDK токенизатор и сегментатор морфологический анализ и синтез лемматизатор база N-грамм синтаксический анализатор словоформы морфология и синтаксис русского языка падеж число род совершенный и несовершенный вид экспорт в SQL формат экспорт в XML формат скрипт SQL словаря структура SQL словаря структура XML словаря компоненты для доступа к грамматическому словарю ORM Persistent Dictionary Library лемматизация стемминг примеры использования грамматического словаря склонение существительных в русском языке склонение русских прилагательных спряжение глаголов в русском языке поиск текста с учетом морфологии OCR подсистема расширенные регулярные выражения генератор текста генератор случайного текста и имитатор рандомизатор синонимизатор перефразировщик Статистика буквенных паттернов

Грамматический словарь русского языка



Грамматический словарь
склонение и спряжение глаголов, существительных, прилагательных

В состав входит русский и английский словарь.

платформа:  Windows 2000 ... Windows 7
требования: 512 Mb свободной памяти, 300 Мб на диске
размер:         34 Мб

  скачать грамматический словарь купить грамматический словарь SDK грамматического словаря
грамматический словарь русского языка



SDK Грамматического словаря



SDK Грамматического Словаря
склонение и спряжение глаголов, существительных, прилагательных

В состав входит русский и английский словарь.

платформа:  Windows 2000 ... Windows 7
размер:         13 Мб

SQL словарь (демо):
sqlite mysql oracle firebird mssql

скачать демо-версию SDK купить SDK API грамматического словаря



Поисковая система



Integra
настольная и сетевая поисковая система 

платформа:  Windows XP ... Windows 7
требования: 512 Mb свободной памяти
размер:         21 Мб

Дополнительные компоненты:
MySQL поисковый сервер 13.5 Мб
Integra.Premium MySQL 3.9 Мб

скачать поисковую систему SDK поисковой системыописание поисковой системы



SDK Поисковой системы



SDK Поискового движка
API для настольной и сетевой поисковая система 

платформа:  Windows XP ... Windows 7
размер:         17 Мб

Дополнительные компоненты:

MySQL поисковый сервер 13.5 Мб
Integra.Premium MySQL 3.9 Мб

скачать SDK SDK поисковой системы



Экранный переводчик



Translator
экранный переводчик

платформа:  Windows XP ... Windows 7
требования: 256 Mb свободной памяти
размер:         4.4 Мб

Дополнительные компоненты:
расширенный англо-русский словарь 6.4 Мб


скачать экранный переводчикописание экранного переводчика



изменено 16-Aug-11