Парсер - морфологический и синтаксический анализатор текста

Парсер решает следующие задачи:

1. Лексический анализ - разбивка текста на предложения и слова.

2. Морфологический анализ слов - определение части речи, падежа, рода, числа и других грамматических признаков с учетом контекста слова.

3. Лемматизацию - приведение слова к начальной форме (лемме).

4. Синтаксический анализ - определение синтаксических связей слов в предложении, поиск подлежащего, сказуемого и так далее.

Всё вышеперечисленное выполняется в том числе для новых слов, отсутствующих в словаре. Кроме того, можно включить режим опечаток, чтобы морфологический анализатор исправлял орфографические ошибки.

Использование парсера

Парсер работает в командной строке. В качестве входных данных он получает текстовый файл в utf-8. Результаты работы сохраняются в XML формате.

Типичный сценарий вызова парсера таков:

parser.exe -verbose -tagger 0 -parser 0 -lemmatizer 0 -emit_morph 0 -d dictionary.xml input.txt -o output.txt

Параметры:

-verbose печать информации о ходе парсинга в консоль.

-tagger 0 для выполнения морфологического анализа (Part-Of-Speech tagging) используется базовая модель русской или английской морфологии.

-parser 0 для выполнения синтаксического анализа (построение dependency tree) используется базовый shift-reduce парсер.

-lemmatizer 0 лемматизация выполняется с использованием вероятностной модели русского языка и с учетом контекста слова.

-emit_morph 0 не выдавать в XML файл результатов списки морфологических тегов слов; режим 1 приведет к значительному росту объема результата.

-d dictionary.xml путь к конфигурационному файлу словарной базы

-o output.txt имя создаваемого файла с результатами.

-fuzzy_wordrecog 1 включается нечеткий поиск словоформ в лексиконе, позволяющий корректировать некоторые орфографические ошибки и опечатки (по умолчанию режим выключен).

Пример запуска можно найти в файле run.cmd в дистрибутиве.

Если входной файл содержит текст, уже разбитый по предложениям, так что каждое предложение находится на отдельной строке и отделено символом '\n', то можно указать параметр -eol, и парсер не будет выполнять сегментацию текста на предложения на основе своих эвристик.

Серверный режим работы парсера

Парсер спроектирован для максимально быстрого разбора больших объемов текста (десятки килобайт или сотни мегабайт). Для получения максимальной производительности парсер при запуске загружает в оперативную память всю словарную базу. Загрузка базы занимает несколько секунд. В связи с этим нерационально использовать этот парсер для разбора отдельных предложений.

Задача разбора по одному предложению может быть решена либо использованием другого парсера из SDK Грамматического Словаря, либо запуском данного парсера в режиме веб-сервиса.

Запуск в режиме сервера (см. файл http.cmd в дистрибутиве):

parser.exe -tagger 0 -parser 0 -lemmatizer 0 -d dictionary.xml -http -url 127.0.0.1 -port 10973

Параметр -o и имя входного файла в этом случае не указываются. Новые параметры:

-http включаем режим веб-сервиса.

-url 127.0.0.1 сетевой интерфейс, на котором будет висеть сервис.

-port 10973 адрес порта, через который веб-сервис будет работать по http

Дистрибутив и лицензия на парсер

В состав дистрибутива входят все необходимые словарные базы и вероятностные модели.

Конфигурация парсера по умолчанию предполагает, что им можно пользоваться сразу после распаковки, не внося каких-либо изменений в параметры.

Вы можете использовать парсер для решения любых задач в любых проектах, включая коммерческие. Парсер не содержит ограничений на объем разбираемого текста или время использования.

Скачать парсер с русской словарной базой под Win64 (84.5 Мб) Скачать парсер с русской словарной базой под Win32 (98 Мб)

  © Elijah Koziev 2010
прикладные проекты на основе грамматического словаря API грамматической машины компоненты для доступа к грамматическому словарю условия получения SDK токенизатор и сегментатор морфологический анализ и синтез лемматизатор база N-грамм синтаксический анализатор словоформы морфология и синтаксис русского языка падеж число род совершенный и несовершенный вид экспорт в SQL формат экспорт в XML формат скрипт SQL словаря структура SQL словаря структура XML словаря компоненты для доступа к грамматическому словарю ORM Persistent Dictionary Library лемматизация стемминг примеры использования грамматического словаря склонение существительных в русском языке склонение русских прилагательных спряжение глаголов в русском языке поиск текста с учетом морфологии OCR подсистема расширенные регулярные выражения генератор текста генератор случайного текста и имитатор рандомизатор синонимизатор перефразировщик Статистика буквенных паттернов

Грамматический словарь русского языка



Грамматический словарь
склонение и спряжение глаголов, существительных, прилагательных

В состав входит русский и английский словарь.

платформа:  Windows 2000 ... Windows 7
требования: 512 Mb свободной памяти, 300 Мб на диске
размер:         34 Мб

  скачать грамматический словарь купить грамматический словарь SDK грамматического словаря
грамматический словарь русского языка



SDK Грамматического словаря



SDK Грамматического Словаря
склонение и спряжение глаголов, существительных, прилагательных

В состав входит русский и английский словарь.

платформа:  Windows 2000 ... Windows 7
размер:         13 Мб

SQL словарь (демо):
sqlite mysql oracle firebird mssql

скачать демо-версию SDK купить SDK API грамматического словаря



Поисковая система



Integra
настольная и сетевая поисковая система 

платформа:  Windows XP ... Windows 7
требования: 512 Mb свободной памяти
размер:         21 Мб

Дополнительные компоненты:
MySQL поисковый сервер 13.5 Мб
Integra.Premium MySQL 3.9 Мб

скачать поисковую систему SDK поисковой системыописание поисковой системы



SDK Поисковой системы



SDK Поискового движка
API для настольной и сетевой поисковая система 

платформа:  Windows XP ... Windows 7
размер:         17 Мб

Дополнительные компоненты:

MySQL поисковый сервер 13.5 Мб
Integra.Premium MySQL 3.9 Мб

скачать SDK SDK поисковой системы



Экранный переводчик



Translator
экранный переводчик

платформа:  Windows XP ... Windows 7
требования: 256 Mb свободной памяти
размер:         4.4 Мб

Дополнительные компоненты:
расширенный англо-русский словарь 6.4 Мб


скачать экранный переводчикописание экранного переводчика



изменено 14-Oct-16