Стемматизация, лемматизация и русское словообразование

Для глаголов и производных частей речи (причастий, деепричастий) в русском языке очень важную роль играет противопоставление по критерию вида:

сметь - посметь

Можно заметить, что в видовых парах семантика меняется, но это изменение во многих случаях не выходит за пределы изменения в категории времени, и просто отражает оттенок завершенности, законченности действия:

беру-брал возьму-взял

Для определенного диапазона применений, в том числе для поисковых систем, можно провести аналогию между операциями приведения к неопределенной форме глагола (беру-брать) и приведением к несовершенному виду (взять-брать). Это позволяет улучшить поисковые возможности системы без существенной потери релевантности результатов поиска.

Приведение русского глагола к неопределенной форме в подавляющем числе случаев хорошо выполняется стеммером, не говоря уже о лемматизаторе. Для стемминга сложности возникают из-за внутренней флекции, то есть появления и исчезновения гласной в корне:

брать-беру

взять-возьму

А вот приведение к несовершенному виду в русском языке выходит за рамки возможностей алгоритма стеммера, который усекает слово справа. Причина состоит в том, что в большинстве случаев противопоставление совершенного и несовершенного вида выражается не изменением суффикса, которое способен учесть стеммер (так называемая суффиксация и дезаффиксация):

махать - махнуть

достигать - достичь

а изменением приставки или корня:

покупать - купить (исчезновение префикса)

петь - спеть (префиксация)

набирать - набрать (внутренняя флексия)

брать - взять (супплетивизм)

Особняком стоят видовые пары, в которых разница выражается только в устной речи переносом ударения:

нарезать - нарезать,

а также двухвидовые глаголы, для которых вид определяется только в контексте:

повстанцы атаковали позиции регулярных частей всю ночь (несовершенный вид, длительное действие)

утром регулярные части атаковали позиции повстанцев (совершенный вид, однократное действие)

Дополнительные материалы

Стеммер

Вызов стеммера в прикладном коде

Алгоритмы русской морфологии

Глубокая нормализация текста

Лемматизатор

  © Elijah Koziev 2010
прикладные проекты на основе грамматического словаря API грамматической машины компоненты для доступа к грамматическому словарю условия получения SDK токенизатор и сегментатор морфологический анализ и синтез лемматизатор база N-грамм синтаксический анализатор словоформы морфология и синтаксис русского языка падеж число род совершенный и несовершенный вид экспорт в SQL формат экспорт в XML формат скрипт SQL словаря структура SQL словаря структура XML словаря компоненты для доступа к грамматическому словарю ORM Persistent Dictionary Library лемматизация стемминг примеры использования грамматического словаря склонение существительных в русском языке склонение русских прилагательных спряжение глаголов в русском языке поиск текста с учетом морфологии OCR подсистема расширенные регулярные выражения генератор текста генератор случайного текста и имитатор рандомизатор синонимизатор перефразировщик Статистика буквенных паттернов

Грамматический словарь русского языка



Грамматический словарь
склонение и спряжение глаголов, существительных, прилагательных

В состав входит русский и английский словарь.

платформа:  Windows 2000 ... Windows 7
требования: 512 Mb свободной памяти, 300 Мб на диске
размер:         34 Мб

  скачать грамматический словарь купить грамматический словарь SDK грамматического словаря
грамматический словарь русского языка



SDK Грамматического словаря



SDK Грамматического Словаря
склонение и спряжение глаголов, существительных, прилагательных

В состав входит русский и английский словарь.

платформа:  Windows 2000 ... Windows 7
размер:         13 Мб

SQL словарь (демо):
sqlite mysql oracle firebird mssql

скачать демо-версию SDK купить SDK API грамматического словаря



Поисковая система



Integra
настольная и сетевая поисковая система 

платформа:  Windows XP ... Windows 7
требования: 512 Mb свободной памяти
размер:         21 Мб

Дополнительные компоненты:
MySQL поисковый сервер 13.5 Мб
Integra.Premium MySQL 3.9 Мб

скачать поисковую систему SDK поисковой системыописание поисковой системы



SDK Поисковой системы



SDK Поискового движка
API для настольной и сетевой поисковая система 

платформа:  Windows XP ... Windows 7
размер:         17 Мб

Дополнительные компоненты:

MySQL поисковый сервер 13.5 Мб
Integra.Premium MySQL 3.9 Мб

скачать SDK SDK поисковой системы



Экранный переводчик



Translator
экранный переводчик

платформа:  Windows XP ... Windows 7
требования: 256 Mb свободной памяти
размер:         4.4 Мб

Дополнительные компоненты:
расширенный англо-русский словарь 6.4 Мб


скачать экранный переводчикописание экранного переводчика



изменено [an error occurred while processing this directive]