Стемматизация, лемматизация и русское словообразование

Для глаголов и производных частей речи (причастий, деепричастий) в русском языке очень важную роль играет противопоставление по критерию вида:

сметь - посметь

Можно заметить, что в видовых парах семантика меняется, но это изменение во многих случаях не выходит за пределы изменения в категории времени, и просто отражает оттенок завершенности, законченности действия:

беру-брал возьму-взял

Для определенного диапазона применений, в том числе для поисковых систем, можно провести аналогию между операциями приведения к неопределенной форме глагола (беру-брать) и приведением к несовершенному виду (взять-брать). Это позволяет улучшить поисковые возможности системы без существенной потери релевантности результатов поиска.

Приведение русского глагола к неопределенной форме в подавляющем числе случаев хорошо выполняется стеммером, не говоря уже о лемматизаторе. Для стемминга сложности возникают из-за внутренней флекции, то есть появления и исчезновения гласной в корне:

брать-беру

взять-возьму

А вот приведение к несовершенному виду в русском языке выходит за рамки возможностей алгоритма стеммера, который усекает слово справа. Причина состоит в том, что в большинстве случаев противопоставление совершенного и несовершенного вида выражается не изменением суффикса, которое способен учесть стеммер (так называемая суффиксация и дезаффиксация):

махать - махнуть

достигать - достичь

а изменением приставки или корня:

покупать - купить (исчезновение префикса)

петь - спеть (префиксация)

набирать - набрать (внутренняя флексия)

брать - взять (супплетивизм)

Особняком стоят видовые пары, в которых разница выражается только в устной речи переносом ударения:

нарезать - нарезать,

а также двухвидовые глаголы, для которых вид определяется только в контексте:

повстанцы атаковали позиции регулярных частей всю ночь (несовершенный вид, длительное действие)

утром регулярные части атаковали позиции повстанцев (совершенный вид, однократное действие)

Дополнительные материалы

Стеммер

Вызов стеммера в прикладном коде

Алгоритмы русской морфологии

Глубокая нормализация текста

Лемматизатор

  © Козиев Илья 2019
изменено [an error occurred while processing this directive]