Библиотека содержит грамматическую информацию (тэгсеты) для 329 000 русских словарных статей, 2 755 000 уникальных словарных форм. |
Токенизатор умеет обрабатывать составные слова русской лексики, например "куда-либо". |
Библиотека позволяет определить грамматические признаки, включая часть речи, падеж, число и т.д.,
для слов с учетом контекста в предложнии. Входящая в состав библиотеки языковая
модель позволяет снять омонимию во многих случаях, например "мой" - притяжательное
прилагательное или императив глагола. |
Библиотека выполняет лемматизацию - приведение слов к нормальной (словарной) форме
с учетом контекста в предложении. |
Для R&D экспериментов при решении NLP задач бывает полезно использовать такие признаки слов,
как слоги. |
Скачать демо-версию
Windows 32 |
Windows 64 |
Linux 32 |
Linux 64