Инструменты для NLP разработчика: лексика, морфология, синтаксис русского языка

ruword2tags - грамматический словарь русского языка для Python 2/3

Библиотека содержит грамматическую информацию (тэгсеты) для 329 000 русских словарных статей, 2 755 000 уникальных словарных форм.
Информация об установке и использовании доступна на странице github-репозитория.

rutokenizer - токенизатор и сегментатор русскоязычного текста для Python 2/3

Токенизатор умеет обрабатывать составные слова русской лексики, например "куда-либо".
Информация об установке и использовании доступна на странице github-репозитория.

rupostagger - частеречная разметка русскоязычного текста для Python 2/3

Библиотека позволяет определить грамматические признаки, включая часть речи, падеж, число и т.д., для слов с учетом контекста в предложнии. Входящая в состав библиотеки языковая модель позволяет снять омонимию во многих случаях, например "мой" - притяжательное прилагательное или императив глагола.
Информация об установке и использовании доступна на странице github-репозитория.

rulemma - лемматизация русскоязычного текста для Python 2/3

Библиотека выполняет лемматизацию - приведение слов к нормальной (словарной) форме с учетом контекста в предложении.
В состав лемматизатора входит модель для обработки out-of-vocabulary слов (отсутствующих в русском лексиконе).
Информация об установке и использовании доступна на странице github-репозитория.

rusyllab - разбивка слов на слоги для Python 2/3

Для R&D экспериментов при решении NLP задач бывает полезно использовать такие признаки слов, как слоги.
Информация об установке и использовании доступна на странице github-репозитория.

Парсер - лемматизатор, морфологический и синтаксический анализатор текста на C++
SDK Грамматического Словаря Русского Языка для C++/C#

Скачать демо-версию Windows 32 |  Windows 64 |  Linux 32 |  Linux 64

SQL Словарь Русского Языка

Скачать демо-версию для SQLite |  MySQL |  MSSQL | 

© Козиев Илья 2019   |   контакты   |   github   |   блог