Грамматический словарь

Что это такое

Грамматический словарь состоит из нескольких подсистем. Функционально выделяются:

грамматики - алфавит, лексикон, фонетика

автоматы - морфологический анализатор, синтаксический анализатор, движок трансформаций, фонетический анализатор, логическая машина

работа со структурированным тексом - сегментатор и токенизатор

тезаурус

движок N-грамм.

Исходные материалы для наполнения словаря - это множество текстовых файлов, содержащих спецификации на языке ПРИИСК. Эти текстовые файлы обрабатываются программой компилятор словаря для получения загружаемых бинарных файлов.

В некоторых случаях удобнее работать со словарем, загруженным в реляционную базу данных, средствами SQL. Такой словарь имеет функциональные ограничения в сравнении с возможностями полного API, но зато позволяет работать с грамматикой (выполнять лемматизацию, склонять существительные и прилагательные, спрягать глаголы) на самых разных языках программирования. Кроме того, становится просто вносить изменения в словарь - SQL операторами либо с помощью Редактора Словаря SQLex.

Компиляция словаря

Словарь доступен в исходных текстах, входящих в полный пакет SDK. Чтобы преобразовать словарь в двоичную форму, более пригодную для обращения к нему другими программами, используется компилятор. Описание процесса компиляции (а также все вопросы, относящиеся к программе компилятора) можно найти здесь.

Словарь допускает также инкрементальную компиляцию, то есть добавление новых словарных статей к бинарной базе данных и пересборку модулей синтаксического анализа и трансформации без перекомпиляции лексикона, которая для многоязычных вариантов может занимать десятки минут.

Готовый собранный словарь входит в состав дистрибутива всех доступных для скачивания программ и SDK.

Версии словарей

Так как словарь не "зашит" в коде программ, а создается внешними утилитами, то появляется возможность создавать оптимизированные словари для конкретных приложений. Состав словаря очень легко регулируется через перечни включаемых в процесс сборки файлов.

К примеру, можно создавать словари для отдельных языков - русского, английского и т.д. Для полнотекстового переводчика можно собрать словарь с соответствующим набором правил трансформации текста. Для поисковой системы есть даже версия пустого словаря, который всю работу с морфологией эмулирует через стеммер.

Объем словаря

Количество словарных статей и связей в тезаурусе в текущей версии проекта можно посмотреть здесь.

Некоторая дополнительная статистика по словарю приведена в описании лексикона.

Дополнительные материалы

Ключевые особенности грамматического словаря

Внутренний язык грамматической машины

Грамматический Словарь Русского Языка

Особенности представления русской морфологии

SQL словарь

Спряжение русских глаголов

Спряжение английских глаголов

Склонение русских существительных

Склонение английских существительных

Склонение прилагательных и причастий

Русские наречия

Словообразование

Структурные единицы словаря

  © Elijah Koziev 2010
прикладные проекты на основе грамматического словаря API грамматической машины компоненты для доступа к грамматическому словарю условия получения SDK токенизатор и сегментатор морфологический анализ и синтез лемматизатор база N-грамм синтаксический анализатор словоформы морфология и синтаксис русского языка падеж число род совершенный и несовершенный вид экспорт в SQL формат экспорт в XML формат скрипт SQL словаря структура SQL словаря структура XML словаря компоненты для доступа к грамматическому словарю ORM Persistent Dictionary Library лемматизация стемминг примеры использования грамматического словаря склонение существительных в русском языке склонение русских прилагательных спряжение глаголов в русском языке поиск текста с учетом морфологии OCR подсистема расширенные регулярные выражения генератор текста генератор случайного текста и имитатор рандомизатор синонимизатор перефразировщик Статистика буквенных паттернов

Грамматический словарь русского языка



Грамматический словарь
склонение и спряжение глаголов, существительных, прилагательных

В состав входит русский и английский словарь.

платформа:  Windows 2000 ... Windows 7
требования: 512 Mb свободной памяти, 300 Мб на диске
размер:         34 Мб

  скачать грамматический словарь купить грамматический словарь SDK грамматического словаря
грамматический словарь русского языка



SDK Грамматического словаря



SDK Грамматического Словаря
склонение и спряжение глаголов, существительных, прилагательных

В состав входит русский и английский словарь.

платформа:  Windows 2000 ... Windows 7
размер:         13 Мб

SQL словарь (демо):
sqlite mysql oracle firebird mssql

скачать демо-версию SDK купить SDK API грамматического словаря



Поисковая система



Integra
настольная и сетевая поисковая система 

платформа:  Windows XP ... Windows 7
требования: 512 Mb свободной памяти
размер:         21 Мб

Дополнительные компоненты:
MySQL поисковый сервер 13.5 Мб
Integra.Premium MySQL 3.9 Мб

скачать поисковую систему SDK поисковой системыописание поисковой системы



SDK Поисковой системы



SDK Поискового движка
API для настольной и сетевой поисковая система 

платформа:  Windows XP ... Windows 7
размер:         17 Мб

Дополнительные компоненты:

MySQL поисковый сервер 13.5 Мб
Integra.Premium MySQL 3.9 Мб

скачать SDK SDK поисковой системы



Экранный переводчик



Translator
экранный переводчик

платформа:  Windows XP ... Windows 7
требования: 256 Mb свободной памяти
размер:         4.4 Мб

Дополнительные компоненты:
расширенный англо-русский словарь 6.4 Мб


скачать экранный переводчикописание экранного переводчика



изменено 05-Feb-12