Метастатьи в лексиконе

Метастатьи - это способ группировки словарных статей по определенным признакам, к примеру по одинаковой синтаксической функции или по семантической эквивалентности.

В отличие от словарных статей, метастатьи не хранят грамматические формы и грамматические атрибуты объединяемых статей. Вместо этого они хранят только список идентификаторов (первичных ключей) словарных статей.

Метастатьи являются исключительно внутренним механизмом, не доступным через процедурный API. Прикладной код не может добавлять или изменять метастатьи. Единственный способ модификации списка метастатей - пересборка лексикона.

Рассмотрим два примера, когда метастатьи оказываются удобным способом упростить описание русской грамматики.

Среди особенностей реализации русской грамматики в словаре можно отметить выделение инфинитивов, деепричастий и причастий в отдельные части речи. В общем случае может быть 2 причастные формы - прошедшего и настоящего времени: делающий, делавший; от одной до трех деепричастных форм - делая, делав, делавши. Кроме того, для большинства инфинитивов есть отдельная глагольная статья.

Для синтаксического анализатора русского текста очень важное значение имеет правильное описание предложной валентности, то есть возможности присоединения предложного дополнения с именной частью в определенном падеже:

я живу в Берлине

я еду в Берлин

Часть глаголов допускает присоединение паттернов в+сущ в винительном падеже, другая часть - в предложном, а некоторые позволяют присоединять оба варианта. Чтобы синтаксический анализатор знал, когда можно выполнять связывание предложного дополнения, русский раздел словаря содержит специальную базу знаний, в которой перечисляются соответствующие глаголы. Нетрудно убедиться, что в подавляющем большинстве случаев глаголы, причастия и деепричастия ведут себя в плане связывания с предложным дополнением, полностью одинаково. Поэтому в базе знаний необходимо прописывать для каждого случая отдельно глагол, все причастия и деепричастия. Этот рутинный процесс можно многократно упростить с помощью метастатей. В русском лексиконе объявлены метастьи типа rus_verbs, каждая из которых объединяет инфинитив, глагол и образованные от него причастия и деепричастия.

Другой пример использования метастатьей заключается в объединении уменьшительных и увеличительных вариантов слов. К примеру, для разрешения омонимии цвет-цветы можно использовать механизм ассоциаций со словами букет и оттенок:

букет цветов (цветы)

оттенки цветов (цвет)

С точки зрения ассоциаций уменьшительные и увеличительные формы букетик, букетище, оттенок ведут себя так же, как нейтральные формы. Поэтому для экономии сил мы объявляем метастьи, объединяющие уменьшительные и увеличительные формы существительных, и затем используем ссылки на эти метастатьи при объявлении ассоциаций.

Объявление метастатьи

Метастаться объявляется так:

metaentry расселять : rus_verbs
{
 инфинитив:расселять{}
 глагол:расселять{}
 деепричастие:расселяя{}
 прилагательное:расселяемый{}
 прилагательное:расселявший{}
 прилагательное:расселяющий{}
}

Шапка метастатьи содержит условное имя расселять, которое в данном случае из соображений удобства взято совпадающим с инфинитивом, и название специальной части речи rus_verbs. Конечно, часть речи должна быть объявлена заранее.

Тело метастатьи в фигурных скобочках содержит перечень ссылок на словарные статьи в виде пар из названия части речи и имени словарной статьи.

Компилятор запрещает объявлять метастатью с таким же именем и для той же части речи, как уже есть среди ранее объявленных.

  © Elijah Koziev 2010
прикладные проекты на основе грамматического словаря API грамматической машины компоненты для доступа к грамматическому словарю условия получения SDK токенизатор и сегментатор морфологический анализ и синтез лемматизатор база N-грамм синтаксический анализатор словоформы морфология и синтаксис русского языка падеж число род совершенный и несовершенный вид экспорт в SQL формат экспорт в XML формат скрипт SQL словаря структура SQL словаря структура XML словаря компоненты для доступа к грамматическому словарю ORM Persistent Dictionary Library лемматизация стемминг примеры использования грамматического словаря склонение существительных в русском языке склонение русских прилагательных спряжение глаголов в русском языке поиск текста с учетом морфологии OCR подсистема расширенные регулярные выражения генератор текста генератор случайного текста и имитатор рандомизатор синонимизатор перефразировщик Статистика буквенных паттернов

Грамматический словарь русского языка



Грамматический словарь
склонение и спряжение глаголов, существительных, прилагательных

В состав входит русский и английский словарь.

платформа:  Windows 2000 ... Windows 7
требования: 512 Mb свободной памяти, 300 Мб на диске
размер:         34 Мб

  скачать грамматический словарь купить грамматический словарь SDK грамматического словаря
грамматический словарь русского языка



SDK Грамматического словаря



SDK Грамматического Словаря
склонение и спряжение глаголов, существительных, прилагательных

В состав входит русский и английский словарь.

платформа:  Windows 2000 ... Windows 7
размер:         13 Мб

SQL словарь (демо):
sqlite mysql oracle firebird mssql

скачать демо-версию SDK купить SDK API грамматического словаря



Поисковая система



Integra
настольная и сетевая поисковая система 

платформа:  Windows XP ... Windows 7
требования: 512 Mb свободной памяти
размер:         21 Мб

Дополнительные компоненты:
MySQL поисковый сервер 13.5 Мб
Integra.Premium MySQL 3.9 Мб

скачать поисковую систему SDK поисковой системыописание поисковой системы



SDK Поисковой системы



SDK Поискового движка
API для настольной и сетевой поисковая система 

платформа:  Windows XP ... Windows 7
размер:         17 Мб

Дополнительные компоненты:

MySQL поисковый сервер 13.5 Мб
Integra.Premium MySQL 3.9 Мб

скачать SDK SDK поисковой системы



Экранный переводчик



Translator
экранный переводчик

платформа:  Windows XP ... Windows 7
требования: 256 Mb свободной памяти
размер:         4.4 Мб

Дополнительные компоненты:
расширенный англо-русский словарь 6.4 Мб


скачать экранный переводчикописание экранного переводчика



изменено 04-Nov-12