Таблицы SG_COORD, SG_STATE и COORD_PAIRS как справочники грамматических атрибутов

Отличительной чертой грамматического словаря является то, что для каждого слова в лексиконе кроме его текстового представления хранятся грамматические пометы. Например, для каждого имени существительного в русском языке словарь хранить данные о его грамматическом роде и одушевленности. В английском словаре для каждого глагола указывается его переходность. Для всех изменяемых частей речи каждая форма слова также имеет набор пометок, определяющая отличия этой формы от других форм слова. Например, для английского существительного обычно есть две грамматические формы, соответствующие единственному и множественному числу, а также в некоторых случаях - две дополнительные притяжательные формы.

В данном уроке мы познакомимся с тем, как в грамматическом словаре организованы справочники грамматических атрибутов.

Таблица SG_COORD

Эта таблица хранит перечень используемых грамматических атрибутов. Для каждого атрибута хранится его название name и первичный ключ id, который используется по всех случаях при ссылке на данных атрибут.

Еще одно поле bistable принимает значение 1 в случае, когда грамматический атрибут неявно может принимать значения 0 или 1 (true или false). В качестве примера рассмотрим атрибут МОДАЛЬНЫЙ:

SELECT *
 FROM  sg_coord
 WHERE name='МОДАЛЬНЫЙ'

Данным атрибутом помечаются те словарные статьи, которые могут в словосочетаниях управлять инфинитивом. Так как подавляющее число слов в русском языке не обладают таким синтаксическим свойством, то разумно помечать как МОДАЛЬНЫЕ только небольшое подмножество слов, оставляя остальные без специальной пометки о немодальности. При этом подразумевается, что отсутствие пометки МОДАЛЬНЫЙ равнозначно наличию пометки МОДАЛЬНЫЙ:0.

В других случаях у грамматического атрибута может быть несколько допустимых значений. Например, категория числа в русском языке допускает варианты единственное и множественное. В таблице SG_COORD хранится запись для 'ЧИСЛО', а значения хранятся в связанном справочнике SG_STATE.

Таблица SG_STATE - справочник значений атрибутов

Для большинства грамматических атрибутов кроме названия категории есть набор принимаемых значений. Каждое из значений (состояний) хранится как запись в таблице SG_STATE. Так как каждое значение привязано к единственному грамматическому атрибуту, то для получения их списка можно воспользоваться внешним ключом sg_coord.id=sg_state.id_coord. Например, возможные состояния для атрибута ПАДЕЖ извлекаются таким запросом:

SELECT S.name
 FROM  sg_coord C, sg_state S
 WHERE C.name='ПАДЕЖ' AND S.id_coord=C.id
 ORDER BY S.id

Сортировка по первичному ключу sg_state.id добавлена из эстетических соображений, чтобы именительный падеж с названием состояния 'ИМ' был на первом месте в выдаче. В результате его выполнения получим:

ИМ
ЗВАТ
РОД
ПАРТ
СЧЕТН
ТВОР
ВИН
ДАТ
ПРЕДЛ
ОТЛОЖ
МЕСТ

Видно, что перечислены все основные и вспомогательные падежи русской морфологии.

Связка из двух первичных ключей sg_coord.id+sg_state.id однозначно идентифицирует единственный грамматический атрибут. В справочных материалах сайта она часто называется координатной парой.

Каждая словарная статья и каждая форма слова помечены набором координатных пар. Это позволяет выполнять морфологический разбор слов, склонять, спрягать и получать нужную грамматическую форму слова с заданными атрибутами. В целях улучшения производительности словарной базы наборы координатных пар хранятся в отдельном справочнике COORD_PAIRS. Подробнее о содержимом этого справочника и методах запросов к нему читайте информацию на этой странице.

В следующих уроках мы научимся использовать таблицы sg_coord, sg_state и coord_pairs при работе со словарными статьями и формами слов.

Следующие уроки

Определение грамматического рода существительных

Определение падежа и числа для существительного

Дополнительные материалы по работе со словарной базой

Купить словарную базу русской морфологии

Реляционная схема словарной базы

Склонение существительных в русском языке

Спряжение глаголов в русском языке

Склонение прилагательных и причастий в русском языке

  © Elijah Koziev 2010
прикладные проекты на основе грамматического словаря API грамматической машины компоненты для доступа к грамматическому словарю условия получения SDK токенизатор и сегментатор морфологический анализ и синтез лемматизатор база N-грамм синтаксический анализатор словоформы морфология и синтаксис русского языка падеж число род совершенный и несовершенный вид экспорт в SQL формат экспорт в XML формат скрипт SQL словаря структура SQL словаря структура XML словаря компоненты для доступа к грамматическому словарю ORM Persistent Dictionary Library лемматизация стемминг примеры использования грамматического словаря склонение существительных в русском языке склонение русских прилагательных спряжение глаголов в русском языке поиск текста с учетом морфологии OCR подсистема расширенные регулярные выражения генератор текста генератор случайного текста и имитатор рандомизатор синонимизатор перефразировщик Статистика буквенных паттернов

Грамматический словарь русского языка



Грамматический словарь
склонение и спряжение глаголов, существительных, прилагательных

В состав входит русский и английский словарь.

платформа:  Windows 2000 ... Windows 7
требования: 512 Mb свободной памяти, 300 Мб на диске
размер:         34 Мб

  скачать грамматический словарь купить грамматический словарь SDK грамматического словаря
грамматический словарь русского языка



SDK Грамматического словаря



SDK Грамматического Словаря
склонение и спряжение глаголов, существительных, прилагательных

В состав входит русский и английский словарь.

платформа:  Windows 2000 ... Windows 7
размер:         13 Мб

SQL словарь (демо):
sqlite mysql oracle firebird mssql

скачать демо-версию SDK купить SDK API грамматического словаря



Поисковая система



Integra
настольная и сетевая поисковая система 

платформа:  Windows XP ... Windows 7
требования: 512 Mb свободной памяти
размер:         21 Мб

Дополнительные компоненты:
MySQL поисковый сервер 13.5 Мб
Integra.Premium MySQL 3.9 Мб

скачать поисковую систему SDK поисковой системыописание поисковой системы



SDK Поисковой системы



SDK Поискового движка
API для настольной и сетевой поисковая система 

платформа:  Windows XP ... Windows 7
размер:         17 Мб

Дополнительные компоненты:

MySQL поисковый сервер 13.5 Мб
Integra.Premium MySQL 3.9 Мб

скачать SDK SDK поисковой системы



Экранный переводчик



Translator
экранный переводчик

платформа:  Windows XP ... Windows 7
требования: 256 Mb свободной памяти
размер:         4.4 Мб

Дополнительные компоненты:
расширенный англо-русский словарь 6.4 Мб


скачать экранный переводчикописание экранного переводчика



изменено 19-Feb-12