Грамматический словарь: особенности описания русской морфологии

1. В хранящихся в лексиконе парадигмах нет информации об ударениях. Это никак не отражается на возможностях автоматической обработки текста, например в поисковой системе. Тем не менее надо отметить, что в немногочисленных случаях такое огрубление приводит к неразличимости словоформ. К примеру:

дóктора (ед.ч. род.п.) и докторá (мн.ч. им.п)

выкупа́ть (несов. вид) - вы́купать (сов. вид)

В некоторых случаях отсутствие ударения приводить к неразличимости двух слов со всеми словоформами, например:

пора́-по́ра

Для восстановления информации об ударении и отображении её в программе используется дополнительная таблица слов с проставленными ударениями, хранящаяся в тезаурусе.

2. Аналогичное упрощение применено в отношении буквы ё, и это также в редких случаях приводит к совпадению словоформ:

зерна́ (ед.ч. род.п.) - зёрна (мн.ч. им.п.)

Для ёфикации отображаемых программой словоформ используется дополнительная информация в тезаурусе.

3. Парадигма глагола разбита на несколько грамматических классов:

инфинитивы

деепричастия

причастия

собственно глаголы

Причем причастия объединены с прилагательными в один грамматический класс. Это означает также, что прошедшее и настоящее время причастий несовершенного вида разбито на отдельные словарные статьи плававший-плавающий, так же как и страдательный и действительный залог для причастий совершенного вида сделавший-сделанный. Подробнее см. здесь.

4. Для глаголов в лексиконе хранится информация о модальности (управлении инфинитивом), и переходности (управление прямым дополнением), а также детальная структура переходности - падежная валентность, то есть управление существительными в определенных падежах кроме именительного. Подробнее см. здесь.

Например, модальный глагол решить в решить поплавать.

Переходный глагол выпить является переходным, падежная валентность включает в себя родительный и винительный падежи выпить молока, выпить стакан молока.

5. В некоторых случаях для глаголов указывается форма множественного числа 1го лица повелительного наклонения: идёмте.

6. Для наречий в некоторых случаях указывается сравнительная степень, причем соответствующих форм может быть несколько: тихо-тише-потише.

7. Для предлогов (как и для глаголов) хранится падежная валентность.

8. Значительную часть тезауруса составляют грамматические связи, отражающие прежде всего словообразование. В частности, именно грамматические связи позволяют объединить разбитую на инфинитивы, деепричастия, причастия и глаголы парадигму.

Примеры грамматических связей:

сила-сильный-сильно

усиление-усиливать-усилить-усиливая-усиливающий-усиленный-усиливаться-усиливающийся-усилиться-усилившийся-усилившись

9. Другая группа связей в тезаурусе - семантические, в том числе:

синонимы: собака-псина

антонимы: ярко-тускло

уменьшительно-ласкательные формы: страшный-страшненький

увеличительные формы: рука-ручища

грубые формы: кот-котяра

книжный стиль: разброс-дисперсия

актор: фотографировать-фотограф

действие: фотограф-фотографирование

гипонимы и гиперонимы: муха-насекомое

В группу семантических связей можно отнести также:

гендерные синонимы/антонимы: директор-директриса

Подробнее о них здесь.

10. Грамматический движок позволяет собирать различные конфигурации словарей, в том числе одно- и многоязычные. В состав дистрибутива программы входит двуязычный англо-русский словарь, в тезаурусе которого есть переводы - связи между русскими и английскими словарными статьями. Если собрать словарь с несколькими языками, то программа без каких-либо модификаций будет отображать все возможные переводы между всеми языками:

многоязычный словарь

11. При составлении словарей не ставилась цель зафиксировать литературную норму языка. Напротив, техника пополнения словаря, включающая частотный анализ текстов с помощью утилиты Empirika, подразумевает, что в лексикон попадают просторечные, вульгарные формы, если они достаточно часты. Например, для существительного шофёр в лексиконе присутствуют две формы множественного числа именительного падежа - нормальная шофёры и просторечная шофера́. Некоторую статистику по словарю можно посмотреть здесь.

12. В силу двух причин: 1) из-за используемой методики наполнения словаря на основе частотного анализа текстов, 2) разделения парадигмы глагола на инфинитивы, деепричастия, причастия и глаголы, не для всех инфинитивов есть глагольные словарные статьи

. Впрочем, для всех деепричастий и глагольных статей есть инфинитивы.

13. Для наречий в одну словарную статью группируются сравнительные формы, по аналогии с прилагательными. Подробнее смотрите здесь.

14. Для существительных, не имеющих форм единственного числа, категорию грамматического рода следует игнорировать. Подробнее смотрите здесь.

15. Слова, образованные с помощью приставки не-, обычно (но не всегда) являющиеся антонимами для исходных слов, представлены в лексиконе не исчерпывающе - преимущественно внесены часто употребимые слова. Подробнее смотрите здесь.

Скачать и купить Грамматический Словарь

Дополнительные материалы

Грамматический движок

Лексикон

Тезаурус

Грамматический Словарь Русского Языка

Статистическая информация по словарным статьям в грамматическом словаре

Сравнительные и превосходные степени наречий

Связи по биологическому полу и грамматическому роду

Грамматический род у существительных без форм единственного числа

Слова с приставкой не- в грамматическом словаре

Словообразование в грамматическом словаре

Описание русских глаголов в грамматическом словаре

Русские прилагательные и причастия

Модальность глаголов и других частей речи в грамматическом словаре

Склонение существительных

  © Elijah Koziev 2010
прикладные проекты на основе грамматического словаря API грамматической машины компоненты для доступа к грамматическому словарю условия получения SDK токенизатор и сегментатор морфологический анализ и синтез лемматизатор база N-грамм синтаксический анализатор словоформы морфология и синтаксис русского языка падеж число род совершенный и несовершенный вид экспорт в SQL формат экспорт в XML формат скрипт SQL словаря структура SQL словаря структура XML словаря компоненты для доступа к грамматическому словарю ORM Persistent Dictionary Library лемматизация стемминг примеры использования грамматического словаря склонение существительных в русском языке склонение русских прилагательных спряжение глаголов в русском языке поиск текста с учетом морфологии OCR подсистема расширенные регулярные выражения генератор текста генератор случайного текста и имитатор рандомизатор синонимизатор перефразировщик Статистика буквенных паттернов

Грамматический словарь русского языка



Грамматический словарь
склонение и спряжение глаголов, существительных, прилагательных

В состав входит русский и английский словарь.

платформа:  Windows 2000 ... Windows 7
требования: 512 Mb свободной памяти, 300 Мб на диске
размер:         34 Мб

  скачать грамматический словарь купить грамматический словарь SDK грамматического словаря
грамматический словарь русского языка



SDK Грамматического словаря



SDK Грамматического Словаря
склонение и спряжение глаголов, существительных, прилагательных

В состав входит русский и английский словарь.

платформа:  Windows 2000 ... Windows 7
размер:         13 Мб

SQL словарь (демо):
sqlite mysql oracle firebird mssql

скачать демо-версию SDK купить SDK API грамматического словаря



Поисковая система



Integra
настольная и сетевая поисковая система 

платформа:  Windows XP ... Windows 7
требования: 512 Mb свободной памяти
размер:         21 Мб

Дополнительные компоненты:
MySQL поисковый сервер 13.5 Мб
Integra.Premium MySQL 3.9 Мб

скачать поисковую систему SDK поисковой системыописание поисковой системы



SDK Поисковой системы



SDK Поискового движка
API для настольной и сетевой поисковая система 

платформа:  Windows XP ... Windows 7
размер:         17 Мб

Дополнительные компоненты:

MySQL поисковый сервер 13.5 Мб
Integra.Premium MySQL 3.9 Мб

скачать SDK SDK поисковой системы



Экранный переводчик



Translator
экранный переводчик

платформа:  Windows XP ... Windows 7
требования: 256 Mb свободной памяти
размер:         4.4 Мб

Дополнительные компоненты:
расширенный англо-русский словарь 6.4 Мб


скачать экранный переводчикописание экранного переводчика



изменено 05-Feb-12