Грамматический словарь: особенности описания русской морфологии

1. В хранящихся в лексиконе парадигмах нет информации об ударениях. Это никак не отражается на возможностях автоматической обработки текста, например в поисковой системе. Тем не менее надо отметить, что в немногочисленных случаях такое огрубление приводит к неразличимости словоформ. К примеру:

дóктора (ед.ч. род.п.) и докторá (мн.ч. им.п)

выкупа́ть (несов. вид) - вы́купать (сов. вид)

В некоторых случаях отсутствие ударения приводить к неразличимости двух слов со всеми словоформами, например:

пора́-по́ра

Для восстановления информации об ударении и отображении её в программе используется дополнительная таблица слов с проставленными ударениями, хранящаяся в тезаурусе.

2. Аналогичное упрощение применено в отношении буквы ё, и это также в редких случаях приводит к совпадению словоформ:

зерна́ (ед.ч. род.п.) - зёрна (мн.ч. им.п.)

Для ёфикации отображаемых программой словоформ используется дополнительная информация в тезаурусе.

3. Парадигма глагола разбита на несколько грамматических классов:

инфинитивы

деепричастия

причастия

собственно глаголы

Причем причастия объединены с прилагательными в один грамматический класс. Это означает также, что прошедшее и настоящее время причастий несовершенного вида разбито на отдельные словарные статьи плававший-плавающий, так же как и страдательный и действительный залог для причастий совершенного вида сделавший-сделанный. Подробнее см. здесь.

4. Для глаголов в лексиконе хранится информация о модальности (управлении инфинитивом), и переходности (управление прямым дополнением), а также детальная структура переходности - падежная валентность, то есть управление существительными в определенных падежах кроме именительного. Подробнее см. здесь.

Например, модальный глагол решить в решить поплавать.

Переходный глагол выпить является переходным, падежная валентность включает в себя родительный и винительный падежи выпить молока, выпить стакан молока.

5. В некоторых случаях для глаголов указывается форма множественного числа 1го лица повелительного наклонения: идёмте.

6. Для наречий в некоторых случаях указывается сравнительная степень, причем соответствующих форм может быть несколько: тихо-тише-потише.

7. Для предлогов (как и для глаголов) хранится падежная валентность.

8. Значительную часть тезауруса составляют грамматические связи, отражающие прежде всего словообразование. В частности, именно грамматические связи позволяют объединить разбитую на инфинитивы, деепричастия, причастия и глаголы парадигму.

Примеры грамматических связей:

сила-сильный-сильно

усиление-усиливать-усилить-усиливая-усиливающий-усиленный-усиливаться-усиливающийся-усилиться-усилившийся-усилившись

9. Другая группа связей в тезаурусе - семантические, в том числе:

синонимы: собака-псина

антонимы: ярко-тускло

уменьшительно-ласкательные формы: страшный-страшненький

увеличительные формы: рука-ручища

грубые формы: кот-котяра

книжный стиль: разброс-дисперсия

актор: фотографировать-фотограф

действие: фотограф-фотографирование

гипонимы и гиперонимы: муха-насекомое

В группу семантических связей можно отнести также:

гендерные синонимы/антонимы: директор-директриса

Подробнее о них здесь.

10. Грамматический движок позволяет собирать различные конфигурации словарей, в том числе одно- и многоязычные. В состав дистрибутива программы входит двуязычный англо-русский словарь, в тезаурусе которого есть переводы - связи между русскими и английскими словарными статьями. Если собрать словарь с несколькими языками, то программа без каких-либо модификаций будет отображать все возможные переводы между всеми языками:

многоязычный словарь

11. При составлении словарей не ставилась цель зафиксировать литературную норму языка. Напротив, техника пополнения словаря, включающая частотный анализ текстов с помощью утилиты Empirika, подразумевает, что в лексикон попадают просторечные, вульгарные формы, если они достаточно часты. Например, для существительного шофёр в лексиконе присутствуют две формы множественного числа именительного падежа - нормальная шофёры и просторечная шофера́. Некоторую статистику по словарю можно посмотреть здесь.

12. В силу двух причин: 1) из-за используемой методики наполнения словаря на основе частотного анализа текстов, 2) разделения парадигмы глагола на инфинитивы, деепричастия, причастия и глаголы, не для всех инфинитивов есть глагольные словарные статьи

. Впрочем, для всех деепричастий и глагольных статей есть инфинитивы.

13. Для наречий в одну словарную статью группируются сравнительные формы, по аналогии с прилагательными. Подробнее смотрите здесь.

14. Для существительных, не имеющих форм единственного числа, категорию грамматического рода следует игнорировать. Подробнее смотрите здесь.

15. Слова, образованные с помощью приставки не-, обычно (но не всегда) являющиеся антонимами для исходных слов, представлены в лексиконе не исчерпывающе - преимущественно внесены часто употребимые слова. Подробнее смотрите здесь.

Скачать и купить Грамматический Словарь

Дополнительные материалы

Грамматический движок

Лексикон

Тезаурус

Грамматический Словарь Русского Языка

Статистическая информация по словарным статьям в грамматическом словаре

Сравнительные и превосходные степени наречий

Связи по биологическому полу и грамматическому роду

Грамматический род у существительных без форм единственного числа

Слова с приставкой не- в грамматическом словаре

Словообразование в грамматическом словаре

Описание русских глаголов в грамматическом словаре

Русские прилагательные и причастия

Модальность глаголов и других частей речи в грамматическом словаре

Склонение существительных

  © Козиев Илья 2019
изменено 05-Feb-12