Деривативы в тезаурусе

Отглагольные существительные, номинализация и субстантивация

Для многих глаголов и прилагательных есть однокоренные существительные, обозначающие качество или явление как предмет:

краснеть-красный-краснота,покраснение

Такой процесс образования существительных называется номинализацией. В случаях, когда существительное образуется без использования или удаления суффикса, говорят о субстантивации. Однако для формирования тезауруса интерес представляет только частичная субстантивация, при которой слово употребляется и как существительное, и как прилагательное:

ванная комната - ванная

Таких пар в русском языке очень немного.

Если говорить о более широком явлении номинализации, то русский тезаурус содержит очень много записей данного типа, включая экзотические деривативы типа:

валять дурака - дуракаваляние

В английском тезаурусе также есть соответствующие связи, хотя аналитический строй этого языка обуславливает очень большое количество слов, относящихся к разным частям речи, но совпадающих в базовой словарной форме:

to run - run (as noun)

Номинализация с помощью присоединения одного из нескольких суффиксов также широко используется в английском языке:

to transform - transformation

Герундий

Особенность английского языка, которая отсутствует в русском - герундий, особая форма глагола, выступающая в роли существительного, обозначающего процесс:

Thinking is a mental process ...

В ряде случаев формы герундия внесены в английский лексикон как существительные. Чтобы сохранить связь с оригинальным глаголом, в тезаурус вносится пара соответствующих записей - от глагола к существительному-герундию, и обратная связь.

Совершенный и несовершенный вид глагола

Наличие в русском языке вида глагола и видовых пар служит основанием для существования в русском тезаурусе большой группы связей между однокоренными глаголами совершенного и несовершенного вида:

делать-сделать

краснеть-покраснеть

Глагол, инфинитив, причастие, деепричастие

В силу особенностей описания глаголов в русском языке, имеется целая группа частей речи, связанная с глаголом:

собственно глагол

инфинитив - неопределенная форма глагола

деепричастие, синтаксически подобное наречию

причастие, склоняющееся как прилагательное по родам, числам и падежам, хотя и не имеющая сравнительных и превосходных форм.

Все эти части речи объединяет некоторый набор морфологических признаков, присущих глаголу. Разумеется, главный из них - совершенный и несовершенный вид, определяющий грамматические свойства причастий и деепричастий:

делая-сделав

делающий-сделавший

В рамках грамматического словаря основой для описания глагола является инфинитив. Остальные части речи наследуют свойства глагола в буквальном смысле слова - указание конкретного инфинитива как первоосновы заставляет словарь в ходе сборки брать признаки вида, переходность, падежную валентность и модальность из словарной статьи неопределенной формы.

Связь с инфинитивом-первоосновой вносится также в тезаурус. Это позволяет выполнять, к примеру, при полнотекстовом переводе необходимое преобразование оригинального текста в присущие русскому языку средства выражения.

Прилагательные и адъективное словообразование в тезаурусе

Так как причастия в рамках описания русской грамматики объединены с прилагательными, то в данную группу деривативов автоматически попадают связи причастий с порождающими глаголами.

Помимо этого, имеется большое количество отглагольных и отсубстантивных прилагательных, образованных обычно суффиксальным или префиксально-суффиксальным способом, связь которых с исходным существительным или глаголом фиксируется в тезаурусе:

Коля - колин

девочка - девочкин

колдовство - колдовской

сгибать - несгибаемый

Можно также упомянуть и такие пары существительное-прилагательное, как:

Нижний Новгород - нижегородский

Некоторые более сложные способы словообразования прилагательных не находят отражения в тезаурусе, так как описывают отношения большего чем 2, количества слов:

сложение американо-германский

сложение с суффиксацией двусложный

сращение вечнозеленый

сращение с суффиксациейникчемный, безосновательный

сложносоставной способ образования какой-никакой

Объем информации в тезаурусе

Дериваты - это самый многочисленный тип связей в тезаурусе. Количество связей каждого типа в текущей версии словаря, загруженной в реляционную базу данных, можно посмотреть на этой странице. В таблице о составе тезауруса каждый тип связи идет под своим уникальным обозначением. В частности, к деривативам относятся связи с названиями в_сущ, в_инфинитив, в_предикат, в_прил, в_наречие, в_деепричастие, в_сов, в_несов, в_ся, без_ся.

Получение дериватов в прикладном коде

Для доступа к тезаурусу можно применять процедурный API, ORM библиотеку или напрямую обращаться к базе данных через SQL запросы.

Для поиска дериватов любым из вышеперечисленных методов необходимо иметь 2 значения. Во-первых, нужен первичный ключ словарной статьи. Во-вторых, необходимо иметь числовое значение для константы типа связи.

Первичный ключ словарной статьи можно получить разными способами. При работе с SQL словарем он явным образом задан для каждой записи в таблице SG_ENTRY. Если применяется ORM библиотека, то первичный ключ доступен как свойство id в экземплярах класса WordEntry. Для процедурного API первичный ключ может быть получен при помощи нескольких функций в зависимости от способа обработки текста, например sol_FindEntry.

Второй необходимый компонент - числовое значения для типа связи. В рамках процедурного API и ORM библиотеки практически все типы связей имеют объявленные числовые константы. Для получения этих констант программа на C/C++ должна включить заголовочный файл _sg_api.h, программы на платформе .NET, включая ORM библиотеку, должны включить сборку gren_consts.dll. При работе с SQL словарем можно либо использовать объявленные константы, либо выполнить поиск по таблице SG_STATE с указанием id_coord=0:

SELECT id, name
 FROM  SG_STATE
 WHERE id_coord=0

Зная оба значения, можно получить список первичных ключей словарных статей-дериватов. С помощью SQL-запроса это выглядит так:

SELECT E2.id, E2.name
 FROM  SG_ENTRY E1, SG_LINK L, SG_ENTRY E2
 WHERE E1.name='делать' AND L.id_entry1=E1.id AND L.istate BETWEEN 35 AND 44 AND E2.id=L.id_entry2

В этом запросе оператором BETWEEN фильтруются все типы связей, относящиеся к дериватам, с жестко вбитыми значениями. В результате выполнения запроса получим такую выборку:

idname
1073750044делать
1073750045сделать
1073761221наделать
1073764564понаделать
1073806814деланный
1073818125делание
1073840333делаемый
1073864999делающий
1073867853делавший
1073884249делать
1073904087делая

В процедурном API для получения списка статей-дериватов можно воспользоваться функцией sol_Thesaurus или sol_ListLinksTxt.

Экземпляры класса WordEntry в ORM библиотеке имеют свойство links, позволяющее перечислить связанные словарные статьи и отфильтровать их, например с помощью LINQ.

Использование дериватов

В качестве примера использования информации о дериватах в тезаурусе можно привести нормализацию текста.

Скачать и купить Грамматический Словарь

Дополнительные материалы по грамматическому словарю

Родовые пары в тезаурусе

Синонимы

Отношения обитатель-место обитания в тезаурусе

Отношения экземпляр-целое в тезаурусе

Отношения субъект-действие в тезаурусе

Потомки (дети и детеныши) в тезаурусе

API грамматического словаря

Поиск связей в тезаурусе через API

Тезаурус

Лексикон

Грамматический Словарь Русского Языка

  © Elijah Koziev 2010
прикладные проекты на основе грамматического словаря API грамматической машины компоненты для доступа к грамматическому словарю условия получения SDK токенизатор и сегментатор морфологический анализ и синтез лемматизатор база N-грамм синтаксический анализатор словоформы морфология и синтаксис русского языка падеж число род совершенный и несовершенный вид экспорт в SQL формат экспорт в XML формат скрипт SQL словаря структура SQL словаря структура XML словаря компоненты для доступа к грамматическому словарю ORM Persistent Dictionary Library лемматизация стемминг примеры использования грамматического словаря склонение существительных в русском языке склонение русских прилагательных спряжение глаголов в русском языке поиск текста с учетом морфологии OCR подсистема расширенные регулярные выражения генератор текста генератор случайного текста и имитатор рандомизатор синонимизатор перефразировщик Статистика буквенных паттернов

Грамматический словарь русского языка



Грамматический словарь
склонение и спряжение глаголов, существительных, прилагательных

В состав входит русский и английский словарь.

платформа:  Windows 2000 ... Windows 7
требования: 512 Mb свободной памяти, 300 Мб на диске
размер:         34 Мб

  скачать грамматический словарь купить грамматический словарь SDK грамматического словаря
грамматический словарь русского языка



SDK Грамматического словаря



SDK Грамматического Словаря
склонение и спряжение глаголов, существительных, прилагательных

В состав входит русский и английский словарь.

платформа:  Windows 2000 ... Windows 7
размер:         13 Мб

SQL словарь (демо):
sqlite mysql oracle firebird mssql

скачать демо-версию SDK купить SDK API грамматического словаря



Поисковая система



Integra
настольная и сетевая поисковая система 

платформа:  Windows XP ... Windows 7
требования: 512 Mb свободной памяти
размер:         21 Мб

Дополнительные компоненты:
MySQL поисковый сервер 13.5 Мб
Integra.Premium MySQL 3.9 Мб

скачать поисковую систему SDK поисковой системыописание поисковой системы



SDK Поисковой системы



SDK Поискового движка
API для настольной и сетевой поисковая система 

платформа:  Windows XP ... Windows 7
размер:         17 Мб

Дополнительные компоненты:

MySQL поисковый сервер 13.5 Мб
Integra.Premium MySQL 3.9 Мб

скачать SDK SDK поисковой системы



Экранный переводчик



Translator
экранный переводчик

платформа:  Windows XP ... Windows 7
требования: 256 Mb свободной памяти
размер:         4.4 Мб

Дополнительные компоненты:
расширенный англо-русский словарь 6.4 Мб


скачать экранный переводчикописание экранного переводчика



изменено 05-Feb-12