База данных по русской и английской лексике и морфологии

Содержимое морфологической базы

Сформированный словарь содержит на выбор русский или английский лексикон с полностью раскрытыми парадигмами изменяемых частей речи в виде нескольких таблиц (см. далее).

Для русского языка лексикон включает формы для существительных, прилагательных, причастий, глаголов, а также сравнительные степени наречия.

Для английского языка лексикон содержит формы существительного, прилагательного и наречия с синтетической моделью образования степеней, а также формы глагола.

Каждая словоформа в лексиконе сопровождается морфологическими атрибутами: падеж, род, число, вид, наклонение, степень, одушевленность, лицо и так далее. Неизменяемые части речи (предлоги, союзы и так далее) также представлены в словаре единственной формой и списком морфологических признаков.

В состав словаря входит тезаурус, включающий обширный список синонимов, антонимов и однокоренных слов.

Для удобства практического использования в отдельные таблицы выделен лемматизатор, содержащий списки лемм для каждой словоформы.

Задачи, решаемые с помощью грамматического словаря

Морфологическая база данных позволяет решать такие задачи, как:

  морфологический анализ отдельных слов

  получение нужной грамматической формы слова, то есть склонение существительных, прилагательных и причастий, спряжение глаголов, получение сравнительных и превосходных форм наречий

  лемматизация - приведение слова к базовой словарной форме, а также субстантивация и другие грамматические преобразования

  поиск синонимов, антонимов, переводов, гиперонимов и гипонимов, и пр.

  подбор слов по маске, в частности, формирование списков слов с заданным окончанием и т.д.

Поддерживаемые СУБД

Доступны скрипты для формирования словарной базы в одной из поддерживаемых СУБД:

  MySQL

  MS SQL

  FireBird

  SQLite

  Oracle

  PostgreSQL

  MS Access (упрощенный вариант словаря)

Программный доступ к словарю

Данный вариант грамматического словаря является обычной, "классической" реляционной базой данных, поэтому для программного доступа к нему могут использоваться удобные для прикладного программиста инструменты и интерфейсы. В зависимости от используемой СУБД и языка программирования можно применять native API типа OCI, универсальные типа ODBC, и специфичные для одной платформы OLE DB, ADO.NET.

Кроме того, содержимое словаря полностью доступно штатным процедурным средствам СУБД, то есть Вы можете писать хранимые процедуры и функции на PL/SQL, T-SQL или других языках.

Документация и примеры

Детальное описание реляционной схемы грамматического словаря.

Есть также статья с описанием процесса загрузки SQL словаря.

Вводный урок по разным способам поиска слов в словарной базе.

Урок с описанием метода определения части речи.

Урок по поиску и восстановлению слов с буквой ё.

Для основных частей речи детально описано решение типичных задач:

существительное

глагол

прилагательное

причастие

наречие

деепричастие

Демонстрационная версия базы данных

Ознакомительная версия словаря имеет включает набор русских словарных статей и связей между ними, урезанный до 20000 самых частотных слов русского языка. С точки зрения реляционной структуры таблиц ознакомительная версия полностью идентична полной (коммерческой) версии. Поэтому она подходит для предварительной оценки возможности интеграции словарной базы с Вашим программным продуктом.

Вы можете скачать скрипт для формирования ознакомительной версии морфологического словаря для одной из следующих поддерживаемых СУБД. Для быстрого знакомства рекомендуем выбрать SQLite версию - см. подробнее здесь.

Далее перечислены ссылки на архивы под конкретные СУБД и примечания по способы их загрузки.

 

Русская словарная база для SQLite (размер архива 7.7 Мб)

Загрузку можно выполнить с помощью консольной утилиты "sqlite shell", которую можно скачать на странице http://sqlite.org/download.html.

Под Windows загрузка может быть выполнена примерно так:

sqlite3.exe dictionary.sqlite < dictionary.sql

 

Русская словарная база для FireBird (размер архива 3.9 Мб)

Словарная база может быть загружена с помощью штатной консольной утилиты isql. Пример сценария для MS Windows:

set ISQL="c:\program files\FireBird\FireBird_2_5\bin\isql.exe"
set USER=SYSDBA
set PASS=masterkey
set DB="192.168.1.200:e:\DBFILES\Firebird\solarix.fdb"
%ISQL% %DB% -user %USER% -password %PASS% -input "dictionary.sql" -output "dictionary.log"

База данных должна быть в кодировке win1251 (по причинам скорее исторического характера, связанными с удобством работы со словарем из старых версий Delphi).

 

Русская словарная база для MySQL (размер архива 7.6 Мб)

Для загрузки словарной базы можно использовать штатную консольную утилиту mysql.

Пример сценария для MS Windows:

set auth= --user=root -D solarix --host=127.0.0.1
set mysql="c:\program files\MySQL\MySQL Server 5.1\bin\mysql.exe"
%mysql% %auth% < "dictionary.sql"

 

Русская словарная база для PostgreSQL (размер архива 7.7 Мб)

Для загрузки словарной базы можно использовать штатную консольную утилиту psql.

Пример сценария для MS Windows:

"c:\Program Files\PostgreSQL\9.3\bin\psql" -q -U solarix -f dictionary.sql solarix

База данных, в которую будет выполнена загрузка словаря, должна иметь кодировку 'utf-8'.

 

Русская словарная база для MS SQL (размер архива 7.4 Мб)

Перед началом загрузки словарной базы Вам потребуется скорректировать пути к файлам данных в файле dictionary-mssql-demo.sql. Необходимость коррекции обусловлена тем, что для ускорения загрузки используется специальная команда BULK INSERT, в которой указывается путь к файлам с загружаемым содержимым некоторых таблиц. Таким образом, Вы должны скопировать скачанный по ссылке архив на сервер БД и там распаковать его, а затем открыть в текстовом редакторе указанный файл и найти в нем все вхождения строки BULK INSERT.

Сама загрузка словаря может быть выполнена штатными средствами СУБД, например консольной утилитой sqlcmd.exe:

set auth=-S 192.168.1.200 -d solarix -U sa -P masterkey  -f 65001
set sqlcmd="%ProgramFiles%\Microsoft SQL Server\100\Tools\Binn\sqlcmd.exe"
%sqlcmd% -i dictionary.sql -b -a 32767 -o mssql-dictionary.log %auth%

 

Русская словарная база для Oracle (размер архива 6.4 Мб)

Как и для остальных СУБД, загрузка словарной базы в Oracle может быть выполнена штатными средствами, входящими в поставку СУБД. Нам потребуются две консольные утилиты: sqlplus и sqlldr. Первая из них выполняет последовательность SQL операторов для создания таблиц, загрузки в них данных и создания необходимых индексов. А вторая выполняет массовую загрузку данных в некоторые "большие" таблицы, для которых обычный путь вставки записей через INSERT оказывается слишком долгим с учетом наличия десятков миллионов записей.

Вот скрипт для MS Windows, который выполняет все необходимые загрузки:

chcp 1251
set cnx=dblogin/dbpassword@dbalias
sqlplus.exe %cnx% @dictionary.sql

sqlldr.exe %cnx% control=sg_lexem.ctl log=sg_lexem.log bad=sg_lexem.bad discard=sg_lexem.dis silent=(HEADER, FEEDBACK, PARTITIONS)
sqlldr.exe %cnx% control=multilexem.ctl log=multilexem.log bad=multilexem.bad discard=multilexem.dis silent=(HEADER, FEEDBACK, PARTITIONS)
sqlldr.exe %cnx% control=sg_entry.ctl log=sg_entry.log bad=sg_entry.bad discard=sg_entry.dis silent=(HEADER, FEEDBACK, PARTITIONS)
sqlldr.exe %cnx% control=sg_form.ctl log=sg_form.log bad=sg_form.bad discard=sg_form.dis silent=(HEADER, FEEDBACK, PARTITIONS)
sqlldr.exe %cnx% control=sg_entry_coord.ctl log=sg_entry_coord.log bad=sg_entry_coord.bad discard=sg_entry_coord.dis silent=(HEADER, FEEDBACK, PARTITIONS)
sqlldr.exe %cnx% control=sg_link.ctl log=sg_link.log bad=sg_link.bad discard=sg_link.dis silent=(HEADER, FEEDBACK, PARTITIONS)
sqlldr.exe %cnx% control=sg_link_tag.ctl log=sg_link_tag.log bad=sg_link_tag.bad discard=sg_link_tag.dis silent=(HEADER, FEEDBACK, PARTITIONS)
sqlplus.exe %cnx% @dictionary-alters.sql > oracle-dictionary-alters.log

 

Русская словарная база для MS Access (размер архива 1.7 Мб)

Версия словарной базы для MS Access стоит несколько особняком. Во-первых, она - в формате XML, так как он обеспечивает быструю загрузку большого объема данных в таблицы. Во-вторых, упрощен набор переносимых данных. В базе создаются только три таблицы для шапок словарных статей, словарных форм и описания частей речи.

Для загрузки словаря необходимо выполнить 2 шага в MS Access. Первое - создать новую пустую базу данных. Второе - выполнить в нее импорт (Файл-Внешние данные-Импорт) файла lexicon.xml. Описание схемы из lexicon.xsd будет загружено автоматически.

На сайте также доступна демонстрационная онлайн-версия словаря

English >>

  © Elijah Koziev 2010
прикладные проекты на основе грамматического словаря API грамматической машины компоненты для доступа к грамматическому словарю условия получения SDK токенизатор и сегментатор морфологический анализ и синтез лемматизатор база N-грамм синтаксический анализатор словоформы морфология и синтаксис русского языка падеж число род совершенный и несовершенный вид экспорт в SQL формат экспорт в XML формат скрипт SQL словаря структура SQL словаря структура XML словаря компоненты для доступа к грамматическому словарю ORM Persistent Dictionary Library лемматизация стемминг примеры использования грамматического словаря склонение существительных в русском языке склонение русских прилагательных спряжение глаголов в русском языке поиск текста с учетом морфологии OCR подсистема расширенные регулярные выражения генератор текста генератор случайного текста и имитатор рандомизатор синонимизатор перефразировщик Статистика буквенных паттернов

Грамматический словарь русского языка



Грамматический словарь
склонение и спряжение глаголов, существительных, прилагательных

В состав входит русский и английский словарь.

платформа:  Windows 2000 ... Windows 7
требования: 512 Mb свободной памяти, 300 Мб на диске
размер:         34 Мб

  скачать грамматический словарь купить грамматический словарь SDK грамматического словаря
грамматический словарь русского языка



SDK Грамматического словаря



SDK Грамматического Словаря
склонение и спряжение глаголов, существительных, прилагательных

В состав входит русский и английский словарь.

платформа:  Windows 2000 ... Windows 7
размер:         13 Мб

SQL словарь (демо):
sqlite mysql oracle firebird mssql

скачать демо-версию SDK купить SDK API грамматического словаря



Поисковая система



Integra
настольная и сетевая поисковая система 

платформа:  Windows XP ... Windows 7
требования: 512 Mb свободной памяти
размер:         21 Мб

Дополнительные компоненты:
MySQL поисковый сервер 13.5 Мб
Integra.Premium MySQL 3.9 Мб

скачать поисковую систему SDK поисковой системыописание поисковой системы



SDK Поисковой системы



SDK Поискового движка
API для настольной и сетевой поисковая система 

платформа:  Windows XP ... Windows 7
размер:         17 Мб

Дополнительные компоненты:

MySQL поисковый сервер 13.5 Мб
Integra.Premium MySQL 3.9 Мб

скачать SDK SDK поисковой системы



Экранный переводчик



Translator
экранный переводчик

платформа:  Windows XP ... Windows 7
требования: 256 Mb свободной памяти
размер:         4.4 Мб

Дополнительные компоненты:
расширенный англо-русский словарь 6.4 Мб


скачать экранный переводчикописание экранного переводчика



изменено 15-Mar-15