Версии словарей для грамматической машины

Фактически существует две ортогональные линейки версий словаря: Pro и Free. Эти версии имеют разный бинарный формат файлов, поэтому для работы со словарем версии Pro необходимы соответствующим образом скомпилированные утилиты. Версии Premium добавляют к Pro расширенный тезаурус.

В словарь могут включаться разные лексиконы, например только русский, или только французский, или даже смесь русский+японский. Состав тезауруса также определяется вариантом сборки словаря, например русско-японский словарь включает соответствующие переводы.

Таким образом, сочетание всех вышеперечисленных факторов дает большое количество сочетаний, из которых только несколько используется в проекте. Скрипты для сборки соответствующих версий словаря находятся в каталоге \scripts\dictionary.

Версии для разных платформ

Словари, собранные для поддерживаемых платформ, несовместими между собой из-за низкоуровневых различий, к которым относятся размер некоторых встроенных типов данных языка C.

Поэтому версии словаря для Windows x64 и Linux x86_64 несовместимы, также как и версии для Windows x86 и Windows x64.

Таким образом, в отличие от описания словаря в исходных текстах, полностью кроссплатформенного, собранный словарь нельзя использовать на другой платформе.

Тезаурус

Тезаурус, или база связей между словарными статьями и словосочетаниями, функционирует только в версии Pro. С помощью тезауруса выполняются некоторые грамматические операции, например приведение к грамматически связанной форме существительного (играть-игра) - см. процедуру sol_TranslateToNoun, к форме инфинитива (игравший-играть) - см. процедуру sol_TranslateToInfinitive, учет синонимов - см. команду -links=@synonyms. Уникальная для поисковых систем операция - поиск с автоматическим переводом, также реализуется посредством тезауруса.

Синтаксический анализатор

Синтаксический анализатор также включается только в словарь версии Pro, прежде всего по причине большого размера.

База N-грамм

Эта часть словаря формируется полностью автоматически программой Empirika из набора текстовых файлов.

  © Козиев Илья 2019
последние изменения 16-Oct-10