Обновления поисковой системы и грамматического словаря

14-10-2016 Обновление синтаксического парсера

Большое обновление всех компонентов русского синтаксического парсера:

Ссылка для скачивания архива с бинарниками парсера под Win64: RU парсер 84.5 Мб

07-01-2016 Версия парсера 14.11 с режимом сервера

В код парсера добавлена экспериментальная поддержка выполнения в режиме http сервера. Благодаря этому режиму можно запрашивать разбор по одному предложению, избегая больших накладных расходов при загрузке словарной базы для каждого отдельного предложения.

Пример запуска с настройками адреса и порта серверного варианта см. в файле http.cmd.

RU парсер 79.5 Мб

EN парсер 19.6 Мб

06-01-2016 RU/EN синтаксический парсер для Windows

Для скачивания и свободного использования подготовлены два варианта синтаксического парсера под 32-битную Windows:

Русская словарная база объемом 275,136 статей, 3,718,970 словоформ

Английская словарная база объемом 274,982 статьи, 473,971 словоформа

RU парсер 79.5 Мб

EN парсер 19.6 Мб

В состав архива русского парсера входит вероятностная модель русской морфологии (part-of-speech tagger), русского синтаксиса, обученная на текущем эталонном корпусе, и новая модель лемматизатора.

В состав английского парсера входят вероятностные модели английской морфологии и синтаксиса.

Оба парсера включают в себя все необходимое, не требуют установки и регистрации в системе каких-либо компонентов, и не оставляют следов в реестре и системных папках.

Пример запуска парсера с правильным набором параметром - файл run.cmd

21-04-2015 Синтаксический парсер для Linux

Вероятностный shift-reduce парсер собран под Linux:

парсер для Linux x86 116 Мб

В состав архива входит вероятностная модель русской морфологии (part-of-speech tagger) и русского синтаксиса, обученная на текущем эталонном корпусе. Также в архив включена словарная база русского языка.

После распаковки архива парсер запускается скриптом run.sh

Для работы может потребоваться скачать и установить библиотеки libcrfsuite и liblbfgs.

06-03-2015 Релиз SDK v.13.36 для Linux

Пересобраны исполнимые компоненты и словарная база SDK для Linux:

SDK Грамматического Словаря для Linux x86 83 Мб

SDK Грамматического Словаря для Linux x64 86 Мб

02-03-2015 Обновление словарной базы, SDK и парсера v.13.36

С момента последнего релиза SDK и русской словарной базы основные усилия были направлены на улучшение вероятностных моделей русской морфологии и синтаксиса. Но и в русский лексикон были внесены некоторые исправоения и дополнения. В частности, добавлено примерно 1000 существительных "машиностроительной" тематики, доведя общий объем русского раздела до 220 тысяч статей, ~2,850,000 словоформ. Также исправлены найденные ошибки и поправлены правила распознавания несловарных токенов.

Все перечисленные изменения включены в данный релиз SDK для Win32: SDK.ru Win32 57 Мб

Архив с альфа-версией парсера, русским словарем и вероятностными моделями: parser-ru-win32.7z 85 Мб

13-02-2015 Обновление русского синтаксического парсера

Очередное обновление синтаксического парсера после изменения модели частеречной разметки. Набор признаков в part-of-speech tagger'е очень сильно переработан, что позволило снизить ошибаемость на тестовом наборе до 1.37%. Модели частеречной разметки и синтаксического парсера пересчитаны на расширенном до 235 тысяч предложений корпусе.

Архив с альфа-версией парсера, русским словарем и вероятностными моделями: parser-ru-win32.7z 88 Мб

08-01-2015 Обновление русского синтаксического парсера

Синтаксическая модель русского текста пересчитана с улучшенной детализацией признаков.

Архив с альфа-версией парсера, русским словарем и вероятностными моделями: parser-ru-win32.7z 83 Мб

05-01-2015 Русский синтаксический парсер альфа Win32

Альфа-версия парсера выполняет следующие операции над входным utf8 текстовым файлом:

1. Разбивает текст на предлождения и на токены. Опция -eol позволяет отключить сегментацию на предложения при этом парсер считает, что каждая строка во входном файле содержит одно предложение.

2. Выполняет частеречную разметку (part-of-speech tagging), беря для каждого слова самую вероятную в его контексте версию распознавания.

3. Строит дерево зависимостей, определяя наиболее вероятные синтаксические связи слов.

Архив с альфа-версией парсера, русским словарем и вероятностными моделями: parser-ru-win32.7z 53 Мб

После распаковки архива запустите run.cmd. Будет выполнен разбор тестового файла test.txt и результаты сохранены в файл parsing.txt, имеющий формат XML.

Параметры запуска парсера заданы для максимально быстрого разбора с выдачей базовой информации. Если изменить опцию -emit_morph 0 на -emit_morph 1, то в результаты будет выдаваться также подробная морфологическая информация по каждому слову. Следует учитывать, что выдача для каждого слова списка всех тегов очень сильно замедляет работу парсера.

Для выполнения частеречной разметки и синтаксического разбора парсер использует отдельные вероятностные модели русского текста. В некоторых случаях эти модели могут выбирать не самые вероятные ребра в дереве или словоформы. В будущих версиях парсера, по мере роста объема обучающего корпуса, количество таких ошибок будет уменьшаться.

05-01-2015 Бесплатная версия SDK v.13.32 Win32 и Win64

Выложена бесплатная версия 13.32 SDK Грамматического Словаря.

Дистрибутив для Win32: SDK Грамматического Словаря RU Win32 (57 Мб)

Дистрибутив для Win64: SDK Грамматического Словаря RU Win32 (49 Мб)

Исходный текст правил синтаксического разбора лежит в репозитории.

24-08-2014 Бесплатная версия SDK v.13.22 Win32 и Win64

Выложена бесплатная версия 13.22 SDK Грамматического Словаря.

Дистрибутив для Win32: SDK Грамматического Словаря RU Win32 (56 Мб)

Дистрибутив для Win64: SDK Грамматического Словаря RU Win32 (48 Мб)

В состав обоих дистрибутивов входит полный русский лексикон, набор правил для синтаксического разбора предложений и файлы данных вероятностной модели part-of-speech tagger'а.

Для проверки работоспособности установленного SDK зайдите в папку scripts\syntax и запустите morphology-ru.cmd или syntax-ru.cmd. Эти скрипты выполняют проверку работы синтаксического парсера и морфологического анализатора по набору эталонных предложений.

В состав дистрибутива также входят две утилиты для выполнения базовых операций над предложениями.

Скрипт ...\scripts\POSTagger\tag.cmd input.txt output.txt запишет в указанный файл output.txt результаты морфологического разбора предложения в input.txt в стандартном текстовом виде. При необходимости вы можете изменить формат выдачи, пересобрав утилиту POSTagger.exe из исходного текста, воспользовавшись C++ компилятором.

Скрипт ...\scripts\ParseLine\parse.cmd input.txt output.xml выполняет синтаксический разбор предложения из указанного входного файла input.txt и сохраняет результат в формате XML в указанный файл. Исходный текст утилиты на C++ входит в состав SDK.

Обе вышеуказанные утилиты доступны в исходных текстах и могут использоваться как примеры вызова функций API грамматического словаря.

14-08-2014 Бесплатная версия SDK v.13.20 Win32

Выложен предварительный релиз версии 13.20 бесплатной версии SDK Грамматического Словаря.

В отличие от прежней ознакомительной версии SDK, в состав пакета теперь входит полный русский лексикон без изъятий.

Выложен пока только вариант для Win32: SDK Грамматического Словаря RU Win32 (58 Мб)

По мере готовности будем выкладывать варианты под остальные ОС и битности.

14-07-2014 Обновление SQL словарей

1. Ознакомительные версии SQL словарей расширены в объеме до 20,000 самых частотных статей.

2. Добавлены варианты словарной базы под Oracle и PostgreSQL.

3. Добавлен вариант загрузки русской словарной базы в MS Access через импорт XML формата.

Подробное описание и ссылки на дистрибутивы можно найти на странице описания SQL словаря: http://www.solarix.ru/sql-dictionary-sdk.shtml.

11-03-2014 SDK Грамматического Словаря v.13.12 под Linux

На сайте доступны для скачивания и использования дистрибутивы ознакомительной версии для двух платформ: Linux 32 бита и 64 бита

В состав обоих дистрибутивов входит немного урезанная русская словарная база, а также файлы данных вероятностой морфологии.

demo SDK Linux x86 (84 Mb)

demo SDK Linux x64 (87 Mb)

В дистрибутивы включены два новых примера на C++: POSTagger для частереченой разметки и ParseLine для синтаксического разбора предложения.

01-03-2014 Дистрибутивы ознакомительной версии SDK Грамматического Словаря v.13.12

На сайте доступны для скачивания и использования дистрибутивы для двух платформ: Win32 и Win64.

В состав обоих дистрибутивов входит русская словарная база, немного урезанная относительно полной коммерческой версии. Более подробно о составе дистрибутивов можно почитать на странице http://www.solarix.ru/grammatical-dictionary-api.shtml.

demo SDK Win32 (59 Mb)

demo SDK Win64 (50 Mb)

Демо-версия SDK содержит русскую словарную базу с добавленными файлами русской вероятностной морфологии. Кроме того, все dll и exe в демо-версии SDK скомпилированы с поддержкой вероятностной морфологии, так что прикладной код может воспользоватьсяновыми возможностями с минимальными усилиями. Усилия включают в себя добавление флага SOL_GREN_MODEL при вызове sol_MorphologyAnalysis и sol_SyntaxAnalysis, или комбинации SOL_GREN_MODEL | SOL_GREN_MODEL_ONLY в случае программы POSTagger, когда не нужно запускать морфологический анализ с помощью правил.

Пояснения по демонстрационным программам, входящим в состав ознакомительного SDK.

POSTagger - это демонстрационная программа для проверки работы вероятностной модели русской морфологии. Исходный код и проект для сборки в VisualStudio можно найти в папке ...\demo\ai\solarix\argon\POSTagger.

Эта крошечная программа собирается без каких-либо изменений в 32- и 64-битном вариантах. Единственный нюанс при сборке x64 - надо поправить путь к словарю в поле аргументов отладчика и путь к solarix_grammar_engine.lib в свойствах линкера, так как там по умолчанию стоят пути для 32-битного варианта сборки.

Запуск собранной утилиты выполняется примерно такой командной строкой:

POSTagger.exe ..\..\..\..\..\bin-windows\dictionary.xml input.txt out.txt

Первый аргумент - путь к файлу конфигурации словаря. Все остальные файлы, составляющие словарную базу, подгружаются движком самостоятельно с учетом информации в этом файле.

Второй аргумент - текстовый файл в кодировке utf-8, содержащий одну строку с размечаемым предложением.

Третий аргумент - имя текстового файла для сохранения результатов разметки.

WordLookup - утилита для поиска словоформ и вывода грамматических атрибутов по всем найденным вариантам. Её исходники и проект для сборки в VisualStudio можно найти в папке ...\demo\ai\solarix\Grammar_Engine\WordLookup. В этой программе используются три новые функции API, которые еще не описаны в документации:

sol_GetProjCoordCount

sol_GetProjCoordId

sol_GetProjStateId

Они дополняют ранее существовавшую sol_ProjectWord позволяют получить количество грамматических атрибутов у найденного варианта словоформы и перебрать все грамматические атрибуты, запрашивая id грамматического атрибута и id состояния. В тексте программы назначение этих новых функций будет очень легко понять.

18-09-2015 Дистрибутивы ознакомительной версии SDK Грамматического Словаря v.14.01

Доступны для скачивания и свободного использования дистрибутивы для двух платформ: Win32 и Win64, а также новая версия быстрого синтаксического парсера для Win32.

Все дистрибутивы содержат русскую словарную базу и готовые вероятностные модели для морфологического и синтаксического разбора русского текста.

В состав архива Парсера включена утилита для просмотра результатов. Ее исходные тексты можно скачать на гитхабе и использовать как готовый пример разбора XML результатов парсинга.

Parser (65 Mb)

demo SDK Win32 (59 Mb)

demo SDK Win64 (50 Mb)

предыдущие новости »