Обновления поисковой системы и грамматического словаря

09-11-2013 Грамматический Словарь Русского Языка v.13.06

Новая версия программы "Грамматический Словарь" основана на актуальной сборке русской словарной базы. В этой сборке по сравнению с предыдущим релизом Грамматического Словаря исправлены найденные опечатки и добавлены новые словарные статьи, а также примеры употребления слов.

Программа доступна для свободного скачивания по ссылке: Win 32 (65 Mb)

06-09-2013 Парсер русского синтаксиса v.12.36

1. В состав SDK включена консольная утилита ParseLine. Она читает предложение из указанного файла (utf-8), парсит его и сохраняет синтаксическое дерево в формате XML в указанный выходной файл. Исходный текст этой утилиты можно найти в каталоге ...\demo\ai\solarix\argon\ParseLine. Для запуска скомпилированной программы (exe файл входит в SDK) можно воспользоваться скриптом в подкаталоге ...\scripts\ParseLine:

parse.cmd input.txt out.xml

Именно данная утилита выполняет парсинг предложений в онлайн-версии парсера http://178.64.252.139:8080/Morphology.aspx. Ее исходный код не перегружен излишней фукциональностью и может использоваться как основа для собственных разработок, которые выполняют синтаксический разбор текста с помощью функции sol_SyntaxAnalysis.

2. Большое количество изменений в набор правил синтаксического разбора внесено в синтаксическую модель. В частности, на восходящий алгоритм разбора переделан парсинг именного и глагольного сказуемого.

3. Ознакомительная версия SDK Грамматического Словаря собрана под все поддерживаемые платформы:

Win 32 (48 Mb)

Win 64 (36 Mb)

Linux 32 (72 Mb)

Linux 64 (75 Mb)

13-08-2013 Переработанный парсер вер. 12.31 для Win32/64

Новый релиз грамматического движка включает в себя несколько доработок русского синтаксического парсера, основанных на новой вычислительной модели разбора - восходяще-нисходящем алгоритме. Этот алгоритм сочетает достоинства обеих тактик разбора, беря от восходящего алгоритма компактность набора правил, а от нисходящего - простоту описания различных многокомпонентных оборотов.

В этой версии переработаны группы правил для разбора инфинитива, деепричастного оборота, глагольной части сказуемого прошедшего и настояще-будущего времени.

Дистрибутивы ознакомительных версий SDK Грамматического Словаря (русская словарная база входит в состав, см. подробное описание):

Win32, 48 Мб

Win64, 29 Мб

Программа для просмотра содержимого грамматического словаря (см. подробное описание):

Грамматический Словарь Русского Языка (Win32, 60 Мб)

Демонстрационная программа - морфологический анализатор предложений: (см. подробное описание):

Morphology (Win32, 36 Мб)

16-06-2013 Релиз 12.25 для Win32

1. Существенно расширен набор синтаксических конструкций, которые парсер знает и умеет разбирать. В частности, добавлены правила для составных сказуемых, групп прилагательных, существительных, числительных. Добавлены некоторые непроективные конструкции, относительно часто встречающиеся в текстах.

2. Для экспериментов с вероятностным парсингом в состав SDK включена другая статистическая модель - триграмный MaxEnt классификатор. Для его использования достаточно при вызове функций sol_SyntaxAnalysis указать флаг SOL_GREN_MODEL. Файлы данных модели включены в SDK - это classifier.* в папке bin-windows. Также можно заметить, что в файле конфигурации словаря dictionary.xml изменилось содержимое секции <model>, в частности, теперь там с помощью отдельных вложенных узлов можно задавать конфигурацию используемой вероятностной модели морфологии. Для триграмного MaxEnt классификатора используется узел <classifier>.

3. Переработан алгоритм отбора оставляемых вариантов разбора при наложенных ограничениях на пространство перебора (параметр Constraints при вызове sol_SyntaxAnalysis). Повышены шансы для более коротких, но более достоверных вариантов пробиться наверх, вместе с тем улучшен отсев заведомо проигрышных шагов. Предварительные замеры показывают, что при достаточно жестком ограничении в 5 вариантов парсер на тестовом корпусе допускает только 2% ошибок.

4. Выполнена начальная семантизация парсерса - он начал учитывать сочетаемость некоторых квазисемантических классов, например - некоторые глаголы обычно не присоединяют неодушевленное дополнение в дательном падеже, и т.п. В дальнейшем это направление будет продолжено, что позволит увеличить качество разбора на реальных текстах при ограничениях на перебор вариантов.

Обновленные и доступные для свободного скачивания дистрибутивы (все только для платформы Win32):

Ознакомительная версия SDK Грамматического Словаря, 48 Мб

Ознакомительная версия SDK Синонимизатора, 32 Мб

Грамматический Словарь Русского Языка, 60 Мб

18-04-2013 Вероятностный POS tagger в демо SDK

Подготовлена первая экспериментальная версия вероятностной модели русской морфологии, используемая для алгоритма POS Tagging в грамматическом движке. Все необходимые файлы вместе с русским лексиконом и парсером выложены для свободного скачивания и использования:

Ознакомительная версия SDK Грамматического Словаря, Win32, 55 Мб

Кроме того, эта версия SDK содержит добавочные правила синтаксического анализа, охватывающие немного большее подмножество русского синтаксиса.

21-03-2013 Обновление MS SQL Demo

Из SQL скрипта убрана некоторая информация, которая с одной стороны требовала большого времени на загрузку, а с другой не представляла ценности в качестве демонстрации базовых возможностей SQL словаря. В результате объем архива сократился до 3.6 Мб, время его заливки в БД уменьшилось в несколько раз.

В демонстрационную C# программу, работающую с SQL словарем через легковесную ORM, внесены мелкие правки, чтобы она гарантированно выполнялась даже на урезанном демо-словаре.

Архив MSSQL Demo доступен для скачивания

13-03-2013 v.12.15 парсер и перефразировщик

Важнейшие изменения:

1. В bottom-up парсере переделана работа с нераспознанными токенами. Теперь в режиме нечеткого разбора такие токены помечаются нетерминалами UNK и остаются в итоговом синтаксическом дереве. В старой версии такие токены полностью исключались из разбора.

2. В синонимизаторе введена возможность отладочной трассировки для важнейших операций: начальный выбор синонимов и фильтрация с помощью базы N-грамм. В консольном синонимизаторе данная информация выводится на экран после включения трассировки командой #traceon. В пакетном режиме трассировка выводится в файл результатов.

3. Переработан look-up алгоритм поиска слов в двоичном словаре - теперь гарантированно просматриваются только те словарные статьи, которые содержат искомую лесему. Новый алгоритм использует намного больше оперативной памяти для хранения индексной структуры, но серьезно ускоряет работу распознавателя, особенно в режиме ленивой подгрузки статей с диска в память.

4. В алгоритм синонимизатора добавлена фильтрация синонимов по таблице униграмм, собранных утилитой Empirika. Теперь преимущество имеют те слова-синонимы, которые максимально часто употреблялись в эталонных текстах. Кроме того, не употребляемые синонимы вообще исключаются из анализа.

SDK Грамматического Словаря MS Windows 32; 36 Мб

SDK Перефразировщика MS Windows 32; 23 Мб

05-03-2013 версия 12.12 парсера

Эта сборка включает в себя все текущие багфиксы в алгоритмах и утилитах, а также некоторые добавки в набор правил для русского синтаксического анализатора.

Выложены архивы с ознакомительной версией SDK грамматического словаря под 32 и 64 битные ОС Windows и Linux:

MS Windows 32

MS Windows 64

Linux 32

Linux 64

03-03-2013 версия 12.12 синонимизатора

Исправлены ошибки в алгоритмах генерации текста: цепочки и статистическая имитация.

Выложена ознакомительная версия SDK для платформы Win32: 21 Мб.

24-02-2013 версия 12.09 грамматического движка

Изменения включают в себя добавки в правила синтаксического разбора и исправление найденных ошибок.

Для скачивания и использования доступны ознакомительные версии SDK для Windows 32, Linux 32/64 - см. страницу с описанием SDK.

16-02-2013 Ограничение ресурсов, потребляемых парсером

В версии 12.07 добавлены механизмы, позволяющие прикладному коду при вызове API задавать максимальные значения потребляемых ресурсов. Это позволяет ограничивать время выполнения синтаксического разбора одного предложения. Это очен важно, если среди обрабатываемых предложений встречаются трудные для разбора, которые вводят алгоритм в долгий перебор альтернативных вариантов. В многопоточной среде, когда один экземпляр движка обслуживает несколько параллельных потоков, ограничение на время выполнения одного разбора позволяет избежать необходимости грязного удаления подвисшего потока с негативным влиянием на соседние потоки.

В текущей версии алгоритма возможно задание двух важнейших ограничений через процедурный API.

Во-первых, общее время выполнения sol_MorphologyAnalysis и sol_SyntaxAnalysis.

Во-вторых, ограничение на максимальное число параллельно проверяемых альтернативных вариантов разбора предложения.

20-01-2013 ознакомительные сборки v.12.02

Grammatical Dictionary SDK Demo Russian+English Windows x86 (35 Mb)

Grammatical Dictionary SDK Demo Russian Windows x64 (27 Mb)

Grammatical Dictionary SDK Demo Russian+English Linux x86 (52 Mb)

Grammatical Dictionary SDK Demo Russian+English Linux x64 (54 Mb)

Search engine SDK с русской морфологией Windows x86 (29 Mb)

Synonymizer SDK Demo Russian Windows x86 (20 Mb)

Краткий список изменений:

1. В bottom-up парсер добавлены правила для разбора связок прошедшего времени "я был доволен", полностью переработаны правила связывания подлежащего и сказуемого: введено разделение по лицам, числам, родам и времени глагола.

2. Введен "принцип минимального действия" - при прочих равных условиях выбираются те варианты связывания слов в синтаксическое дерево, при котором сумма расстояний между узлами на ребрах минимальна.

3. В основной код движка добавлен декодер вероятностной модели морфологии, загружаемой из внешних бинарных файлов. Готовые файлы данных модели пока не включены в дистрибутивы SDK.

4. В токенизатор добавлено ограничение на сложность графа токенизации. Теперь если на вход, к примеру, sol_TokenizeW, подать слишком сложное предложение, то при достижении предельного числа развилок в графе будет сгенерировано исключение. Возможно, в будущих версиях API будет введена расширенная версия процедуры вызова токенизатора, позволяющая передать в алгоритм параметр, в том числе разрешить продолжить извлечение токенов без генерации ветвлений при превышении некоторого порога сложности графа.

5. Исправлена ошибка в API поискового движка, из-за которой при некоторых сочетаниях параметров запроса происходила утечка открытых файлов.

6. В сегментатор текста добавлены ограничения на длину извлекаемого предложения, чтобы предотвратить получение огромных предложений из-за различных опечаток или разбросанных по тексту скобочек и кавычек.

7. В сегментатор текста добавлено правило - пустая строка является терминатором предложения. К примеру, вот такая строка:

const wchar_t text_with_empty_line[]=L"первое предложение\n\nвторое \n предложение \n\n третье предложение.";

разбивается на 3 предложения, а не на 1, так как два подряд идущих перевода строки рассматриваются алгоритмом как признак конца предложения.

15-01-2013 Linux x86/x64 v.11.47

Собраны и прошли базовые тесты части SDK для 32- и 64-битных платформ Linux.

В базовом варианте версии под Linux включают в себя русский словарь (лексикон с 210 тысяч словарных статей, лемматизатор и синтаксический анализатор).

Дополнительно собран и проверен английский словарь - лексикон и синтаксический анализатор.

26-12-2012 Win x64 демка v.11.46

Собран дистрибутив ознакомительной версии SDK Грамматического Словаря для Win64. Дистрибутив полностью аналогичен x32 версии, в том числе по имеющимся ограничениям - русский лексикон урезан примерно на 5% в сравнении с коммерческой версией, тезаурус урезан значительно сильнее.

Ссылка на дистрибутив (Win64, 26 Мб)

24-12-2012 Демки версии 11.46

1. Пересобрана и проверена ознакомительная версия SDK Грамматического Словаря для Win32. В эту версию вошло много изменений в синтаксическом анализаторе и исправлений лексикона:

Ссылка на дистрибутив (Win32, 34 Мб)

2. Пересобрана демонстрационная программа Morphology.

Ссылка на дистрибутив (Win32, 26 Мб)

12-11-2012 Изменения в синтаксическом анализаторе

Семантический процессор расширен двумя возможностями, которые позволяют задавать правила для учета следующих языковых явлений.

1. Преимущественный порядок слов для некоторых глаголов в случае, если грамматика формально допускает неоднозначное распознавание. Например, в предложении "страх имеет свой особый запах" русский язык допускает, что подлежащим является как "страх", так и "запах". Однако обычно для глагола ИМЕТЬ реализуется порядок слов S-V-O. Чтобы описывать такие "преимущественные распознавания", в правила взвешивания синтаксических деревьев введен механизм задания относительных позиций фрагментов дерева. Благодаря ему можно повышать достоверность одного варианта, например S-иметь-O, не отсекая другие варианты на уровне самой грамматики.

2. Описание семантических валентностей через повышение достоверности таких вариантов распознавания, которые подтверждаются здравым смыслом и семантикой глагола (или любых других слов). Например, для конструкции "бежать на урок" грамматика допускает, что "урок" может являться формой слова "урка". Однако семантика глагола БЕЖАТЬ подразумевает, что целью бега является обычно неодушевленные объекты. То есть вариант с винительным падежом существительного "урок" имеет большую достоверность. С помощью расширенного семантического процессора теперь можно описывать такие правила, опять-таки не выкидывая полностью альтернативные варианты из выдачи, чтобы правильно разбирать конструкции типа "пойти на Паваротти".

12-11-2012 Новое сглаживание в вероятностном лемматизаторе

В алгоритме лемматизации, который применяет вероятностую модель русской морфологии, изменен порядок сглаживания N-грамм. Это повысило точность лемматизации на эталонном корпусе до ~99.5%.

02-11-2012 Грамматический Словарь 11.39.10377

Программа собрана с текущей актуальной версией русской словарной базы, в том числе с исправлениями замеченных опечаток, добавками в падежную модель для глаголов, новыми правилами для синтаксического анализатора.

Страница с описанием программы с ссылками

 

30-10-2012 Обновление вероятностного лемматизатора

Немного изменена статистическая модель морфологии и исправлены некоторые ошибки. Благодаря этому точность лемматизации с помощью функции sol_LemmatizePhrase на эталонном корпусе выросла до 99.16%.

 

26-10-2012 Вероятностный лемматизатор для русского языка

В библиотеку лемматизатора добавлен алгоритм вероятностной лемматизации. Функция sol_LemmatizePhrase получает на входе цепочку слов в виде строки с символами-разделителями для каждого слова, и возвращает список наиболее вероятных лемм.

Задача этого алгоритма - улучшить качество лемматизации за счет учета контекста каждого лемматизируемого слова с помощью предварительно обученной вероятностной модели морфологии.

Языковая модель пересчитана по текущей версии русского словаря и имеет такие характеристики.

1. Эталонные прецеденты, для которых лемматизация выполняется гарантированно правильно:

1668136 слов лемматизируются однозначно.

18001 слов дают 2 и более альтернативных лемм.

2. Вероятностная модель морфологии обучена на 26000 эталонных предложениях.

Достигаемая точность в лучшем случае составляет 98.05%

При учете частотности слов данная модель обеспечила бы точность около 99.68%.

 

17-09-2012 Версия 11.37

Изменения в словаре, грамматике и движке:

1. Добавлено примерно 40 деепричастий

2. Добавлено примено 90 причастий

3. Добавлены правила для разбора глагольных паттернов с предложным дополнением, состоящим из предлога В и именной части в именительном падеже: "Снова не попадая в лидеры общего зачета"

4. В движок внесены доработки и в русскую грамматику добавлены правила для разбора паттернов, в которых участвуют английские (точнее, состоящие из смеси латиницы и цифр) слова: "Он ушел в Nakamura International Corporation"

5. Эталонный корпус предложений для русского парсера расширен до ~18 тысяч, в него добавлено около 3000 примеров употребления самых частотных глаголов с предложным паттерном в роли косвенного дополнения; в базу добавлена необходимая информация о таком употреблении.

Текущий список тестовых предложений для русской грамматики

Текущий список тестовых предложений для английской грамматики

 

12-09-2012 Тестовая сборка SDK Словаря 11.36

Изменения, вошедшие в эту сборку:

1. Добавлен разбор конструкций c постфиксом "-ка": "Напишу-ка я ему."

2. Добавлен разбор конструкций типа "Что-то чудесное скоро произойдёт", в которых прилагательное регулярно присоединяется справа к местоименному слову.

3. Добавлен разбор сложносочиненных предложений, в которых первое простое предложение - императив, второе является поясняющим утверждением: "Не будите его, он вчера поздно лёг спать".

4. Добавлен разбор предложений с нулевой связкой, в которых предиват строится от наречия: "мне тесно в этой дыре".

5. Переделки и доработки в правилах, разбирающих глагольные, инфинитивные, причастные и деепричастные паттерны с прилагательным в качестве прямого дополнения "Кот притворялся спящим".

6. Добавлены правила для разбора приименных адъективальных паттернов, в которых существительное/местоимение подчиняется прилагательному (не причастию): "Я увидел непонятное мне уравнение"

7. Синтаксический анализатор (в том числе функция sol_SyntaxAnalysis) по умолчанию выполняет сначала попытку точного разбора предложения, в случае неудачи - делает приблизительное распознавание синтаксической структуры.

Тестовую версию дистрибутива и русский словарь можно бесплатно скачать и тестировать в течении необходимого промежутка времени:

SDK Грамматического Словаря (10 Мб)

Русский морфологический словарь (45 Мб)

Описание API можно найти на этой странице.

Пожалуйста, сообщения о найденных ошибках присылайте на почту mentalcomputing@gmail.com

 

10-09-2012 Тестовая сборка synonymizer 11.36

Синонимизатор собран для платформы Win32 с текущей версией словаря. Дистрибутив размером ~30 Мб доступен для свободного скачивания и тестирования. В его состав входит консольная программа synonymizer.exe и встраиваемая библиотека synobnymizer.dll, а также .NET обертка rewriter.exe. После установки дистрибутива можно проверить синонимизацию, запустив скрипт ...\scripts\rewriter\synonymize-ru.cmd с указанием имени входного текстового файла, например находящегося в этом же каталоге файла adams.txt.

 

06-09-2012 Часть программ версии 11.35 beta

В алгоритмическое ядро движка внесено большое количество изменений, поэтому на данный момент доступна для скачивания и тестирования только часть программ и компонентов для платформы Win32:

Morphology - морфологический разбор предложения с учетом синтаксических правил (скачать (26 Мб), описание)

Грамматический Словарь Русского Языка (скачать (49 Мб), описание)

Ознакомительная версия SDK Грамматического Словаря (скачать (32 Мб), описание)

Релиз пока имеет статус бета из-за одного важного функционального ограничения. Синтаксический анализатор был сильно переработан, и алгоритм для парсинга длинных и неправильных предложений был вынесен в отдельную ветку, включаему специальным флагом при вызове функций API. Пока этот алгоритм не полностью отлажен и склонен подвисать на некоторых предложениях, поэтому использовать API следует с оглядкой на такое поведение. Следующий релиз будет связан с исправлениями в этом блоке.

Краткий перечень сделанных изменений в версии 11.35

1. В парадигму французских глаголов добавлены формы subjonctif present, subjonctif imparfait, conditionnel present

2. Добавлены парадигмы вспомогательных глаголов avoir, etre

3. Переработано прилагательное Б^ОЛЬШИЙ - все формы объявлены как имеющие сравнительную степень.

4. Переработана модель словоизменения для числительных, у всех числительных больше 3 убрано изменение по родам.

5. Из русского лексикона убраны нетерминальные статьи типа СУЩ_И, которые использовались старой версией синтаксического анализатора для союзных конструкций.

6. В компилятор добавлена обработка директив #region и #endregion для удобства работы с комментариями в автоматически генерируемых правилах снятия омонимии.

7. В утилиту Empirika добавлено чтение файла N-грамм в формате csv -source_format csv.

8. В лексер включен модуль Reconstructor для исправления пропусков и неправильных грамматических форм слов.

9. В режиме обучения утилита Reconstructor теперь может брать эталоны не только из собранной ранее БД N-грамм, но также из указанного csv файла.

10. Алгоритм нечеткого распознавания слов дополнен распознаванием перестановок букв: соседних "спосбоность" и через одну "спобосность".

11. В консольный отладчик Syntax добавлена команда #recog для вывода детальной информации о выполненных распознаваниях слов.

12. Сделана утилита ExportSamples для преобразования эталонного корпуса в набор строк в plain text файле, которые затем используются для формирования эталонных N-грамм и для генерации примеров употребления для "Грамматического Словаря Русского Языка".

13. В лексер добавлен алгоритм расщепления токена на 2 словарные лексемы, чтобы обеспечить разбор конструкций типа "Я немогу", без использования правил-сплиттеров препроцессора.

14. В лексер добавлен алгоритм объединения последовательных токенов в одну словарную лексему для коррекции ошибок типа "Кош ка спи т на дива не"

15. Добавлен механизм ассоциаций для снятия однотипной внешней омонимии; правила assoc_word.

16. Расширен алгоритм неполного синтаксического разбора: теперь кроме кусочно-непрерывного режима есть нечеткое сопоставление с пропуском лишних слов.

17. Добавлен (на уровне proof-of-concept) итерационный алгоритм восходящего разбора и приблизительный алгоритм синтаксического анализа.

 

20-08-2012 Обновление документации по алгоритмам

В связи с подготовкой нового релиза в документацию внесено большое количество изменений. Большинство из них связано с описанием работы основных модулей анализа предложений - лексера, морфологического анализатора и синтаксического парсера.

1. В главу "Правила распознавания и разбора для синтаксического анализатора" добавлены вводные разделы:

Распознающая или порождающая грамматика

Полный и неполный анализ. Разбор зашумленного текста

2. Глава "Морфологический анализатор" полностью переписана, в ней тезисно описаны все основные алгоритмы и приёмы, применяемые при морфологическом анализе отдельных слов.

3. Добавлена глава "Метастатьи".

4. Доработана глава "Токенизатор". Описаны методы работы с некоторыми ошибками в письменной речи - разбивка одного слова на несколько, слитное написание нескольких слов.

 

15-07-2012 SDK для Win ver.11.26

SDK Грамматического Словаря текущей версии 11.26 собран под Windows 32/64.

Список важнейших изменений, накопившихся в этом релизе:

1. Полная переделка русского синтана - с правил переписывания на структурный парсер.

2. Фонетические пары русских предлогов ОТ-ОТО сведены в статьи с двумя грамматическими формами.

3. Типы связей в синтаксическом графе с закодированной относительной позицией присоединяемого узла LEFT_ATTRIBUTE/RIGHT_ATTRIBUTE заменены на беспозиционные ATTRIBUTE etc., чтобы облегчить формирование базы знаний для языков со свободным порядком слов (русский).

4. Добавлены МЕТАСТАТЬИ. Для русского лексикона метастатьи объединяют инфинитив и отглагольные части речи, включая причастия и деепричастия.

5. Полностью переписан лексер (токенизатор), документация здесь.

6. В лексер добавлена поддержка жадных и нежадных правил переписывания токенов 1->N

7. Переработан и оптимизирован language guesser. Теперь он включает в анализ статистики только те языки, для которых имеются словарные статьи в лексиконе. Если в лексиконе только один язык, то guesser вообще не проводит анализ, сразу возвращая id этого языка.

8. В лексер введена возможность задавать правила расщепления лексем на основе сопоставления с регулярными выражениями.

9. Переработан лексер для английского языка; апостроф убран из списка разделителей, добавлены жадные правила ращепления для 'll, 're и так далее; добавлено нежадное правило расщепления для 's.

10. Во французский раздел словаря добавлены правила лексера для выделения из лексем различных префиксальных форм служебных слов: артикль l', предлог d' и так далее.

12-07-2012 Морфологический Анализатор 11.26

Выложена текущая версия демонстрационной программы Морфологический Анализатор с последней версией русской словарной базы и синтаксического парсера на борту.

Скачать инсталлятор под MS Windows 32 бит (25 Мб)

Программа полностью бесплатна, не требует никакой регистрации и не содержит ограничений на использование.

Перейти на страницу с описанием программы.

 

27-05-2012 Опубликован небольшой FAQ

Ответы на частые вопросы - здесь. Список будет постепенно пополняться.

 

20-05-2012 Релиз версии 11.16

Сокращенный список изменений

1. Главное изменение относительно предыдущего релиза - полностью переработанный анализатор английских предложений, основанный на новой, очень перспективной алгоритмической базе. Английский словарный модуль вместе с новым парсером выделены в отдельный вариант для всех продуктов - SDK Грамматического Словаря, SQL Морфологический Словарь и Грамматический Сервер.

Словарный запас в английском лексиконе расширен до 210 тысяч статей. Правила разбора предложений охватывают приблизительно начальный уровень изучающих английский язык. Некоторые английские конструкции охвачены пока хуже, чем они того заслуживают, но со временем эти лакуны будут закрыты. Английский парсер проверяется по 9000 эталонных предложений, в том числе в многопоточном режиме.

2. Первый релиз Грамматического Сервера. Он сочетает гибкость SQL словаря и возможность доступа к грамматическим алгоритмам в процедурном API. Пока собрана и протестирована реализация для варианта БД на MySQL и 32-битного клиента под MS Windows.

3. Русский словарь претерпел в целом незначительные изменения. Модуль синтаксического разбора русских предложений по-прежнему основан на правилах переписывания. В сравнении с новым структурным парсером, обкатанным на английской грамматике, у него есть некоторые серьезные ограничения. В будущем запланировано переписать русский парсер полностью на новом движке с добавлением некоторых новых возможностей - самообучение и самонастройка, расширенное использование правил снятия омонимии, задание placeholder'ов для ФИО, топонимов и брендов.

 

11-04-2012 SDK Free Trial Beta v.11.03

В эту сборку ознакомительной версии SDK грамматического словаря вошли следующие компоненты:

1. полностью переработанный английский словарь с 210 тысячами статей, 339 тысячами уникальных слов, новый движок синтаксического анализа предложений.

2. русский словарь со всеми последними исправлениями, объем примерно такой же, как у версии 10. Содержит примерно 159 тысяч статей, против ~200 тысяч для полной сборки.

Для работы с английским словарем достаточно переименовать папку bin-windows-english в bin-windows. Синтаксический анализатор для английского языка обучен разбирать базовые конструкции английского предложения примерно в рамках курса для начинающих изучать язык. Тестовый набор содержит приблизительно 3000 предлождений, для которых он выполняет part of speech tagging и разрешение неоднозначностей.

Эта версия имеет статус беты и предназначена на предварительной обкатки.

скачать дистрибутив для MS Windows 32 бита (27 Мб)

06-03-2012 Новая сборка русско-английского словаря

Браузер словаря пересобран с самой последней ревизией английского и русского лексикона. Текущий объем словаря достиг ~202 тысячи статей для английского языка и ~178 тысяч для русского. Суммарно это дает примерно 2.8 миллиона форм слов.

Скачать браузер словаря (43 Мб)

06-03-2012 Обновление демо-версии SDK

В новой сборке ознакомительной версии добавлены исходные тексты примера работы с API на Delphi в каталоге ...\demo\ai\solarix\Grammar_Engine\Delphi

Скачать архив демо SDK (20 Мб)

05-02-2012 Новые демо-версии SQL словаря

Способ формирования ознакомительных версий SQL словаря переработан таким образом, чтобы получался словарь с 10000 самых частотных словарных статей. Прежние ознакомительные версии содержали словарные статьи на одну (или несколько) определенных букв.

Ссылки на новые ознакомительные версии для нескольких моделей СУБД:

MySQL

MS SQL

FireBird

SQLite

Ознакомительная версия для MySQL залита на сайт solarix.ru и доступна через веб-интерфейс на страницах:

Склонение существительных в русском языке

Спряжение глаголов

Склонение прилагательных

25-01-2012 Документация по SQL словарю

На сайт добавлена страница с первым вводным уроком по использованию словарной базы русской морфологии:

SQL запросы для поиска слов в словарной базе данных

20-01-2012 Утилита DumpNGrams под Linux

В дистрибутив SDK версии 10 для Windows и для Linux добавлена утилита DumpNGrams.

Это консольная программа, выгружающая данные из базы N-грамм в текстовые файлы формата csv. Она поддерживает оба вида БД N-грамм - в реляционном хранилище (SQLite,MySQL) и NoSQL движок для накопления сотен миллионов записей.

14-01-2012 Функции API для глубокой нормализации

Добавлена документация по двум функциям процедурного API, выполняющим глубокую нормализацию текста:

sol_TranslateToNoun - приведение к однокоренному существительному, например чайный-чай.

sol_TranslateToInfinitive - приведение к однокоренному инфинитиву, например чай-чаёвничать

11-01-2012 Планы развития для версии 11

В целом версия 11 грамматического движка будет предоставлять больше выразительных средств для описания некоторых языковых явлений, важных для выполнения морфологического и синтаксического анализа. Краткий список намеченных работ включает в себя следующее.

1. Корректный учет ёфикации в случаях, когда анализируемое слово написано через ё и это позволяет однозначно разрешить совпадение форм, например осёл - осел или берёт - берет.

2. Новый модуль разрешения омонимии в словосочетаниях, когда необходимо привлечение внеграмматических знаний. К примеру, можно сравнить словосочетания кошка спала (от спать) и напряжение спало (стать).

3. В дополнение к предыдущему пункту - база знаний, состоящая из фактов и правил логического вывода и обобщения, позволяющая работать с неоднозначностями в тексте.

4. Переработка движка слогоделителя. Новый слогоделитель должен предоставлять удобные выразительные средства для описания правил деления на слоги не только для русского языка, но и как минимум для английского.

5. Расширение токенизатора. В частности, токенизатор должен передавать морфологическому анализатору информацию, позволяющую различать роль символа - в паттернах человек-паук и кошка - зверь.

6. Учет статистики при распознавании слов с опечатками.

Запланированные работы, не связанные непосредственно с грамматикой:

1. Расширенный формат строки подключения для SQLite в файле конфигурирования словаря, с заданием режима read-only и другими необходимыми параметрами открытия БД.

2. Классы доступа к словарной БД в MSSQL.

3. PHP-модуль для доступа к словарной базе через процедурный API движка.

4. Сборка SDK Грамматического Словаря для MacOS X.

Кроме того, план работ включает ряд "количественных" пунктов, связанных с расширением уже имеющихся функций.

1. Правила морфологического анализа для русского и английского языка.

2. Синтаксический анализатор для английского языка.

3. Русский лексикон - новые словарные статьи, простановка ёфикации и ударений, дополнительные правила морфологического анализа неизвестных слов.

4. Новые правила распознавания "типичных опечаток", в качестве примера: мне кажеться.

24-12-2011 SDK Синонимизатора v.10.27

Все компоненты собраны и протестированы. В комплект входит текущая сборка морфологического модуля и словарь синонимов. Дополнительно собран ознакомительный вариант SDK, содержащий урезанный вариант словаря с меньшим количеством словарных статей и синонимов. В его состав входит консольная версия синонимизатора для Win32, dll синонимизатора, исходники программы Rewriter и еще пара примеров вызова API на C++, C# и Delphi.

скачать ознакомительную версию SDK синонимизатора для Windows 32 бита (16 Мб)

GUI версия демо синонимизатора для Windows 32 бита (32 Мб)

Полная версия SDK синонимизатора содержит инструменты и файлы данных для пересборки словаря, в том числе для добавления своих синонимов и слов.

09-12-2011 Обновления ознакомительных версий SDK

Собраны с текущим набором правил морфологического и синтаксического анализа и выложены на сайте бесплатные ознакомительные версии SDK Грамматического Словаря:

Windows 32 бита (20 Мб)

Linux 32 бита (30 Мб)

Linux 64 бита (31 Мб)


08-12-2011 Обновление Morphology

В новой версии программы Morphology сделаны следующие изменения:

1. Лексикон расширен до полного размера, имеющегося в коммерческой версии SDK.

2. Синтаксический и морфологический анализаторы собраны по текущему набору правил, то есть в нем теперь есть правила для разбора многих конструкций глагольного сказуемого и связок.

Инсталлятор для Windows размером 22 Мб можно скачать по этой ссылке.

08-12-2011 Документация

Добавлены или обновлены описания функций процедурного API синтаксического анализатора:

sol_GetNodeVerPairState

sol_GetNodeVerCoordPair

sol_GetNodePairCoord

sol_GetNodePairState

sol_GetNodePairsCount

sol_GetNodeVerCoordState

sol_GetNodeCoordState

29-11-2011 Обновление с деепричастиями

В новом синтаксическом анализаторе завершены работы над правилами для деепричастных оборотов.

В состав ознакомительной версии SDK для Linux добавлена утилита syntax и скрипты для запуска ее в интерактивном режиме.

Ссылки для скачивания новых версий ознакомительного SDK можно найти здесь.

25-11-2011 Обновление ознакомительной версии SDK

SDK собран по текущей версии лексикона и анализаторов.

В состав добавлены утилиты Debugger и Empirika.

После установки в папке ...\scripts можно найти скрипты для запуска в консоли морфологического разбора предложения console-morphology.cmd, синтаксического разбора console-syntax.cmd, сборки частотной статистики для текстов в папке freq-ru.cmd, сборки базы N-грамм ngram-ru.cmd.

Windows 32 бита (19 Мб)

18-11-2011 Обновления ознакомительных версий SDK

Сделана ревизия состава ознакомительных версий SDK грамматического словаря. Входящий в их состав лексикон немного расширен, добавлен еще один простой пример работы с процедурным API на C++ (см. папку .../demo/ai/solarix/Grammar_Engine/SimpleGREN). Исходный текст этого примера приведен на странице в качестве пояснения для функции sol_ProjectWord.

Windows 32 бита (15 Мб)

Linux 32 бита (28 Мб)

Linux 64 бита (28 Мб)

14-11-2011 Обновления демо SDK и Morphology

1. Собрана ознакомительная версия SDK грамматического словаря с текущим вариантом синтаксического анализатора: скачать (Win32, 16 Мб).

Для использования нового алгоритма синтаксического анализа нужно при вызове из прикладного кода функции sol_SyntaxAnalysis указать для аргумента SyntacticFlags значение 2. Работу этого синтаксического анализатора можно визуально оценить на сайте онлайн-словаря, перейдя по ссылкам:

Большой кот сладко спит на старом кожаном диване

пюре было вкусное, пусть и вчерашнее

Планета Юпитер видна невооруженным глазом

Антонио был хотя и строг, но справедлив

Судьи были строги, но неподкупны и справедливы

2. Обновлена оконная программа Morphology для тестирования морфологического анализатора - скачать (Win, 18 Мб).

3. Обновлен исходный текст файла grammar_engine_api.cpp (160 Кб) с C++ кодом экспорта процедурного API.


10-10-2011 Обновление демо SDK

Обновлена ознакомительная версия SDK Грамматического Словаря:

Скачать архив для Win32 (16 Мб)

Основное изменение - в дистрибутив включены примеры выполнения основных действий на C++ и C# (см. содержимое папки ...\demo\ai\solarix\Grammar_Engine).


10-10-2011 Обновление документации по морфоанализатору

Выложены описания части функций морфологического и синтаксического анализатора:

sol_MorphologyAnalysis - морфологический разбор предложения

sol_DeleteResPack - удаление результатов анализа

sol_CountGrafs - количество альтернативных наборов синтаксических графов

sol_CountRoots - количество корневых узлов

sol_GetRoot - получение корневого узла

sol_CountLeafs - количество дочерних узлов

sol_GetLeaf - получение дочернего узла

Исходный текст API на C++ - файл grammar_engine_api.cpp.


24-09-2011 Обновление алгоритма лемматизатора

В матмодели поправлены некоторые параметры, влияющие на процесс обучения лемматизатора. В результате файл базы данных с правилами уменьшился в два раза для одноязычного русского словаря, улучшилась обработка не-словарных слов.

Полное описание API лемматизатора

Потестировать работу нового лемматизатора можно в онлайне здесь (тестовый сервер обычно доступен в рабочие часы по Москве).


22-09-2011 Обновление русской морфологии online

1. Расширен русский лексикон. Как можно убедиться на странице online статистики, сейчас в русском разделе примерно 145 тысяч словарных статей, 1.8 млн. грамматических форм или около 1.1 миллиона уникальных слов. В базу данных online словаря для тестирования временно залит билингвальный русско-английский словарь, с морфологическими анализаторами для обоих языков.

Доработан алгоритм нечеткого поиска слов с опечатками. Теперь анализатор по возможности оставляет среди вариантов только известные ему слова, и лишь при невозможности такого выбора использует "кванторные" эрзац-слова. Например, в трех нижеприведенных предложениях (по ссылке можно попасть на страницу online анализатора) можно увидеть, что прилагательное распознано однозачно как 'мистический', так как других вариантов нет:

мы смотрим мыстический триллер
мы смотрим миистический триллер
мы смотрим мистичский триллер

В морфологический анализатор добавлена возможность работы с несловарными именами собственными, написанными латиницей:

Корпорация Microsoft объявила о начале разработки новой операционной системы

В этом примере можно увидеть (покликав в результатах морфологического разбора на желтые блоки слов), что слово системы однозначно распознано как существительное в родительном падеже единственного числа, хотя есть омонимичная ему форма множественного числа именительного и винительного падежа. Собственно говоря, именно способность отбросить грамматически недопустимые омонимичные формы и используется при тестировании морфоанализатора с помощью пакетных тестов.

Аналогичная возможность опробована и в английском морфологическом анализаторе. Конечно, английский морфоанализатор основан на том же ядре, что и русский, только подгружает свой набор правил. Для примера можно посмотреть на результаты морфологического разбора такого предложения (это название книги, взято просто для примера, в котором имя собственное Greenspan отсутствует в лексиконе):

Greenspan's fraud: how two decades of his policies have undermined the global economy

Схема SQL словаря для MySQL доработана. В частности, в таблицу lang_alphabet добавлен столбец ordering для явного обозначения основного алфавита языка, чтобы латиница, допустимая и для русского языка, все-таки преимущественного относилась к английскому. Кроме того, скрипт генерации словаря теперь создает все необходимые ограничения foreign key.


13-09-2011 Обновление offline-версии морфологического анализатора

На сайте выложена новая сборка бесплатной программы Morphology.

Она выполняет морфологический разбор предложений и показывает основную грамматическую информацию - часть речи, падеж, род, число, вид, время и так далее.

Ее работа основана на демонстрационной версии DLL грамматического движка. Относительно полной версии данный вариант имеет небольшие ограничения в плане работы с лексиконом и тезаурусом. Кроме того, программа комплектуется несколько урезанным русским словарем.

Функционально программа почти полностью аналогична онлайн-версии морфоанализатора, но не требует доступа к серверу грамматического словаря.


11-09-2011 Изменения в морфологическом анализаторе

Новая ревизия 10.10 выложена на онлайн-сервере. Главное изменение сделано в алгоритме морфологического разбора предложений. Теперь в правилах анализа можно работать не только со словарными статьями, но и с вне-словарными единицами текста. К примеру, в правилах можно задавать наборы произвольных слов и сопоставлять слова с регулярными выражениями. Это позволит работать с различными названиями, включая наименования фирм, товаров и так далее. В качестве проверки концепции можно посмотреть на анализ фраз

на этой удивительно четкой фотографии можно увидеть рассеянное скопление NGC 884

на фотографии можно увидеть спиральную галактику M31

В качестве не-словарных элементов, на которые можно ссылаться в правилах, могут выступать также словосочетания. Сейчас для проверки добавлено распознавание нескольких вводных словосочетаний, к примеру:

Нет никаких сомнений, что я поговорю с Антонио и Элеонор

Еще одно важное нововведение - расширение алгоритма нечеткого поиска слов. Теперь он умеет работать с распространенными опечатками, то есть со словами, которые часто пишутся неправильно либо по ошибке, либо намеренно. Таким образом, вместо внесения в лексикон ненормативных словарных форм и опоры на возможности определения морфологических категорий не-словарных текстовых единиц, мы можем явно обучать морфоанализатор распознавать их. Для проверки в словарь введено несколько таких слов, к примеру:

кошки спят, патамушта они поймали тыщу мышек


05-09-2011 Ревизия 10.09 русской морфологии

На сервере выложена новая серверная версия грамматического словаря.

Внесено много дополнений и правок в лексикон и морфологический анализатор русских предложений. Далее по ссылкам можно увидеть результаты морфологического разбора некоторых предложений, в том числе и содержащих слова с ошибками, либо несловарные единицы.

мы загараем под сонцем

пушыстая кощка спит на деване

я вижу пушыстую суперкошку

бармаглот вяло плюкует

Сервер с онлайн-словарем доступен примерно с 10 до 18 часов по Москве в рабочие дни.

Объем словаря вырос до примерно 136 тысяч словарных статей, или более 1 миллиона уникальных слов.


25-08-2011 Нечеткий анализ в серверном варианте словаря

1. Войдите на страницу http://178.64.252.139:8080/Morphology.aspx

2. Введите в поле ввода предложение пушыстая кощка спит на деване

3. Запустите морфологический анализ.

В результатах можно видеть, что анализатор не только определил грамматические признаки слов пушыстая, кощка и деван, но и обоснованно предположил, что это формы прилагательного пушистый , существительного кошка и диван. Кликните на блоке желтого цвета, чтобы получить развернутый отчет о результатах анализа для конкретного слова.

Кроме того, видно еще одно нововведение. При внимательном просмотре результатов анализа для слова деван можно заметить, что кроме варианта диван найден также вариант девон, но он идет вторым из-за низкой относительной частоты использования этого слова.


24-08-2011 Обновления в русской морфологии v.10.06

В новый релиз грамматического словаря вошел большой набор изменений, среди которых:

1. Новые функции процедурного API: sol_ListPartsOfSpeech - список частей речи, sol_GetEntryFreq - частотная информация о словарной статье, sol_LinksInfoCode - тип связи в тезаурусе, sol_FindEntryCoordPair - проверка наличия грамматического признака в словарной статье, sol_GenerateWordforms - получение грамматической формы по набору морфологических признаков, sol_GetLeafLinkType - определение типа ребра в синтаксическом графе.

2. Полностью переписан алгоритм нечеткого распознавания слов в морфологическом анализаторе. Теперь он умеет быстро искать слова с пропусками букв, с опечатками и подменой.

3. Переработана программа Thesaurus, теперь она использует dll процедурного API для доступа к словарной базе.


09-08-2011 Переработанный модуль стемминга

Полностью переработан алгоритм, генерирующий русский стеммер по информации из лексикона. Изменения в стеммере включают в себя:

1. Технические моменты - существенно повышено быстродействие.

2. Более качественный набор правил усечения за счет того, что при построении происходит анализ промежуточных результатов и итерационное уточнение неточных правил.

3. Особенности русского словоизменения , а именно - учет внутренней флекции.

Новая версия стемминга в виде .NET сборки доступна для тестирования на странице http://178.64.252.139:8080/Stemming.aspx.


31-07-2011 Онлайн-версия грамматического словаря

В течении августа будет (не всегда) доступен сервер, на котором развернуты практически все части грамматического словаря и синонимизатора. Доступ к серверу - по ссылке http://solarix.ru/online/server2.html.

Сервер будет в онлайне обычно в рабочее время по Москве.

Для тестирования используйте логин test и пароль test.


12-05-2011 Обновление API поисковой системы

1. В программный интерфейс поисковой системы добавлены функции sol_LoadPlugins[W,A,8] для загрузки списка плагинов из заданного каталога. Это может быть удобнее, чем переписывание конфигурационного ini-файла и использование sol_ReadIni.

2. В SDK поисковой системы включены все основные плагины, включая те, что обеспечивают извлечение текста из различных офисных документов и распаковку архивов. Файлы плагинов вместе с необходимыми дополнительными файлами располагаются в подкаталоге ...\lib\faind-plugins.

3. Демонстрационная программа, входящая в состав SDK, содержит пример вызова sol_LoadPluginsW для загрузки имеющихся в SDK плагинов. Включение загруженных плагинов в процесс поиска текста выполняется автоматически без каких-либо дополнительных команд.

4. В метаплагине 2text сделано несколько правок. В частности, при запуске внешних обработчиков, то есть автономных исполнимых модулей для выделения текста, путь к обрабатываемому файлу задается как абсолютный. Кроме того, в плагин внесены дополнительные возможности, обеспечивающие интеграцию поисковой системы с модулем OCR.

Скачать архив SDK поисковой системы с полной поддержкой русской морфологии (22 Мб)


05-05-2011 Текущие планы выпуска релиза

Основные изменения в ближайшем большом релизе будут затрагивать прежде всего грамматический словарь и опирающиеся на него проекты.

1. Правки в определении французской грамматики, изменены правила склонения прилагательных и спряжения глаголов, французский лексикон немного почищен.

2. Русский лексикон - расширение словарной базы и правки опечаток.

3. Синонимизатор и перефразировщик - поправлены правила перефразировки, в движке правил трансформации исправлены несколько ошибок.

4. Полнотекстовый переводчик - выполнена отладка модуля реконструкции текста, в нем поправлены некоторые ошибки. На будущее намечено расширение алгоритма за счет учета в нем широкого контекста.


16-04-2011 Обновление SDK поисковой системы

В новый дистрибутив SDK поисковой системы вошли изменения:

1. Добавлена функция sol_PrepareQueryForText, позволяющая выполнять поиск в строке, находящейся в оперативной памяти.

2. В демо-программу включен тест на многопоточность поиска.

3. Исправлена работа команды -multiword вместе с опцией -onceperfile, в прежних версиях был баг, приводивший к зацикливанию фиксации и исчерпанию оперативной памяти.

Дистрибутив доступен по этой ссылке


30-03-2011 Грамматический Словарь и SDK v.9.17

В программу Грамматический Словарь Русского Языка и в SDK Словаря внесены следующие изменения:

1. В русский лексикон добавлено примерно 5 тысяч новых словарных статей.

2. Произведен очередная выверка русского и английского лексикона, поправлены опечатки и ошибки.

3. Добавлены правила морфологического анализа для английского раздела.

4. При отображении словарной статьи секции тезауруса и примеров использования можно убрать, кликнув по символу [-] в заголовке.


21-02-2011 Грамматический Словарь в.9.11

В программу Грамматический Словарь Русского Языка внесены изменения:

1. При выводе русских наречий отображаются формы превосходной степени, если они есть.

2. При выводе английских наречий отображаются сравнительная и превосходная степени, если они есть.

3. Добавлено около сотни новых русских существительных.

4. В русский и английский тезаурус добавлено множество связей для деривативов и родовых пар.

5. Исправлены найденные ошибки.


Скриншоты для наречий можно увидеть на этой странице.


07-02-2011 Обновление Грамматического Словаря

В программу Грамматический Словарь Русского Языка внесены изменения:

1. Изменен вывод списка словарных статей, соответствующих введенному префиксу или слову, в начале списка идут наиболее близкие по длине статьи.

2. При визуализации английских словарных статей выводятся маркеры ударения.

3. В английский лексикон добавлены сведения о положении ударения для ~50 существительных и прилагательных, образующих пары с идентичным написанием базовой формы.


05-02-2011 Исходные тексты C API

На сайте выложены 2 файла с исходными текстами на C++ двух API:

grammar_engine_api.cpp - грамматический словарь

search_engine_api.cpp - поисковый движок

Это немодифицированные тексты, которые реализуют переход от ООП внутренностей соответствующих проектов к C-style программному интерфейсу. Оба файла компилируются 32- и 64-битными компиляторами под Windows, Linux и MacOS X.


01-02-2011 Обновление SDK поисковой системы

Изменения затрагивают как функциональность поискового движка, так и состав SDK.

1. Поисковый движок faind.win32.dll перекомпилирован с поддержкой веб-краулера (команды -url и вспомогательные), и команды -multiword

2. В SDK включены все основные плагины, в том числе для документов формата PDF и офисных, а также плагины-распаковщики.

3. В SDK включены 2 новых примера: DocFinder для поиска по документам в заданной папке без индексирования, и WebCrawler в качестве примера использования веб-краулера для поиска ключевых слов на заданном списке сайтов. Оба примера включены вместе с исходными текстами на C++.

Скачать SDK объемом примерно 21 мегабайт можно по ссылке


18-01-2011 Обновление Dictionary ORM

В библиотеке доступа к SQL словарю для платформы .NET переработаны классы, предоставляющие доступ к разным моделям СУБД.

1. Переработаны классы MySQL_DataAccessLayer и FireBird_DataAccessLayer для доступа к MySQL и FireBird, вместо ODBC они используют свои официальные .NET провайдеры.

2. Добавлен класс Oracle_DataAccessLayer для доступа к словаю в Oracle.

3. Добавлен класс ODBC_DataAccessLayer для доступа к БД через ODBC.


14-01-2011 Быстрый поиск словарных статей

Полностью переписан алгоритм быстрого поиска словарных статей по glob-маске для грамматических форм. Соответствующий модуль используется в программе Грамматический Словарь Русского Языка, кроме того он уже экспортируется в SQL форму для MySQL, SQLite, MySQL и MS SQL. В будущем планируется построить на его основе новую подсистему проекции слов, в том числе нечеткий поиск - с пропусками, вставками лишних символов и заменами.

Новая версия Грамматического словаря доступна для ознакомления.


08-01-2011 Алфавиты

Подсистема, отвечающая за хранение данных об алфавитах, буквах и так далее, полностью переработана - см. ее описание.

Внутренее представление буквостатей и буквоформ изменено на использование 32-битной кодировки символов UCS-4, вместо использовавшейся ранее в Windows кодировки UCS-2.

SQL словарь теперь формируется с набором таблиц, представляющих алфавиты. Новые таблицы имеют префиксы ABC. Новые скрипты для формирования демонстрационной базы данных грамматического словаря залиты на сайт.

Объявление французского алфавита переработано таким образом, что нормализация текста не устраняет диактрические значки.

В описание грамматического словаря введены 2 параметра - основной и второй языки. На основе этих параметров выполняется привязка алгоритма нормализации к подмножеству алфавитов.


22-12-2010 Тестовая база N-грамм в SDK

В состав SDK грамматического словаря, а также демо-SDK, включена крошечная тестовая база N-грамм.

Работа с этой базой демонстрируется в программе TestLexicon, исходные тексты которой входят в SDK. Выполняется вызов функций sol_Seek1Grams ... sol_Seek5Grams для получения частоты соответствующих паттернов, для буквального соответствия и с лемматизацией.

Программа Lexicon, также входящая в состав SDK, тоже способна дать доступ к этой базе. Достаточно запустить её, выбрать в начальном меню пункт "запросы к N-граммам", и далее увидеть статистику базы и делать запросы к ней.


12-12-2010 Консольный поиск под Linux

На сайте доступны архивы поисковой утилиты, собранные для 32- и 64-х битных версий Linux, а также небольшое введение в работу с утилитой.


08-12-2010 Релиз версии 9

Доступны: SDK Грамматического Словаря, SDK SQL Словаря, SDK Синонимизатора и Перефразировщика.

В планах - релиз поисковой системы с измененным морфологическим блоком.


04-12-2010 Пользовательский словарь в Linux

В архив SDK под Linux включены средства для создания пользовательского словаря как комбинации из базового русского словаря и словарных статей, а также связей для тезауруса, определяемых в текстовом файле.

Пошаговое описание сборки под Linux - здесь.

Описание способов модификации словаря - здесь.


30-11-2010 Местоимения в грамматическом словаре

В Грамматическом словаре русского языка сделано отображение форм местоимений. Кроме того, для всех местоимений добавлена ёфикация - хранящиеся в БД отметки для грамматических форм с употреблением буквы ё (подробности тут).

Вот так выглядит страница для местоимения в новой версии.


29-11-2010 Тестовая сборка SDK под Linux

По ссылке http://narod.ru/disk/483920001/libgren.7z.html доступен архив с текущей отладочной сборкой SDK Грамматического Словаря под Linux.

Кратко о том, что изменяется в версии 9 грамматического словаря - здесь.


14-11-2010 Что будет в версии 9

Основной упор в новой версии грамматического словаря сделан на полной переработке хранилища словаря. На данный момент полностью завершены переделки в тезаурусе. В лексиконе осталось реализовать новый механизм хранения и загрузки словарных статей.

Пример того, что позволяет сделать новый движок, можно найти в блоге.


04-11-2010 Обновление Morphology

На сайте обновлен дистрибутив Morphology - морфологического анализатора предложений на русском языке с простым графическим интерфейсом.

В эту версию вошли последние изменения в наборе правил морфологического разбора и прочие правки в грамматическом словаре.

Описание программы ...


31-10-2010 Демо версия SDK 8.54

На сайте обновлен дистрибутив демо-версии SDK грамматического словаря со всеми последними добавлениями и исправлениями.


30-10-2010 Грамматический словарь 8.54

Добавлена виртуальная экранная клавиатура с русским алфавитом для удобства использования программы в не-русифицированных ОС.

Введен дополнительный режим отображения содержимого словаря - тезаурус, в дополнение к ранее имевшимся базовому и диаграмме тезауруса.

Описание программы и ссылка для скачивания и покупки ...


25-10-2010 Обновление программы Морфология

В морфологический анализатор русского языка добавлено множество эвристик, например "существительные в перечислении обычно стоят в одном падеже".

Программа Morphology, использующая в данный момент демо-версию словаря и библиотеки процедурного API, обновлена и доступна для скачивания в статусе альфа-версии.


19-10-2010 Лемматизатор в Mac OS X

Динамическая библиотека лемматизатора собирается под Mac OS X и успешно проходит комплексный тест.


13-10-2010 Расширенное описание тезауруса

Добавлено несколько статей с детальным описанием отдельных видов связей в тезаурусе - см. здесь.


13-10-2010 Обновление Грамматического Словаря Русского Языка

Среди изменений - порция новый словарных статей, преимущественно существительных, количественное расширение тезауруса. Также поправлены опечатки и ошибки в парадигмах склонения некоторых существительных.

Описание программы и ссылка для скачивания и покупки ...


10-10-2010 SQL словарь и ORM библиотека

1. В библиотеку ORM введен слой доступа к словарю в FireBird. В схему, генерируемую утилитой экспорта для данной СУБД, внесены дополнения. Чтобы обеспечить прозрачную для многопользовательской работы генерацию первичных ключей при добавлении в лексикон и тезаурус новых данных, скрипт заливки словаря создает несколько генераторов командами CREATE SEQUENCE.

2. Внесены модификации в схему словаря для MS SQL. Для прозрачной генерации первичных ключей у соответствующих столбцов задано свойство IDENTITY, в скрипт заливки добавлены команды SET IDENTITY_INSERT, чтобы обеспечить нормальный импорт данных командами LAOD DATA. Слой доступа к словарю в MS SQL переработан для поддержки новой схемы генерации ключей - после команд INSERT первичный ключ новой записи определяется запросом SELECT @@IDENTITY.

3. Документация по ORM библиотеке существенно дополнена - большинство доступных пользователю классов получили краткое описание, доступ к описаниям есть из списка классов на главной странице.

4. SQL словарь оформлен как отдельный программный продукт

, доступный для приобретения.


free counters
     
предыдущие новости »