Исходные тексты поисковой машины и грамматического движка

Существует 2 способа использования алгоритмов проекта Solarix Intellectronix - в виде исходных текстов или через загружаемые библиотеки (в виде .NET компонента или обычной DLL). Второй вариант использования подробно описан здесь. По большому счету программы проекта можно разбить на 2 группы - собственно поисковый движок в разных видах (консольные и оконные утилиты, встраиваемые компоненты), и вспомогательные/исследовательские программы (компилятор словаря compiler, статистическая обработка текста empirika, консольный и оконный отладчики lexicon, syntax и wdebugger). Вторая группа программ предназначена для более глубокой работы с проектом - например, для модификаций словаря.

Использование исходных текстов поисковой машины

Для того, чтобы использовать части Проекта в своих разработках в виде исходников, Вам необходимо загрузить исходные тексты системы, подготовить некоторые программы и убедиться в их работоспособности. Все это потребует большого опыта разработки программ средствами Borland C++ Builder или Microsoft VisualStudio, мы же постараемся детально описать все тонкости компилирования служебных утилит Проекта.

Bootstrapping - распаковка исходников и вспомогательных библиотек, компиляция словаря и программ

Source codes - описание библиотеки поискового движка - классы, процедуры

Portability - замечания о портабельности кода

Benchmarking - тесты на скорость обработки информации

Plugins - плагины поисковой машины

Проверка работы системы, тесты, исследования

Получив в свое распоряжение набор инструментов для работы с текстами, можно выполнять разнообразные лингвистические исследования. В данном подразделе мы приводим некоторые результаты таких исследований, которые могут быть полезны для разработчиков, связанных с компьютерной лингвистикой, обработкой вербальной информации (речи или текста).

Анализ словаря поисковой машины - статистическая обработка содержимого Словаря - программа decompiler

Морфологический анализ слов - использование программ lexicon и wdebugger для отладки словаря

Грамматический анализ предложений - проверка работы синтаксического анализатора

Статистический анализ текстов - программа empirika

изменено 31-Jan-10

  © Mental Computing 2010