Классификатор текста в грамматическом словаре

Процедуры API классификатора

Суффиксы W, A и 8 в именах процедур

Для удобства вызова на разных платформах процедуры, работающие с текстами, имеют по 3 разновидности:

суффикс W - работают с wchar_t символами, соответствующими текущей платоформе

суффикс A - работают с однобайтовыми символами, кодовая страница определяется настройками пользовательской сессии

суффикс 8 - текст кодируется utf-8

Загрузка базы данных классификатора

HCLASSY sol_LoadClassifierWconst wchar_t * filepathconst wchar_t * dictionary_xml )

HCLASSY sol_LoadClassifierAconst char * filepathconst char * dictionary_xml )

HCLASSY sol_LoadClassifier8const char * filepathconst char * dictionary_xml )

Входные аргументы:

filepath - путь к папке с файлами базы данных классификатора, которые созданы при обучении классификатора по эталонным документам.

dictionary_xml - путь к файлу с описанием загружаемого словаря.

Возвращаемое значение:

Дескриптор объекта классификатора.

Этот дескриптор указывается при вызове остальных процедур. Для удаления объекта следует использовать вызов sol_DeleteClassifier.


Удаление классификатора из памяти

void sol_DeleteClassifierHCLASSY hEngine )


Создание блока параметров, управляющих классификацией

HCLSOPT sol_CreateClassifierParamsHCLASSY hEngine )

Создается контейнер, в котором с помощью процедур sol_SetClassifierParam можно сохранить различные параметры, влияющие на процесс классификации. Дескриптор контейнера можно затем указывать при вызове sol_ClassifyText.


Задание значения управляющего параметра

int sol_SetClassifierParamWHCLASSY hEngineHCLSOPT hOptconst wchar_t * Paramconst wchar_t * Value )

int sol_SetClassifierParamAHCLASSY hEngineHCLSOPT hOptconst char * Paramconst char * Value )

int sol_SetClassifierParam8HCLASSY hEngineHCLSOPT hOptconst char * Paramconst char * Value )

Входные аргументы:

hEngine - дескриптор классификатора, возвращенный при вызове sol_CreateClassifier.

hOpt - дескриптор контейнера для параметров, возвращенный при вызове sol_CreateClassifierParams

Param - имя параметра

Value - значение параметра в текстовом виде

Возвращаемое значение:

0 - параметр успешно сохранен в контейнере

-1 данный параметр не используется, возможно имя задано некорректно

-2 указанное значение параметра некорректно


Удаление блока параметров классификации

void sol_DeleteClassifierParamsHCLSOPT hOpt )

Входные аргументы:

hOpt - дескриптор контейнера, возвращенный при вызоде sol_CreateClassifierParams.


Классификация текста

HCLSRES sol_ClassifyTextWHCLASSY hEngineconst wchar_t * Textint LanguageIdHCLSOPT Flags )

HCLSRES sol_ClassifyTextAHCLASSY hEngineconst char * Textint LanguageId, HCLSOPT Flags )

HCLSRES sol_ClassifyText8HCLASSY hEngineconst char * Textint LanguageId, HCLSOPT Flags )

Входные аргументы:

Text - указатель на терминируемую нулем строку текста, для которой выполняется обработка.

LanguageId - код языка (см. константы в API грамматического словаря), если указать -1, то классификатор будет пытаться определить язык сам.

Flags - дескриптор контейнера для дополнительных управляющих параметров, возвращенный при вызове sol_CreateClassifierParams.

Возвращаемое значение:

Дескриптор результатов классификации, с помощью которого можно определять различные элементы классификации с помощью функций sol_GetBextTopicName и sol_GetBestTopicScores.


Получение наименования лучшего топика в категории

const wchar_t* sol_GetBestTopicNameWHCLASSY hEngineHCLSRES hClsconst wchar_t * Category )

const char* sol_GetBestTopicNameAHCLASSY hEngineHCLSRES hClsconst char * Category )

const char* sol_GetBestTopicName8HCLASSY hEngineHCLSRES hClsconst char * Category )

Входные аргументы:

hCls - дескриптор результатов классификации, возвращаемый sol_ClassifyText.

Category - наименование интересующей категории, как оно было объявлено в файле обучения классификатора.

Возвращаемое значение:

Возвращается наименование топика в том виде, как оно было объявлено в файле обучения классификатора.

NULL в случае ошибки.


Получение достоверности лучшего топика в категории

double sol_GetBestTopicScoresWHCLASSY hEngineHCLSRES hClsconst wchar_t * Category )

double sol_GetBestTopicScoresAHCLASSY hEngineHCLSRES hClsconst char * Category )

double sol_GetBestTopicScores8HCLASSY hEngineHCLSRES hClsconst char * Category )

Входные аргументы:

hCls - дескриптор результатов классификации, возвращаемый sol_ClassifyText.

Category - наименование интересующей категории, как оно было объявлено в файле обучения классификатора.

Возвращаемое значение:

Возвращается относительная достоверность классификации в заданной категории. Чем выше это число, тем более достоверно выполнен анализ.


Удаление классификации

int sol_DeleteClassificationHCLSRES hCls )


Дополнительные материалы

API грамматической машины

Приобретение SDK грамматического словаря

  © Elijah Koziev 2010
прикладные проекты на основе грамматического словаря API грамматической машины компоненты для доступа к грамматическому словарю условия получения SDK токенизатор и сегментатор морфологический анализ и синтез лемматизатор база N-грамм синтаксический анализатор словоформы морфология и синтаксис русского языка падеж число род совершенный и несовершенный вид экспорт в SQL формат экспорт в XML формат скрипт SQL словаря структура SQL словаря структура XML словаря компоненты для доступа к грамматическому словарю ORM Persistent Dictionary Library лемматизация стемминг примеры использования грамматического словаря склонение существительных в русском языке склонение русских прилагательных спряжение глаголов в русском языке поиск текста с учетом морфологии OCR подсистема расширенные регулярные выражения генератор текста генератор случайного текста и имитатор рандомизатор синонимизатор перефразировщик Статистика буквенных паттернов

Грамматический словарь русского языка



Грамматический словарь
склонение и спряжение глаголов, существительных, прилагательных

В состав входит русский и английский словарь.

платформа:  Windows 2000 ... Windows 7
требования: 512 Mb свободной памяти, 300 Мб на диске
размер:         34 Мб

  скачать грамматический словарь купить грамматический словарь SDK грамматического словаря
грамматический словарь русского языка



SDK Грамматического словаря



SDK Грамматического Словаря
склонение и спряжение глаголов, существительных, прилагательных

В состав входит русский и английский словарь.

платформа:  Windows 2000 ... Windows 7
размер:         13 Мб

SQL словарь (демо):
sqlite mysql oracle firebird mssql

скачать демо-версию SDK купить SDK API грамматического словаря



Поисковая система



Integra
настольная и сетевая поисковая система 

платформа:  Windows XP ... Windows 7
требования: 512 Mb свободной памяти
размер:         21 Мб

Дополнительные компоненты:
MySQL поисковый сервер 13.5 Мб
Integra.Premium MySQL 3.9 Мб

скачать поисковую систему SDK поисковой системыописание поисковой системы



SDK Поисковой системы



SDK Поискового движка
API для настольной и сетевой поисковая система 

платформа:  Windows XP ... Windows 7
размер:         17 Мб

Дополнительные компоненты:

MySQL поисковый сервер 13.5 Мб
Integra.Premium MySQL 3.9 Мб

скачать SDK SDK поисковой системы



Экранный переводчик



Translator
экранный переводчик

платформа:  Windows XP ... Windows 7
требования: 256 Mb свободной памяти
размер:         4.4 Мб

Дополнительные компоненты:
расширенный англо-русский словарь 6.4 Мб


скачать экранный переводчикописание экранного переводчика



изменено 16-Aug-11