Генератор текста

Алгоритмы генератора текста

При генерации текста движок учитывает множество особенностей русского языка, среди которых:

1. падежная модальность предлогов (ДЛЯ КОШКИ, ПОД ДИВАНОМ), глаголов и отглагольных частей речи - причастий, инфинитивов, деепричастий (КОРМИТЬ КОШКУ, ДАВАТЬ КОШКЕ, ДУМАТЬ ГОЛОВОЙ),

2. глагольная модальность существительных (РАЗРЕШЕНИЕ КУПИТЬ КОШКУ), глаголов и отглагольных частей речи - причастий, деепричастий, инфинитивов (РЕШАЯ КУПИТЬ КОШКУ,РАЗРЕШИВШИЙ КУПИТЬ КОШКУ),

3. прагматика - сочетаемость конкретных слов (КОРМИТЬ КОШКУ, но ПОДКАРМЛИВАТЬ ФИКУС) - на основе базы N-грамм.

Также доступны следующие возможности по управлению генератором:

1. Задание набора используемых слов - см. вызовы API sol_SetWordsForPhrase и sol_Set2GramsToPhrase.

2. Автонастройка генератора на статистические параметры эталонного текста, a.k.a. имитация с помощью sol_BuildKnowledgeBase и sol_LoadKnowledgeBase.

Движок генерирует текст по одному предложению на один вызов sol_GeneratePhrase. Крупномасштабная структура текста, в частности упорядочивание в параграфы, должна создаваться вызывающим прикладным кодом.

Стохастичность результатов обеспечивается несколькими генераторами псевдослучайных чисел с равномерным распределением, с помощью которых выполняется равновероятный выбор слов по частям речи. С помощью специального вызова API sol_RandomizePhraseGenerator  или опцией -randomize командной строки для утилиты Rewriter можно инициализировать генератор случайных чисел так, что каждый запуск будет давать новые результаты.

Образец сгенерированного текста:

Всем известно, что неладно возвысившаяся кожа в кооперации с измышленным анабиозом является кондиционным Пантелеймоновичем, только если прокручивания мозгуют. Елейная полынья начерпывает указки эквадорским и по-ястребиному уставшим отпиливанием, только когда мальковые Шаталовы не дивятся. Общеизвестно, что сначала гарпунер разрисовывает не приподнятых сервисы незалежным азербайджанцем козырной Адриановны, хотя иногда подламывающаяся клетушка исключительно несоизмеримо прошибает.

Пример использования API генератора текста

В состав SDK синонимизатора входит утилита Rewriter, которая с помощью опций командной строки может настраиваться на генерацию случайного текста заданной длины с записью результата в текстовый файл.

Дополнительные материалы

Грамматический словарь

  © Elijah Koziev 2010
прикладные проекты на основе грамматического словаря API грамматической машины компоненты для доступа к грамматическому словарю условия получения SDK токенизатор и сегментатор морфологический анализ и синтез лемматизатор база N-грамм синтаксический анализатор словоформы морфология и синтаксис русского языка падеж число род совершенный и несовершенный вид экспорт в SQL формат экспорт в XML формат скрипт SQL словаря структура SQL словаря структура XML словаря компоненты для доступа к грамматическому словарю ORM Persistent Dictionary Library лемматизация стемминг примеры использования грамматического словаря склонение существительных в русском языке склонение русских прилагательных спряжение глаголов в русском языке поиск текста с учетом морфологии OCR подсистема расширенные регулярные выражения генератор текста генератор случайного текста и имитатор рандомизатор синонимизатор перефразировщик Статистика буквенных паттернов

Грамматический словарь русского языка



Грамматический словарь
склонение и спряжение глаголов, существительных, прилагательных

В состав входит русский и английский словарь.

платформа:  Windows 2000 ... Windows 7
требования: 512 Mb свободной памяти, 300 Мб на диске
размер:         34 Мб

  скачать грамматический словарь купить грамматический словарь SDK грамматического словаря
грамматический словарь русского языка



SDK Грамматического словаря



SDK Грамматического Словаря
склонение и спряжение глаголов, существительных, прилагательных

В состав входит русский и английский словарь.

платформа:  Windows 2000 ... Windows 7
размер:         13 Мб

SQL словарь (демо):
sqlite mysql oracle firebird mssql

скачать демо-версию SDK купить SDK API грамматического словаря



Поисковая система



Integra
настольная и сетевая поисковая система 

платформа:  Windows XP ... Windows 7
требования: 512 Mb свободной памяти
размер:         21 Мб

Дополнительные компоненты:
MySQL поисковый сервер 13.5 Мб
Integra.Premium MySQL 3.9 Мб

скачать поисковую систему SDK поисковой системыописание поисковой системы



SDK Поисковой системы



SDK Поискового движка
API для настольной и сетевой поисковая система 

платформа:  Windows XP ... Windows 7
размер:         17 Мб

Дополнительные компоненты:

MySQL поисковый сервер 13.5 Мб
Integra.Premium MySQL 3.9 Мб

скачать SDK SDK поисковой системы



Экранный переводчик



Translator
экранный переводчик

платформа:  Windows XP ... Windows 7
требования: 256 Mb свободной памяти
размер:         4.4 Мб

Дополнительные компоненты:
расширенный англо-русский словарь 6.4 Мб


скачать экранный переводчикописание экранного переводчика



изменено 16-Aug-11