Морфологическая библиотека для разработчиков(en)
Компания «Информатик» предлагает для разработчиков программные морфологические модули, которые предназначены для решения широкого класса задач, требующих средств поиска и анализа текстовой информации. Например, информационно-поисковые системы, аналитические системы и каталоги электронных документов.
В морфологических модулях компании «Информатик» используются передовые технологии обработки текста, лингвистические и математические алгоритмы, которые могут быть использованы для контекстного поиска документов с учетом всех словоформ, нахождения синонимов, проверки грамматики, проверки орфографии и для решения задач, построенных на основе анализа информационных массивов.
Разработанные компанией «Информатик» морфологические модули используют в своих системах такие организации как: Samsung, Syngenta, Quantum Art, ALP, Яndex и многие другие.
Цены на морфологические модули для разработчиков
Проверка орфографии
Проверка орфографии (Speller) - полноценный модуль проверки орфографии: с выдачей подсказок и добавлением новых слов в словарь пользователя сразу во всех словоформах.
Модуль добавления слов в словарь пользователя реализован в 2 вариантах:
- со встроенным экранным интерфейсом
Генерирует список гипотез о парадигме добавляемого слова, упорядоченный по степени их соответствия правилам русского языка. В 90% случаев правильная гипотеза находится среди первых трех гипотез. Пользователь выбирает из списка правильную гипотезу, и слово заносится в словарь со всеми словоформами. Если слово обладает более сложной парадигмой, пользователь может выбрать ее из остальной части списка. Словарь пользователя может подключаться к остальным лингвистическим модулям компании "Информатик".
- без экранного интерфейса
Генерирует список гипотез о парадигме добавляемого слова, упорядоченный по степени их соответствия правилам русского языка. API позволяет получить список словоформ каждой гипотезы и ее характеристики (например, часть речи). Выбранные гипотезы могут быть добавлены в словарь пользователя, который будет затем использован при проверке. Словарь пользователя подключается к остальным лингвистическим модулям компании «Информатик».
Реализован для следующих языков:
- Русский;
- Украинский;
- Английский;
- Французский;
- Немецкий;
- Испанский;
- Итальянский;
- Португальский.
Продукт поставляется в виде динамической библиотеки (*.dll) для Windows.
Проверка грамматики
Проверка грамматики (Russian Grammar) – проверяет более 40 различных грамматических правил русского языка, включая расстановку запятых. На тестах обнаруживает более 50% распространенных грамматических и синтаксических ошибок. Модуль на выходе выдает текстовое описание ошибки, а также часть предложения (абзаца), где ошибка найдена.
Продукт поставляется в виде динамической библиотеки (*.dll) для Windows.
Морфология
Морфологические библиотеки для русского, украинского, английского, немецкого, французского, испанского, итальянского и португальского языков
Морфологические библиотеки - объединяют несколько модулей предназначенных для морфологического анализа слов и позволяют решить следующие задачи:
- Приведение слов к словарной форме. Для поиска одной формы слова по другой его форме. Этот модуль приводит слова к словарной форме в соответствии с информацией из основного словаря или пополняемого морфологического словаря пользователя неограниченного объема. Для каждого слова дополнительно сообщается часть речи и 4-х байтный цифровой хэш-код (hash-code), с помощью которого можно индексировать тексты;
- Синтез всех форм заданного слова. Модуль выдает все формы заданного слова, если оно находится в основном словаре или пополняемом морфологическом словаре пользователя неограниченного объема.
Библиотека позволяет провести точный анализ слов, находящихся в словаре ОРФО. В русском словаре общей лексики содержится около 180 тысяч словарных статей (лексем), в специализированных словарях еще около 60 тысяч, дающих вместе более 4-х миллионов словоформ. База для украинского языка содержит около 130 тысяч лексем, для английского - около 115 тысяч, для немецкого – 100 тыс., итальянского – 80 тыс., французского - 45 тыс., испанского - 48 тыс., португальского - 50 тыс., португальского (Бразилия) - 43 тыс. лексем. Для неизвестных слов библиотека с высокой степенью достоверности помогает сделать предсказание грамматических характеристик и парадигмы на основе комплекса правил словоизменения.
Ключевые характеристики модуля:
- словари общеупотребительной лексики большого объема;
- система быстрого пополнения словаря: в 99% случаев система сама определит тип словоизменения вводимого слова;
- система генерации уникальных идентификаторов слов: каждому слову, известному системе, ставится в соответствие уникальный идентификатор, позволяющий организовать компактный индекс произвольного массива документов с последующим поиском, учитывающим все словоформы.
Библиотека поможет включить морфологический анализ в системы информационного поиска. Она поддерживает все возможности морфологического анализа для известных слов: определение грамматических характеристик слова, приведение к словарной форме, получение требуемых словоформ.
Продукт поставляется в виде динамической библиотеки (*.dll) для Windows.
Потестировать работу морфологических модулей on-line можно здесь
API модуля морфологии можно прочитать он-лайн или скачать в виде PDF-файла.
Тезаурус
Тезаурус (Russian Thesaurus) - выдача синонимов, антонимов и родственных слов русского языка.
Словарь синонимов русского языка включает более 70 000 русских слов и выражений, образующих около 10 000 групп синонимов (более 30 000 слов и выражений), 3 500 антонимов и 14 000 рядов родственных слов (около 20 000 однокоренных слов).
Тезаурус располагает возможностями:
- распознавание русских слов независимо от их формы в тексте;
- для любого слова Тезаурус предлагает синонимы и антонимы в той же форме, что и исходное слово.
Продукт поставляется в виде динамической библиотеки (*.dll) для Windows.
Расстановка переносов
Расстановка переносов (Russian Нyphenation) - расстановка переносов в словах русского языка.
Есть возможность задавать качество переноса: Книжное или Газетное и код символа переноса. Сохраняется буква ё.
Продукт поставляется в виде динамической библиотеки (*.dll) для Windows.
Поиск для Microsoft
Russian Indexer for Microsoft - позволит Вам значительно расширить возможности Microsoft Indexing Service и Microsoft SQL Server при работе с документами на русском языке: Вы сможете осуществлять поиск с учетом всех грамматических форм слов на основе морфологического анализа. Модуль предназначен для системных интеграторов и разработчиков приложений, использующих возможности морфологического поиска.
Russian Indexer for Microsoft предоставит Вам возможность:
- создавать полнотекстовые индексы (full text search index) в Microsoft SQL Server с учетом морфологии русского языка, что существенно упростит задачи администрирования и использования индексов;
- повысить точность, полноту и скорость поиска;
- использовать эффективный поиск по сайту/интернет-магазину Вашей компании.
Учет морфологии русского языка позволяет:
- корректно определять границы и форму слов;
- использовать список стоп-слов.
Преимущества Russian Indexer for Microsoft:
- разработан в соответствии со спецификацией Microsoft;
- поддерживает следующие форматы документов: MS Office, XML, html;
- имеет возможность расширения списка форматов;
- работает с файловой системой каталогов (WEB, архив документов);
- работает с полями таблиц базы данных;
- имеет словарь стоп-слов, настраиваемый на предметную область;
- имеет словарь общеупотребительной лексики - 280 тысяч слов (4,5 миллиона словоформ).
Авторизация/Регистрация
support@informatic.ru
Пожелания по работе магазина
sales@informatic.ru
Вопросы оплаты и получения программного обеспечения
Your wishes for the work shop