- это комплексный инструмент для разработки информационно-поисковых и аналитических систем, требующих лингвистического анализа текста на русском языке.
Ядро пакета представляет библиотека
RCO FX Ru, которая осуществляет полный синтактико-семантический разбор русского текста. Библиотека выделяет различные классы сущностей, упомянутых в тексте (персоны, организации, география, предметы, действия, атрибуты и др.), и строит сеть отношений, связывающих эти сущности, а также предоставляет всю грамматическую информацию о составляющих текста. Средства библиотеки также обеспечивают семантическую интерпретацию результатов разбора текста поиск описаний ситуаций, удовлетворяющих заданным семантическим шаблонам.
В состав лингвистического обеспечения пакета, помимо общих словарей и правил русского языка, входят правила выделения специальных объектов (дат, адресов, документов, телефонов, денежных сумм, марок автомобилей и пр.), шаблоны для распознавания различных классов событий и фактов (сделок, экономических показателей, конфликтов, биографических фактов и пр.), характеристик объекта (позитива, негатива и др.), высказываний прямой и косвенной речи.
Совместно с пакетом RCO Fact Extractor SDK могут быть использованы расширения, позволяющие решать ряд дополнительных типовых задач, встающих перед разработчиками прикладных информационных систем:
-
Построения смыслового портрета документа – множества слов и словосочетаний, ранжированных по значимости (RCO TopExtractor SDK);
-
Построения реферата текста, в том числе рефератов по каждой сущности (RCO TopExtractor SDK);
-
Построения ассоциативной семантической сети текста или коллекции текстов (RCO TopExtractor SDK);
-
Построения иерархического глоссария по коллекции текстов (RCO Glossary Maker);
-
Трансляции запроса на естественном языке в пакет запросов поисковой машины (RCO Query Parser SDK);
-
Обработки частично-структурированных документов (RCO Block Parser SDK);
-
Выявления информационных дублей (RCO Deduplicator SDK).
Все перечисленные расширения поставляются в виде пакетов для разработки программного обеспечения, требующих для работы установленный RCO Fact Extractor SDK.
RCO Fact Extractor SDK выпускается в редакциях
Standard,
Standard Plus,
Professional и
Exclusive.
RCO Fact Extractor SDK в редакции
Standard позволяет выделять из текста все упомянутые в нем сущности с их характеристиками, необходимыми для построения информационного портрета текста, а также определять общие стилистические характеристики текста и отдельных предложений.
RCO Fact Extractor SDK в редакции
Standard Plus дополнительно к редакции
Standard позволяет выделять из текста описания событий и фактов в соответствии с заданными семантическими шаблонами.
RCO Fact Extractor SDK в редакции
Professional дополнительно к редакции Standard Plus обеспечивает доступ к семантической сети текста (получение синтактико-семантических связей между сущностями), а также к полному набору грамматических атрибутов сущностей.
RCO Fact Extractor SDK в редакции
Exclusive дополнительно предусматривает подключение собственных модулей в процесс обработки текста, поставку словарей и лингвистических правил в открытом виде, а также их настройку и доработку под клиента.