Д.В. ЛАНДЕ, В.М. ФУРАШЕВ. Системи моніторингу, витягу фактів, побудови зв'язків на основі аналізу неструктурованих текстів

УДК 681.3

Д.В. ЛАНДЕ,
В.М. ФУРАШЕВ,
доктор технічних наук, старший науковий співробітник
кандидат технічних наук, доцент, старший науковий співробітник
    
  Анотація. Огляд поширеніших систем моніторингу інформаційних ресурсів з Інтернет-простору, глибинного аналізу текстів та побудови зв`язків понять, які екстрагуються з неструктурованих текстів.
Аннотация. Обзор наиболее распространенных систем мониторинга информационных ресурсов Интернет-пространства, глубинного анализа текстов и построения связей понятий, которые экстрагируются из неструктурированных текстов.
Summаry. Outlook of most popular systems of monitoring of cyberspace informational resources, deep analysis of texts and construction of communications of concepts which are extracted from the unstructured texts.
Ключові слова. Інформаційні ресурси, засоби пошуку, синтезу та аналізу текстів.
 
 
Розбудова та вдосконалення демократичних засад самоорганізації суспільства, процеси глобалізації соціально-економічного середовища світу супроводжуються збільшенням кількості законодавчих ініціатив, судових розглядів, змінами в законодавстві, зростанням вимог до якості та оперативності процедур прийняття рішень. Наслідком цих процесів є поширення впровадження систем управління юридично значущою інформацією та механізмів e-discovery - засобів пошуку документів юридичної спрямованості. На думку аналітиків Forrester Research, витрати на механізми e-discovery зростуть з 1,4 млрд. доларів США у 2006 році до 4,8 млрд. доларів США у 2011-му. Зокрема, програмне забезпечення компанії Interwoven (у 2009 р. її купила інша компанія, про яку мова нижче, - Autonomy) використовують 1200 провідних юридичних фірм. З його допомогою здійснюється підтримка близько 100 тис. сайтів Еxtranet і Іntranet.
Сьогодні існує ряд систем, які виконують окремі функції, необхідні для побудови комплексної системи моніторингу інформаційних ресурсів юридичної спрямованості, витягу фактів, побудови зв'язків на основі аналізу неструктурованих текстів. У роботі наведено короткий огляд таких систем.
1. RCO
Російська система, основна функціональність якої - виділення на основі аналізу текстів російською мовою змістовної суті понять з цих текстів і зв'язків між ними [1].
Cистема є найрозвиненішою в Росії в цьому напрямі та надається у вигляді готового програмного забезпечення, а також бібліотек програм для розробників у Windows-середовищі. Інструментарій розробника: RCO Morphology Professional SDK - підтримує всі можливості граматичного аналізу будь-якого слова російської мови: визначення граматичних характеристик слова, приведення до нормальної форми, отримання необхідних словоформ. Ціна (1 процесор) - 278000 руб., річна підтримка - 61160 руб. RCO Fact Extractor SDK - для розробки інформаційно-пошукових і аналітичних систем, що вимагають лінгвістичного аналізу тексту російською мовою. Ціни на останній продукт публічно не розголошуються…