ЛАНДЕ Д.В., ДМИТРЕНКО О.О., Побудова семантичних мереж та визначення ступеня розбіжності текстів (с. 44-51)

DOI: 

https://doi.org/10.37750/2616-6798.2022.2(41).270362У

ДК 004.912

ЛАНДЕ Д.В.,
 
 
ДМИТРЕНКО О.О.,
доктор технічних наук, професор, керівник наукового центру  правової інформації ДНУ ІІБП НАПрН України.
ORCID: 0000-0003-3945-1178.
аспірант Інституту проблем реєстрації інформації НАН України.
ORCID: 0000-0001-8501-5313.
 
 
Анотація. У статті викладено методику порівняння текстових документів, що базується на побудові та порівнянні відповідних їм семантичних мереж. Ця методика може стати основою побудови систем порівняння правових документів у рамках парламентського контролю. Також розглянуто алгоритм побудови семантичних мереж як одного із видів онтологій. Цей алгоритм також може застосовуватися в системах автоматичного реферування правової інформації з метою формування лаконічних інформаційно-насичених звітів, коротких анотацій або дайджестів. Пропонована методика може бути використана в процесі обробки запитів при проведенні інформаційного пошуку, надаючи можливість визначення ступеня подібності або відмінності структури та семантики текстів.
Ключові слова: семантична мережа, аналіз природної мови, правова інформація, мережа горизонтальної видимості, порівняння текстів, компютерна лінгвістика.
Summary. The article presents a method for comparing text documents, which is based on the construction and comparison of the corresponding semantic networks. This technique can become the basis for building systems for comparing legal documents in the framework of parliamentary control. An algorithm for constructing semantic networks as one of the types of ontologies is also considered. This algorithm can also be used in systems for automated summarizing legal information in order to generate concise information-rich reports, brief annotations or digests. The proposed technique can be used in processing queries during information retrieval, providing the ability to determine the degree of similarity or difference in the structure and semantics of texts.
Keywords: semantic network, natural language processing, legal information, horizontal visibility network, text comparison, computational linguistics.
 
 
   Постановка проблеми. Внаслідок швидкого розвитку інформаційно-телекомунікаційних технологій відбувається стрімке накопичення даних у вигляді найрізноманітніших джерел – текстових файлів, електронних листів, веб-сторінок [1] в різноманітних форматах подання. Кількість нормативно-правових документів поданих у електронному вигляді, а отже, і кількість інформації, з якою доводиться мати справу експерту у цій сфері, теж постійно зростає. І для прийняття обґрунтованих рішень на основі існуючих нормативно-правових даних інколи необхідно ознайомлюватися з тисячами документів, відкидаючи інформаційний шум. Тож актуальною для правової галузі є задача спрощення доступу до суті тексту, виокремлення з нього головних викладок, ідей та заздалегідь заявлених змістових аспектів, без необхідності опрацьовувати величезний об’єм інформації. Також важливим є завдання виявлення подібної або дублюючої інформації та суперечностей у нормативно-правових документах...