ЛАНДЕ Д.В., СНАРСЬКИЙ А.О., Графи горизонтальної видимості як засіб витягу інформаційно-значущих слів із законодавчих актів

УДК 004.67

ЛАНДЕ Д.В.,

СНАРСЬКИЙ А.О.,

доктор технічних наук,

доктор фізико-математичних наук, професор

Анотація. Пропонується методика створення і використання компактифікованих графів горизонтальної видимості для текстів законодавчих актів з метою виявлення слів, які визначають їх інформаційну структуру. Показано, що такі графи є безмасштабними, а також, що серед вузлів з найбільшими ступенями є слова, що визначають як структуру зв’язності тексту, так і його інформаційну структуру.

Ключові слова: мережа мови, складна мережа, безмасштабна мережа, граф видимості.

Аннотация. Предлагается методика создания и использования компактифицированных графов горизонтальной видимости для текстов законодательных актов с целью выявления тех слов, которые определяют их информационную структуру. Показано, что такие сети являются безмасштабными, а также, что среди узлов с наибольшими степенями имеются слова, определяющие как структуру связности текста, так и его информационную структуру.

Ключевые слова: сеть слов, сложная сеть, безмасштабная сеть, граф видимости.

Summary. The methods of creation and use of compactifying horizontal visibility graph are offered for texts of legislative acts with the purpose of exposure of those words which determine their informative structure. It was found that the networks constructed in such way are scale free, and have a property that among the nodes with largest degrees there are words that determine not only a text structure communication, but also its informational structure.

Keywords: language network, complex network, scale-free network, visibility graph.

Постановка проблеми. На даний час актуальним є завдання визначення того, які з важливих структурних елементів тексту виявляються інформаційно-значущими, такими, що визначають інформаційну структуру тексту. Використання таких елементів як опорних слів дозволяє формувати онтології, тезауруси, пошукові образи, зокрема, при обробці законодавчих актів та іншої нормативно-правової інформації. Такі елементи можуть, зокрема, використовуватися також для ідентифікації таких компонентів тексту, як коллокації, надфразова єдність [1].

Опірні слова для пошуку в тексті та автоматичного екстрагування значущих фрагментів вибираються з урахуванням такої властивості слів, як “розпізнавальна” або дискримінантна сила. При аналізі текстів з правової тематики, зокрема, при вирішенні завдання формування електронної енциклопедії на основі аналізу всього масиву законодавчих актів України, оцінка дискримінантної сили окремих слів має найважливіше значення [2].

Метою статті є опис і практичне обгрунтування методики виявлення опірних слів за допомогою так званих мереж мови (Language Network), що пропонується авторами. Разом з послідовним аналізом текстів, побудова мереж, вузлами яких є їх елементи – слова або словосполучення, фрагменти природної мови, дозволяє виявляти структурні елементи тексту, без яких він втрачає свою зв’язність…

Повний текст статті.

Журнал "Правова інформатика" >> 2(38)/2013

Проекти інституту

Видання НДІІП

Вибрані видання