ЛАНДЕ Д.В., Методи оцінки рівня дискримінантної сили слів у текстах з правової тематики

УДК 004.67
 
Ланде Д.В.,
 
доктор технічних наук
 
Анотація. Розглянуто підходи до оцінки дискримінантної сили слів у текстах з правової тематики. Підходи перевірені на колекції законодавчих актів України та масиві новинних повідомлень. Запропоновано метод візуалізації рівня нерівномірності входження слів у тексти.
Ключові слова: фрагменти текстів, автоматичний пошук та аналіз.
Аннотация. Рассмотрены подходы к оценке дискриминантной силы слов в текстах правовой тематики. Подходы проверены на коллекции законодательных актов Украины и массиве новостных сообщений. Предложен метод визуализации уровня неравномерности вхождения слов в тексты.
Ключевые слова: фрагменты текстов, автоматический поиск и анализ.
Summary. Approaches are considered to the estimation of discrimination force of words in the texts of legal subject. Approaches are tested on collection of legislative acts of Ukraine and array of news-related reports. The method of visualization of level of unevenness of including of words in texts is offered.
Keywords: fragments of texts, automatic search and analysis.
 
        Постановка проблеми. Ключові слова для пошуку в тексті, опорні слова для автоматичного екстрагування значущих фрагментів текстів або формування автоматичних рефератів, вибираються з урахуванням такої властивості слів, як “розпізнавальна” або дискримінантна сила. Адже якщо слово відносно рівномірно розподілено по тексту документа, то воно навряд чи може використовуватися для ефективного змістовного пошуку або служити основою вибору якогось значущого фрагмента, який може розглядатися як деяка надфразова єдність [1]. При аналізі текстів з правової тематики, зокрема, при вирішенні завдання формування електронної енциклопедії на основі аналізу всього масиву законодавчих актів України, оцінка дискримінантної сили окремих слів має найважливіше значення.
        Одна з перших технологій оцінки якості ключових слів була “матеріалізована” Солтоном в векторно-просторовій моделі пошуку [2], в якій саме для обліку дискримінантної сили слів було введено поняття інверсної частоти появи слова в окремих документах масиву...