Методы автоматической классификации и статистического анализа входного потока текстовой информации в информационных системах Александров Михаил Юрьевич

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Александров Михаил Юрьевич. Методы автоматической классификации и статистического анализа входного потока текстовой информации в информационных системах : диссертация ... кандидата технических наук : 05.25.05 / Александров Михаил Юрьевич; [Место защиты: Всерос. НИИ проблем выч. тех. и инфор.]. - Москва, 2008. - 203 с. : ил. РГБ ОД, 61:08-5/245

Содержание к диссертации

Введение

Глава 1. Общая характеристика проблемы автоматической обработки входного потока текстовой информации и статистического анализа полученных результатов 11

1.1. Проблема автоматической классификации и статистического анализа 11

1.2. Развитие технологий обработки текстовой информации в МИД России 21

1.3. Общие требования к средствам автоматической классификации и статистического анализа входного потока текстовой информации 25

1.4. Показатели универсальности системы и основные требования к их реализации 27

1.5. Общая характеристика предлагаемой методики решения задачи автоматической классификации и статистического анализа входного потока текстовой информации 36

Глава 2. Методика автоматической классификации входного потока текстовой информации с применением конструктивных решений СПО «Автоклассификация» 45

Раздел 2.1. Принцип построения морфологического анализа в программе«Автоклассификация» 45

2.1.1. Программа «Автоклассификация». Основные понятия и допущения 45

2.1.2. Таблица классов слов 48

2.1.3. Таблица окончаний 49

2.1.4. Таблица особых условий 51

2.1.5. Таблица последних букв основ слов 52

2.1.6. Основные действия с кодами 52

2.1.7. Предварительный анализ слова словаря. Разбивка на основу и окончание 53

2.1.8. Определение возможной беглой гласной 56

2.1.9. Чередование согласных 58

2.1.10. Изменение буквы «Е» на «Ь» при склонении слов 59

2.1.11. Чередование смягчающей гласной - «И» 60

2.1.12. Проверка падежного согласования комбинаций 62

2.1.13. Полное сравнение слов 64

Раздел 2.2. Структура ключевых словосочетаний словарей. Принцип индексирования словарей 70

2.2.1. Основные понятия 70

2.2.2. Структура ключевых словосочетаний 71

2.2.3. Сведение поисковых запросов других поисковых систем к формату ключевых словосочетаний СПО «Автоклассификация». Дизъюнкивная нормальная форма запросов. Объяснение структуры ключевых словосочетаний СПО «Автоклассификация» 74

2.2.4. Комбинации «прилагательное + существительное» 81

2.2.5. Реестр комбинаций 83

2.2.6. Корректировка результата вхождения ключевого словосочетания в предложение при наличии комбинаций «прилагательное + существительное» 84

2.2.7. Алгоритм принятия решения о вхождении ключевого словосочетание в обрабатываемое предложение текста 86

2.2.8. Синтаксические правила ввода словосочетаний в СПО «Автоклассификация» 87

2.2.9. Построение и структура индексных файлов словаря 93

2.2.10. Поля, используемые в индексных файлах словаря 98

2.2.11. Некоторые особенности программы «Автоклассификация» по работе с классификаторами и словарями 102

Раздел 2.3. Обработка текстов и принятие решений о присвоении классов в СПО«Автоклассификация» 106

2.3.1. Основные понятия 106

2.3.2. Формат исходных данных и результатов обработки 107

2.3.3. Особенности построения текстовых файлов и параметры настроек 108

2.3.4. Обработка предложений 109

2.3.5. Определение численной характеристики (веса) вхождения ключевого словосочетания в текст 110

2.3.6. Основные параметры настроек, связанные с принятием решения 112

2.3.7. Общие и частные параметры настроек 114

2.3.8. Результаты автоматической обработки текстов 114

2.3.9. Перспективы использования программы «Автоклассификация» 116

ГЛАВА 3. Методика статистического анализа, формирования и ведения аналитических задач с применением конструктивных решений СПО «Судак» 119

Раздел 3.1. Постановка аналитической задачи, проведение предварительных расчетов статистических данных в процессе выполнения автоматической классификации СПО «Автоклассификация» 119

3.1.1. СПО «Судак». Основные функции и предназначение 119

3.1.2. Понятие аналитической задачи 120

3.1.3. Методика определения предварительных численных характеристик 122

3.1.4. Основные параметры настроек, связанные с определением веса класса 129

3.1.5. Использование предварительных результатов статистики для формирования статистических баз данных 130

Раздел 3.2. Формирование и ведение аналитических задач с применением конструктивных решений СПО «Судак» 132

3.2.1. Статистическая запись в базу. Принцип двойной записи 132

3.2.2. Построение статистической базы данных аналитической задачи 134

3.2.3. Учетная политика. Принцип ввода данных в статистическую базу данных 137

3.2.4. Физический смысл итоговых значений весов статистических записей по всем классам и по отдельно взятому классу 143

3.2.5. Таблица значимости классов 144

3.2.6. Форма представления данных статистического анализа 148

3.2.7. Анализ документов по их значимости 158

3.2.8. Методы автоматической идентификации событий 160

3.2.9. Абсолютные и относительные величины значимости классов 162

3.2.10. Уточнение результатов идентификации событий путем разбиения входной информации на потоки 169

3.2.11. Построение аналитических задач по трем определяющим классификаторам. Работа с промежуточным классификатором 171

3.2.12. Многоклассификаторные аналитические задачи 178

Заключение 185

Список литературы 188

Развитие технологий обработки текстовой информации в МИД России
Показатели универсальности системы и основные требования к их реализации
Структура ключевых словосочетаний словарей. Принцип индексирования словарей
СПО «Судак». Основные функции и предназначение

Введение к работе

Актуальность работы. В процессе эксплуатации различных информационных систем возникают актуальные проблемы, связанные со сбором, классификацией и предметным анализом больших потоков текстовой информации, поступающих как из российских, так и из зарубежных источников. Текстовая информация поступает на многих языках, с использованием различных стилей изложения материала. Большой объем информации на различных языках невозможно анализировать вручную, требуется компьютерный поиск, тематический и статистический анализ потока информации. Современные условия ставят новые требования к процессу обработки информации, ее автоматической классификации и статистическому анализу результатов обработки.

С ростом объема информационного потока специалистам-аналитикам становится все труднее заниматься тематическим анализом информации и ведением аналитических задач вручную при существующих средствах автоматизации. Возникает потребность в создании системы, позволяющей выполнять автоматическую классификацию информации входного потока и автоматизировать процесс ведения аналитических задач. Программные разработки по автоматической классификации информационных массивов существуют, но они, как правило, лишь частично решают проблему автоматической классификации или ведения аналитических задач и, в І основном, жестко привязаны к конкретному языку, конкретным классификаторам или к конкретным аналитическим задачам.

Жесткая привязанность к конкретному языку позволяет осуществить более точный синтаксический, семантический и морфологический анализ для данного языка, но при этом качество обработки информации на других языках оставляет желать лучшего. Средства морфологического анализа могут быть усовершенствованы только на уровне программиста, а настроить разработку на новый язык в большинстве случаев вообще не представляется возможным.

В этой связи актуальной является проблема автоматической классификации входного потока текстовой информации с последующим формированием и ведением тематического анализа и аналитических задач, представляющих собой статистический анализ некоторых промежуточных результатов, полученных в процессе автоматической классификации информации. Предлагается решение проблемы универсальности по отношению к языкам, к классификаторам и к аналитическим задачам и решение по переносу проблем настроек системы на различные режимы работы на пользовательский уровень. Данная диссертационная работа посвящена решению проблемы автоматической классификации и статистического анализа результатов автоматической классификации входного потока текстовой информации.

Степень научной разработанности проблемы автоматической классификации текстовой информации и статистического анализа автоматической классификации. Важность проблемы автоматической классификации и статистического анализа определяется необходимостью обеспечения универсальности данной задачи по отношению к иностранным языкам, к классификаторам и к тематической направленности аналитических задач, решаемых во многих организациях.

Многие теоретические и практические вопросы автоматической классификации текстов и статистического анализа результатов автоматической классификации получили свое решение на достаточно высоком уровне в работах российских специалистов: Белоногова Г.Г., Буркова В.Н., Зеленкова Ю.Г., Новоселова А.П., Хорошилова А.В., Дубинского А.Г., Ермакова А.В. и др., а также ряда зарубежных специалистов: Штейна В., Жоачимса Т. и др.

Несмотря на то, что проблема автоматической классификации текстовой информации представлена на достаточно высоком уровне, предлагаемые разработки не являются универсальными по отношению к иностранным языкам и к стилю изложения текстов. Несмотря на высокий уровень решения задачи автоматической классификации, предлагаемые системы являются практически закрытыми и не имеют возможности настроек на пользовательском уровне на работу с новыми иностранными языками. Отсутствие предложений по методике статистического анализа, позволяющего связывать между собой классы нескольких классификаторов, по ведению многоклассификаторных аналитических задач, универсальных по тематической направленности, а также цельных предложений, связывающих между собой задачи автоматической классификации и статистического анализа, обусловили выбор темы настоящей диссертации.

Основной целью настоящей работы является разработка и программная реализация методов автоматической классификации входного потока текстовой информации и методов ведения тематического анализа и аналитических задач на основе статистического анализа результатов автоматической классификации.

Объектом исследования является ведомственная информационная система.

Предметом исследования являются методы автоматической классификации и статистического анализа информации в информационных системах.

В настоящей диссертационной работе были поставлены и решены следующие задачи:

• сформулировать системный подход к совершенствованию методов автоматического анализа текста;

• определить технические требования к системам автоматической классификации входного потока текстовой информации и к средствам статистического анализа результатов обработки текстов;

• разработать методику автоматической классификации с применением морфологического анализа, универсальную по отношению к различным иностранным языкам и стилю изложения текстов;

• разработать структуру и методику ведения словарей ключевых словосочетаний;

• разработать методы оптимизации поиска без предварительного индексирования обрабатываемого массива текстовой информации;

• разработать методику статистического анализа результатов автоматической классификации текстов и формирования статистических баз данных и аналитических задач;

• разработать методику ведения тематического анализа и аналитических задач с автоматическим определением тематик или фактов, представляющих особый интерес.

Методы исследования. Исследование проводилось путем анализа логико-математических закономерностей морфологии русского языка, анализа структуры существующих словарей и поисковых запросов и логических моделей возможных запросов, математического анализа методики оценки релевантности запросов, путем создания экспериментальных баз данных и разработки экспериментальных вспомогательных программных продуктов, моделирующих научные решения по данной проблеме. Для обоснования предлагаемых научных и технологических решений, для оптимизации работы системы и для решения многих вспомогательных задач широко использовались современные математические методы в области вычислительной математики, теории вероятности, алгебры логики, математической статистики и других областей.

Научная новизна диссертационной работы заключается в следующем:

- разработаны научные и технологические решения по созданию классификационно-аналитической системы, отличающейся от существующих аналогов универсальностью по отношению к языкам, классификаторам и к специфике задач предметного анализа текстовой информации в информационных системах;

- разработана и обоснована структура и методика ведения словарей ключевых словосочетаний с учетом оптимизации по быстродействию;

разработана методика статистического анализа результатов автоматической классификации текстов и формирования и ведения статистических баз данных, позволяющая проводить предметный анализ текстов, опирающийся на любой набор классификаторов. Отличительной особенностью данной методики является то, что она позволяет учитывать взаимоотношения классификаторов и систематизирует связи между классами различных классификаторов;

разработана методика ведения тематического анализа и аналитических задач, позволяющая идентифицировать объекты аналитического учета (действия, события и пр.) по результатам статистических расчетов.

Теоретическая значимость. Предложенная комплексная методика автоматической классификации и статистического анализа является совершенствованием существующих подходов и в дальнейшем может быть расширена и дополнена функциями автоматического и автоматизированного тематического анализа потоков текстовой информации. Структура статистических баз данных, формируемых с помощью предложенной технологии, позволяет ставить и решать большой спектр статистических и математических расчетных задач и задач, связанных с принятием решений, имеющих место в информационных системах. Развитие данной разработки может осуществляться путем дополнения ее новыми решениями в области морфологического, синтаксического и семантического анализа языков, для усовершенствования методов морфологического анализа, разработки методов семантического и синтаксического анализа языков, с последующим предложением решения о принципах ввода правил семантического и синтаксического анализа на пользовательском уровне.

Практическая значимость. Данная разработка может иметь широкий спектр применения для различных предметных областей. Предложенная разработка позволяет формировать текстово-фактографические базы данных, содержащие классифицированную информацию, в автоматическом режиме. На основании результатов классификации имеется возможность формировать аналитические задачи и статистические базы данных по результатам обработки текстов, автоматизировать работу специалистов-аналитиков, осуществляющих тематический анализ текстовой информации и ведение аналитических задач в различных предметных областях, что может послужить функциональным дополнением и развитием информационных систем различных организаций.

Самостоятельное практическое значение имеют:

- методика обработки текстов на различных иностранных языках;

- методика статистического анализа результатов автоматической классификации.

Внедрение и апробация результатов исследования.

Программа автоматической классификации текстовой информации «Автоклассификация» и программа статистического учета данных автоматической классификации, разработанные на основе диссертационного исследования, прошли испытания и успешно внедрены в подсистеме «Центр-МИД» в рамках опытно-конструкторской работы «Центр» Федеральной целевой программы.

Основные результаты работы докладывались на IX Международной научно-практической конференции «Документация в информационном обществе: административная реформа и управление документацией» (Москва, 2004) и на заседании научно-технического совета ФГУП «НИЦИ при МИД России».

Публикации. Основные положения диссертационного исследования отражены в четырех публикациях автора общим объемом 3,5 печатных листа, в том числе две - в журнале, рекомендуемом ВАК России.

Структура и объем диссертации. Диссертация состоит из введения, трех глав, заключения, списка литературы и трех приложений. Список литературы включает 99 наименований. Общий объем диссертационной работы 203 страницы, содержащих машинописный текст, 8 рисунков и 34 таблицы.

Развитие технологий обработки текстовой информации в МИД России

Для решения задач автоматизации процесса работы с текстовой информацией в МИД России разработана система ИС ВПВ (Информационная Система по Внешне-Политическим Вопросам). Система разработана на платформе Lotus Notes и представляет собой сложную структуру, состоящую из процессов приема, обработки, хранения и передачи информации и многочисленных баз данных различной тематической направленности, как общеминистерского пользования, так и локального предназначения для отдельных подразделений МИД. Одной из основных задач предметного анализа текстовой информации в подразделениях МИД всегда являлась задача анализа ситуации в различных странах мира и анализа развития отношений между различными странами. Информационные агентства для Министерства являются поставщиками самого большого объема информации, которая не может быть вручную или автоматизировано обработана. Первые программы автоматической классификации информации появились в МИД в 1994 году и позволяли приближенно классифицировать сообщения массовой информации по странам мира, по рубрикам и по видам событий. С внедрением сетевых технологий, расширялся перечень баз данных общеминистерского пользования различной тематической направленности. Алгоритм морфологического анализа долгое время оставался примитивным на уровне усеченного поиска. В последнее время, несмотря на доработки алгоритма морфологического анализа и использование при отборе информации возможности поисковых средств Яндекса, в системе обработки текстовой информации до настоящего времени остается проблематичным классификация по новым классификаторам, а набор языков, на которых могут обрабатываться тексты, остается строго постоянным. Добавление нового классификатора или нового языка является достаточно сложной задачей, решаемой на уровне программистов.

Задачи анализа сводятся, как правило, к формированию новых баз данных, в которые информация по заданным, достаточно сложным, поисковым запросам отбирается из баз данных общеминистерского пользования. Для упрощения процедуры отбора данных из некоторых баз большого объема, организована автоматическая классификация текстов по подразделениям МИД, где для каждого подразделения вводится словарь ключевых словосочетаний и по ним ведется поиск. Для работы с большим количеством баз данных различной тематической направленности, содержащие текстовую информацию различного содержания, разработана информационно-поисковая система «Дипломат». Основным преимуществом данной системы является удобный пользовательский интерфейс для работы с различными базами данных и быстрый поиск и отбор необходимой информации из большого количества баз данных большого объема. Быстрота поиска и отбора обеспечивается предварительным индексированием содержимого баз данных. Одним из самых больших по объему потоков текстовой информации является поток сообщений российских и зарубежных средств массовой информации. Информационные сообщения поступают как по каналам подписки, так и из открытых источников сети Internet. Для обработки данного потока разработан комплекс программ «Сбор». Данный программный продукт работает автоматически в круглосуточном режиме. В своем составе содержит все необходимые конвертеры для различных источников. Программный комплекс «Сбор» обрабатывает информацию, поступающую на русском и на нескольких иностранных языках. Ежедневно несколько тысяч документов поступает для обработки с нескольких сотен источников. Данный программный комплекс выполняет функции автоматической классификации по странам мира и по подразделениям МИД с использованием вспомогательных словарей. Для поиска ключевых словосочетаний в обрабатываемых текстах программный продукт может использовать как свои средства, так и средства Яндекса. В результате работы программного комплекса «Сбор» формируются базы данных, содержащие классифицированные сообщения СМИ. Ведется статистика служебного предназначения, основными показателями которой являются количество документов. Собираются сведения о действиях пользователей баз данных для последующей оптимизации работы системы.

Для программного комплекса «Сбор» характерна работа с потоками информационных сообщений обоих типов: как сообщений, поступающих на вход по инициативе источника информации - по подписке, так и анализ содержимого электронных страниц источников информации - различных информационных агентств, с последующей передачей по сети Internet отобранной информации на технические средства получателя информации. Сбор информации осуществляется более чем со 135 источников на 6 различных иностранных языках. Ежедневно поступает более 5000 сообщений общим объемом более 1 Мб в пересчете на обычный текстовый формат ( .ТХТ). Программный комплекс осуществляет сбор информации на 4-х рабочих станциях в круглосуточном режиме. Разделение входного потока сообщений по рабочим станциям осуществляется по источникам информации для обеспечения примерно одинаковой загрузки каждой станции. Обработка собранной информации осуществляется на данных рабочих станциях. Результатом обработки собранной информации служат локальные буферные базы данных, размещенные на этих рабочих станциях. Информация в буферных базах данных формализована и классифицирована по странам мира и по подразделениям МИД. Разумеется, сообщения средств массовой информации классифицированы и по источникам, но данная классификация осуществляется на этапе сбора сообщений. После того, как буферные базы данных сформированы, формализованная информация передается в/ базы данных общеминистерского пользования (БД ОМП). При этом буферные базы данных очищаются, и программный комплекс приступает к сбору нового массива информационных сообщений. Время обработки одного сообщения с момента записи его на рабочую станцию до его размещения в базу данных общеминистерского пользования составляет около 10 минут.

Показатели универсальности системы и основные требования к их реализации

Текстовая информация, подлежащая обработке, может поступать на русском и на различных иностранных языках. Правила анализа текстов для различных языков могут отличаться между собой. Если в программу заложить некоторый набор правил анализа одного из языков, то качество анализа других языков по этим правилам может оказаться низким. Для обработки текстовой информации, поступающей на разных языках можно пойти двумя путями. Можно для каждого языка разрабатывать свою программу анализа, что может дать более высокое качество обработки текстов на соответствующих языках. При этом для обработки текстов на других языках либо потребуется отдельная программа, с помощью имеющейся программы качество обработки будет низким. Другой путь - это разработка программных средств, универсальных по отношению к языкам или настраиваемых на новые языки на уровне опытного пользователя. Качество анализа текстов на определенном языке будет ниже, чем у программы, специально созданной для анализа данного языка.

Очевидно, что настроить универсальную по отношению к языкам программу на анализ текстов на новом языке будет достаточно сложно. Для разработки универсальной программы требуется провести анализ языков различных языковых групп для выявления общих правил анализа языков. При . вводе поисковых запросов или ключевых словосочетаний в основном используются существительные и прилагательные (или причастия), как обозначающие объект поиска или его характеристики. Правила морфологического анализа существительных и прилагательных для многих языков можно ввести в специальных таблицах правил, отделенных от исходного текста программы. Для уточненного поискового запроса или для обработки слов - исключений, которые склоняются не по правилам, следует предусмотреть возможность усеченного поиска. Таблицы правил морфологического анализа для новых иностранных языков могут создаваться опытными пользователями и использоваться в универсальной программе, хотя процесс создания подобных таблиц достаточно трудоемкий.

В настоящее время предлагаются программные средства морфологического, синтаксического и семантического анализа языков с использованием предварительно разработанного словаря слов и словоформ языка. Следует отметить, что количество различных слов, практически в каждом языке оценивается в 700-800 тысяч, а количество словоформ, образованных от этих слов может превысить 10 миллионов. Основные недостатки использования подобных словарей - это их дороговизна и замедление работы программы анализа языка, связанное с многочисленными поисками необходимых слов в словаре большого объема.

Имеются предложения самообучающихся программ анализа языков, в которых вводится необходимые базовые наборы слов и алгоритмы анализа новых слов, которые отсутствуют в первоначальном наборе. В процессе самообучения, данная программа пополняет базовый набор слов, постепенно расширяя первоначальный набор до полного словаря слов и словоформ. Данные предложения могут оказаться неустойчивыми к жаргонам или опечаткам, по мере роста объема словаря базовых слов произойдет замедление работы из-за многочисленных операций поиска, а также имеется опасность создания заведомо неверного словаря, при котором анализ текстов будет происходить заведомо некорректно. Процесс пополнения базового словаря необходимо контролировать, а это дополнительная работа пользователя, причем, достаточно трудоемкая.

Программа анализа текстов не должна работать с предварительно разработанными словарями слов для различных языков, не должна иметь функций самообучения и должна поддерживать работу с внешними таблицами правил анализа языков, содержащих наиболее широкий спектр возможностей параметров и правил, которые могут быть использованы при анализе любых или почти любых языков.

Набор классификаторов или тематическая направленность Для различных задач предметного анализа текстов возникает различный набор основополагающих классификаторов, содержащих классы, как объекты, подлежащие анализу. Универсальная по отношению к набору классификаторов программа обработки текстов может быть применена практически во всех аналитических задачах, которые базируются на списках объектов учета. Исходные тексты программы не должны содержать данных какого-либо конкретного классификатора или рубрикатора. Работа с , несколькими классификаторами предполагает поддержку работы с реестром классификаторов, в который можно добавлять классификаторы, удалять классификаторы или вносить изменения в их содержание. Для интеграции программы с другими системами ведения классификаторов следует предусмотреть возможности импорта и экспорта данных. Импорт и экспорт данных позволит также передавать классификаторы от одной копии программы к другой.

Для выполнения автоматической классификации текстов по заданным классификаторам для каждого классификатора и для каждого языка следует предусмотреть вспомогательные словари ключевых словосочетаний, причем ведение данных словарей должно осуществляться на пользовательском уровне. Предлагаемые методы классификации текстов без использования вспомогательных словарей предполагают, как правило, использование некоторых фильтров отбора, которые аналогичны вспомогательным словарям по своей сущности. Сам факт внедрения фильтров в исходные коды системы сужает возможности использования разработки для анализа текстов по другим предметным областям. Вспомогательные словари составляются специалистами конкретной предметной области сначала на одном языке, затем, могут быть переведены на другие иностранные языки. При составлении вспомогательных тематических словарей для каждого классификатора могут учитываться синонимы, жаргоны и образные выражения, которые могут встретиться в обрабатываемых текстах.

Для того, чтобы программный продукт был универсален к тематике или к набору классификаторов и к языкам, предлагается выполнять анализ текстов с использованием вспомогательных словарей, разрабатываемых для каждого классификатора. Ведение словарей должно быть обеспечено на пользовательском уровне. Для интеграции с другими средствами, а также для обмена с другими копиями, программный продукт должен иметь возможности импорта и экспорта словарей. Желательно, при разработке процедур импорта и экспорта классификаторов предусмотреть возможность выгрузки, и загрузки содержимого словарей.

Структура ключевых словосочетаний словарей. Принцип индексирования словарей

Классификатор - таблица, состоящая из формулировок и соответствующих им кодов. Для целей настоящей работы, иерархия классификатора не учитывается, и классификатор представляет собой множество классов. Класс - элемент классификатора (одна из записей таблицы классификатора) Словарь - таблица, относящаяся к конкретному классификатору, состоящая из ключевых словосочетаний, кода соответствующего класса и значимости (веса) данного словосочетания. Автоматическая обработка текстов - Анализ текста, входного потока текстов или базы данных текстов с применением программы «Автоклассификация» для установления соответствия между текстом и классом классификатора. Реестр классификаторов - список классификаторов, используемых для автоматической обработки текстов. Словосочетание - произвольное непустое множество слов. Ключевое словосочетание - словарная единица или элементарная запись словаря, отвечающая требованиям к структуре и синтаксису, заложенным в программу «Автоклассификация» и состоящая из основной части, дополнительной части и стоп-части.

Для каждого классификатора, используемого при автоматической обработке текстов, существует словарь ключевых словосочетаний. Каждому ключевому словосочетанию ставится в соответствие код класса классификатора. Отдельно взятый класс, вообще говоря, может иметь и более одного соответствующего ему ключевого словосочетания. Если класс не имеет соответствующих словосочетаний, то он не может быть определен в процессе автоматической обработки текстов. Для определения соответствия между классами и словосочетаниями иерархия классификатора не имеет никакого значения. Можно определять ключевые словосочетания для классов любого уровня.

При обработке текстов, в случае, если программа установит, что ключевое словосочетание входит в предложение текста, то результаты поиска считаются положительными. Каждое ключевое словосочетание состоит из трех частей: основная часть, дополнительная часть и стоп-часть.

Основная часть ключевого словосочетания представляет собой множество слов, причем, непустое. Наличие основной части обязательно для формирования ключевого словосочетания. При выполнении поиска в обрабатываемом тексте, для вхождения ключевого словосочетания в предложение текста необходимо, чтобы для каждого слова основной части существовало равное ему слово в предложении текста. Вхождение основной части словосочетания в предложение является необходимым условием для положительного результата поиска. Если в ключевом словосочетании отсутствуют дополнительная часть и стоп-часть, то это условие является достаточным.

Дополнительная часть ключевого словосочетания представляет собой множество словосочетаний, которое может быть пустым. Каждое словосочетание дополнительной части может представлять собой произвольное непустое множество слов. При выполнении поиска в обрабатываемом тексте, для вхождения ключевого словосочетания в предложение текста необходимо, чтобы хотя бы одно словосочетание дополнительной части вошло в предложение текста. Словосочетание дополнительной части входит в предложение текста, если для каждого слова словосочетания существует равное ему слово в предложении текста.

Например: основная часть - «Самолет», дополнительная часть — «Угон; захват». Дополнительная часть в данном примере состоит из двух словосочетаний, каждое из которых состоит из одного слова: «угон» и?«захват». В предложении обрабатываемого текста должно встретиться словосочетание «Угон самолета» или «Захват самолета» и недостаточно вхождение только, слова «Самолет».

Стоп-часть ключевого словосочетания представляет собой множество словосочетаний, которое может быть пустым. Каждое словосочетание стоп-части может представлять собой произвольное непустое множество слов:.При выполнении поиска в обрабатываемом тексте, если в предложение входит основная часть ключевого словосочетания и одно из словосочетаний дополнительной части; то для отмены положительного результата вхождения .достаточно, чтобы в предложение вошло хотя бы одно словосочетание стоп-части.

Например: основная часть ключевого словосочетания «американский», дополнительная часть отсутствует, стоп часть — «доллар; футбол». Стоп-часть в данном примере состоит из двух словосочетаний, каждое из которых состоит из одного слова: «доллар» и «футбол». Если в предложение входит слово «американский», то выполняется проверка,на вхождение в данное предложение словосочетаний стоп-части. Если в этом предложении помимо словосочетания / «американский» будет найдено словосочетание «доллар» или «футбол», то результат поиска для данного словосочетания словаря и данного предложения будет считаться отрицательным.

СПО «Судак». Основные функции и предназначение

Специальное программное обеспечение «Статистический учет данных автоматической классификации» (СПО «Судак») предназначен для автоматизации работы специалистов - аналитиков по выполнению предметного тематического анализа текстовой информации. СПО «Судак» выполняет следующие функции: - формирование аналитических задач; - ведение статистических баз данных аналитических задач как в автоматизированном, так и в автоматическом режиме; - математический и статистический анализ данных статистических баз; - расчеты выходных форм статистики. СПО «Судак» имеет удобный пользовательский интерфейс для формирования и ведения аналитических задач и наглядные представления результатов обработки данных.

В процессе эксплуатации СПО «Судак» возможны дополнительные разработки по расширению спектра задач математического и статистического анализа информации статистических баз и по расширению набора выходных форм и отчетов. Исходными данными для программного продукта являются документы, прошедшие процедуру автоматической классификации с помощью СПО «Автоклассификация». Программа работает с классификаторами из реестра классификаторов и использует индексные файлы словарей формата СПО «Автоклассификация». При изменении классификаторов, используемых для аналитических задач, СПО «Судак» автоматически вносит соответствующие изменения в статистические базы данных в случае необходимости.

В работе специалистов по проведению тематического анализа полученной информации возникают различные задачи, требующие поиска, объема или реферирования информации, соответствующей определенным критериям. Как правило, наиболее простые задачи аналитиков можно разделить на два типа: тип «тематика - география» и «действующее лицо - действие».

К типу «тематика - география» относятся задачи анализа событий, кризисов или происшествий. Специалист должен проводить анализ информации, найти в ней ответ на вопрос что и где произошло, затем, сделать выводы, требуемые спецификой его работы и поставленной задачи. Данный тип задач обычно строится на паре классификаторов. Один классификатор имеет тематическую направленность (рубрикатор, классификатор видов событий, перечень кризисов или террористических акций и др.). Другой классификатор имеет географическую направленность, как правило, это классификаторы стран мира, городов мира и др.

К типу «действующее лицо - действие» относятся задачи анализа действий или событий, связанных с некоторым действующим лицом. К таким задачам можно отнести отклики средств массовой информации на выступления или заявления высших должностных лиц или органов власти, анализ действий террористических организаций в связке исполнитель-действие и многие другие задачи. Если специфика тематического анализа не относиться ни к одному типу, то следует провести поиск и исследование той пары классификаторов или списков возможных значений, на которых строится тематический анализ.

Перед аналитиками могут быть поставлены и более сложные задачи тематического анализа текстов. Например, для анализа проблем терроризма или проблем мирового океана двух классификаторов может оказаться недостаточно. Для анализа проблем терроризма могут потребоваться классификаторы террористических акций, террористических организаций и персон, стран мира, видов вооружения, антитеррористических мероприятий и другие.

Под аналитической задачей следует понимать определенную предметную область.исследования текстовой информации, заданную набором определенных классификаторов и отношений между ними. Отношение между двумя классификаторами - это определение роли классификатора в качестве основного классификатора, классы которого являются основными объектами исследования или в качестве дополнительного классификаторами, классы которого связаны по интересу с классами основного классификатора. Аналитические задачи могут быть как простыми или двухклассификаторными, так и сложными или многоклассификаторными. Аналитическая задача поставлена, если задан набор классификаторов и отношений между ними.

Если для задачи тематического анализа информации подобрана или разработана пара классификаторов или списков значений, то один из классификаторов пары примет условно статус основного классификатора, а другой классификатор - дополнительного. Классы основного классификатора представляют особый интерес для специалистов, проводящих тематический анализ. Для типа задач «тематика - география» основным является- именно классификатор тематической или событийной направленности, поскольку именно соответствующая тематика представляет аналитикам интерес. Географический классификатор, в основном - классификатор стран мира, является вспомогательным или дополнительным классификаторам, поскольку классы основного классификатора представляют интерес в связи с классами дополнительного классификатора. Для типа задач «действующее лицо 122 действие» основным классификатором служит список действующих лиц, представляющих интерес, а список действий содержит классы, связанные по интересу с классами действующих лиц и является дополнительным.

Документы и материалы, которые представляют интерес для конкретной аналитической задачи, должны быть предварительно классифицированы классификаторам данной задачи. Для двухклассификаторных аналитических задач обрабатываемый документ представляет интерес, если классы обоих классификаторов поставлены в соответствие обрабатываемому документу. Для многоклассификаторных аналитических задач обрабатываемый документ представляет интерес, если существует пара классификаторов аналитической задачи с заданным отношением между ними, и если классы обоих классификаторов этой пары поставлены в соответствие данному документу. Принципа построения статистических баз данных и принцип их ведения следует более подробно рассмотреть на двухклассификаторных аналитических задачах.

Методы автоматической классификации и статистического анализа входного потока текстовой информации в информационных системах Александров Михаил Юрьевич

Развитие технологий обработки текстовой информации в МИД России

Показатели универсальности системы и основные требования к их реализации

Структура ключевых словосочетаний словарей. Принцип индексирования словарей

СПО «Судак». Основные функции и предназначение

Похожие диссертации на Методы автоматической классификации и статистического анализа входного потока текстовой информации в информационных системах