Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Модели и алгоритмы семантической фильтрации текстовой информации в информационно-аналитических системах предприятия Бородащенко Антон Юрьевич

Модели и алгоритмы семантической фильтрации текстовой информации в информационно-аналитических системах предприятия
<
Модели и алгоритмы семантической фильтрации текстовой информации в информационно-аналитических системах предприятия Модели и алгоритмы семантической фильтрации текстовой информации в информационно-аналитических системах предприятия Модели и алгоритмы семантической фильтрации текстовой информации в информационно-аналитических системах предприятия Модели и алгоритмы семантической фильтрации текстовой информации в информационно-аналитических системах предприятия Модели и алгоритмы семантической фильтрации текстовой информации в информационно-аналитических системах предприятия Модели и алгоритмы семантической фильтрации текстовой информации в информационно-аналитических системах предприятия Модели и алгоритмы семантической фильтрации текстовой информации в информационно-аналитических системах предприятия Модели и алгоритмы семантической фильтрации текстовой информации в информационно-аналитических системах предприятия Модели и алгоритмы семантической фильтрации текстовой информации в информационно-аналитических системах предприятия Модели и алгоритмы семантической фильтрации текстовой информации в информационно-аналитических системах предприятия Модели и алгоритмы семантической фильтрации текстовой информации в информационно-аналитических системах предприятия Модели и алгоритмы семантической фильтрации текстовой информации в информационно-аналитических системах предприятия
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Бородащенко Антон Юрьевич. Модели и алгоритмы семантической фильтрации текстовой информации в информационно-аналитических системах предприятия : диссертация ... кандидата технических наук : 05.13.01 / Бородащенко Антон Юрьевич; [Место защиты: С.-Петерб. гос. технол. ин-т].- Орел, 2010.- 192 с.: ил. РГБ ОД, 61 10-5/2911

Введение к работе

Актуальность темы. Использование передовых информационных технологий в условиях интенсивного развития рыночных отношений становится одним из наиболее важных, а часто и решающих факторов, определяющих эффективность управления предприятием. В организациях все чаще внедряются современные информационные системы, чтобы обрабатывать внешние и внутренние потоки информации, осуществлять анализ, прогнозирование и принятие управленческих решений. Практика использования указанных систем стала нормой для современного предприятия.

Мировой опыт показывает, что системообразующим элементом управления предприятием является информационно-аналитическая деятельность, осуществляемая информационно-аналитическими подразделениями (ИАП). Начиная производство, нужно провести информационно-аналитическое маркетинговое исследование сектора рынка и региона выбранного бизнеса, ответить на вопросы о необходимых трудовых ресурсах соответствующей квалификации, соотношении спроса и предложения на планируемую к выпуску продукцию, сложившемся на рынке ценообразовании, требованиях к качеству продукта, законодательной базе, регламентирующей данный вид деятельности, будущих конкурентах, возможных партнерах и многом другом.

Анализ указанной информации предполагает поиск источников данных, наиболее полно и объективно отражающих реальные рыночные процессы. Основными видами такой информации являются статистические, коммерческие, биржевые, финансовые, профессиональные и научно-технические данные. Для перечисленных категорий текстовая информация является преобладающим видом, требующим применения соответствующих технологий обработки. Наиболее полным, доступным и актуальным источником такой информации являются потоки профессиональной информации, циркулирующей на предприятии (отчеты, аналитические записки, сопроводительные документы и т. д.), публикации СМИ, обзоры и подборки, распространяемые по подписке, а также в сети Интернет. Значительные объемы информационных потоков делают невозможным непосредственное ознакомление человека с каждым текстом и тем более глубокое осмысление его содержания. Отбор релевантной информации сопряжен со значительными затратами временных и трудовых ресурсов. Эти обстоятельства затрудняют принятие обоснованных и своевременных решений, в основу которых должно быть положено изучение всего массива информации, отражающей ситуацию в аспекте поставленной руководством задачи. В связи с этим разработка и внедрение на предприятии информационно-аналитических систем и технологий, ориентированных на автоматизированную обработку текстовой информации на основе методов интеллектуального анализа данных (ИАД), являются актуальной задачей.

В существующих информационно-поисковых (ИПС) и информационно-аналитических системах (ИАС) обработки текстовой информации в достаточно полной мере реализованы следующие функции: аннотирование, выделение объектов, понятий, кластеризация, классификация, ответ на запросы, тематическое индексирование, поиск по ключевым словам и практически не реализована функция семантической фильтрации. Задача фильтрации массива исходной информации в целях предоставления пользователю ограниченного объема документов в настоящее время требует значительных трудозатрат высококвалифицированных специа-

листов. Перечисленные аргументы и определяют актуальность темы и научной задачи диссертационного исследования, заключающейся в разработке комплекса моделей и алгоритмов семантической фильтрации текстовой информации, обеспечивающих повышение алгоритмической релевантности (точности и полноты) результатов выполнения поисковых запросов в информационно-аналитических системах обработки текстовой информации ИАП предприятия.

Объектом исследования являются информационно-аналитические системы обработки текстовой информации ИАП предприятия, в качестве предмета исследования выступают модели, методы и алгоритмы интеллектуального анализа текстовых документов, обеспечивающие их поиск и ранжирование в соответствии со степенью семантического подобия к эталонному тексту.

Цель диссертационной работы - разработка моделей и алгоритмов семантической фильтрации текстовой информации, обеспечивающих повышение эффективности информационного поиска за счет увеличения точности и полноты, а также сокращения времени отбора полезной информации за счет автоматизации рутинных функций.

Для достижения поставленной цели решены следующие задачи:

  1. Выбор и обоснование методов семантического анализа текстовой информации в информационно-аналитических системах.

  2. Моделирование процесса семантической фильтрации текстовой информации.

  3. Разработка и исследование структурных решений и управляющих алгоритмов, обеспечивающих выполнение семантической фильтрации текстовой информации заданной тематики.

  4. Разработка структурной схемы и реализация прототипа автоматизированной системы семантической фильтрации текстовой информации в информационно-аналитических системах ИАП предприятия.

Методы и средства исследования. При проведении исследований использовался математический аппарат теории вероятностей, математической статистики, марковских случайных процессов, распознавания образов, подобия, компьютерной лингвистики, теории систем и системного анализа, планирования экспериментов и исследования операций.

Достоверность научных положений, результатов, выводов и рекомендаций, приведенных в диссертационной работе, обеспечивается за счет сочетания формальных и неформальных методов исследования; непротиворечивости и воспроизводимости результатов, полученных теоретическим путем; применения апробированного математического аппарата; использованием методов, адекватных природе изученных явлений; верификации отдельных результатов в рамках известных теоретических конструкций, широко используемых в теории сложных технических и информационных систем; проведения оценки адекватности разработанной модели.

Научная новизна диссертационного исследования состоит в том, что:

  1. Предложен комплекс моделей семантической фильтрации текстовой информации, отличающийся применением многоаспектной процедуры, учитывающей структурное, контекстное и внеконтекстное подобие, и сокращающий время выделения полезной информации.

  2. Разработан комплекс алгоритмов расчета величины подобия текстов, отличающийся использованием нового критерия оценки структурного подобия в виде

линейной свертки коэффициентов, отражающих смысловую близость и структурную удаленность текстов, а также применением аппарата марковских процессов и специальной меры расстояния для решения задачи сравнения текстов.

3. Синтезирована оригинальная структура информационно-аналитической системы обработки текстовой информации с функцией семантической фильтрации, функционирующей в рамках единого алгоритма процедуры многоаспектного анализа текстовой информации, параметры которой определяются лингвистически-статистическими характеристиками текстов заданной тематики.

Основные положения, выносимые на защиту:

  1. Комплекс моделей семантической фильтрации текстовой информации, позволяющий определять степень сходства анализируемых документов с эталонным текстом.

  2. Комплекс алгоритмов семантической фильтрации текстовой информации, предназначенный для внедрения в информационно-аналитическую систему предприятия.

  3. Структурная схема информационно-аналитической системы обработки текстовой информации с функцией семантической фильтрации, обеспечивающая существенное ускорение решения задач по обработке текстовых документов на предприятии.

Практическая значимость работы обусловлена доведением разработанных алгоритмов до реализации в виде программных модулей с возможностью их практического использования в составе информационно-поисковых и информационно-аналитических систем обработки текстовой информации заданной тематики.

Реализация результатов работы. Результаты исследований реализованы, внедрены и используются в виде комплекса моделей и алгоритмов семантической фильтрации текстовой информации в НИЦ ФСО России и Орловском государственном техническом университете, что подтверждено соответствующими актами.

Получено свидетельство о государственной регистрации программ для ЭВМ "Лексический анализатор предложений "WordParser" (№ 2004610984 от 21.04.2004 г.), "Программа семантической фильтрации текстов" (№ 2009612007 от 20.04.2009 г.) и "Система контент-анализа новостного потока RSS «RSS_reader»" (№ 2010610833 от 26.01.2010 г.).

Апробация работы. Основные результаты работы докладывались, одобрены и опубликованы на 6-й Всероссийской научно-технической конференции студентов, молодых ученых и специалистов, 3-й Всероссийской научной конференции "Проблемы создания и развития информационно-телекоммуникационной системы специального назначения" (г. Орел, 2003 г.), III Международной научно-технической конференция "Информационные технологии в науке, образовании и производстве" (г. Орел, 2008 г.), отраженных в списке публикаций.

Публикации. По теме диссертации опубликовано 9 работ, в том числе 3 статьи в рецензируемых журналах, входящих в перечень ВАК Минобрнауки России, тезисы 2 докладов и выступлений на научно-технических конференциях и семинарах, 4 свидетельства о государственной регистрации программ для ЭВМ.

Структура и объем работы. Диссертационная работа состоит из введения, четырех разделов, заключения, списка использованных источников из 130 наименований и четырех приложений. Диссертация изложена на 190 страницах машинописного текста, содержит 45 рисунков, 33 таблицы.

Похожие диссертации на Модели и алгоритмы семантической фильтрации текстовой информации в информационно-аналитических системах предприятия