Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Исследование и разработка информационно-аналитической системы получения релевантных данных и знаний в сети Интернет Толкачев Демид Максимович

Исследование и разработка информационно-аналитической системы получения релевантных данных и знаний в сети Интернет
<
Исследование и разработка информационно-аналитической системы получения релевантных данных и знаний в сети Интернет Исследование и разработка информационно-аналитической системы получения релевантных данных и знаний в сети Интернет Исследование и разработка информационно-аналитической системы получения релевантных данных и знаний в сети Интернет Исследование и разработка информационно-аналитической системы получения релевантных данных и знаний в сети Интернет Исследование и разработка информационно-аналитической системы получения релевантных данных и знаний в сети Интернет Исследование и разработка информационно-аналитической системы получения релевантных данных и знаний в сети Интернет Исследование и разработка информационно-аналитической системы получения релевантных данных и знаний в сети Интернет Исследование и разработка информационно-аналитической системы получения релевантных данных и знаний в сети Интернет Исследование и разработка информационно-аналитической системы получения релевантных данных и знаний в сети Интернет Исследование и разработка информационно-аналитической системы получения релевантных данных и знаний в сети Интернет Исследование и разработка информационно-аналитической системы получения релевантных данных и знаний в сети Интернет Исследование и разработка информационно-аналитической системы получения релевантных данных и знаний в сети Интернет Исследование и разработка информационно-аналитической системы получения релевантных данных и знаний в сети Интернет Исследование и разработка информационно-аналитической системы получения релевантных данных и знаний в сети Интернет Исследование и разработка информационно-аналитической системы получения релевантных данных и знаний в сети Интернет
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Толкачев Демид Максимович. Исследование и разработка информационно-аналитической системы получения релевантных данных и знаний в сети Интернет: диссертация ... кандидата технических наук: 05.13.01 / Толкачев Демид Максимович;[Место защиты: Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования «Кубанский государственный технологический университет»].- Краснодар, 2015.- 149 с.

Содержание к диссертации

Введение

ГЛАВА 1 Аналитический обзор подходов к поиску релевантной информации в сети интернет 9

1.1 Современное состояние вопросов информационного поиска 9

1.2 Автоматический анализ неструктурированной информации 17

1.3 Web Content Mining как метод получения данных и знаний 31

1.4 Проблемы автоматического получения ответов на вопрос 38

1.5 Выводы 46

ГЛАВА 2 Теоретические основы получения данных и знаний из текста 48

2.1 Методика проблемно-ориентированного автореферирования 48

2.2 Поиск семантических связей между предложениями 58

2.3 Методические положения по агрегации информации из различных источников и определению смыслового подобия 65

2.4 Поиск ответов на вопросы 72

2.5 Выводы 82

ГЛАВА 3 Алгоритмы интеллектуального анализа текста 83

3.1 Проблемно-ориентированное автореферирование 83

3.2 Обеспечение семантической связности текста 85

3.3 Автоматическая оценка смыслового подобия текстов 89

3.4 Алгоритмы поиска ответов на вопросы 93

3.5 Выводы 97

ГЛАВА 4 Практическая реализация информационно аналитической системы и оценка её эффективности 99

4.1 Реализация информационно-аналитической системы в виде программного комплекса 99

4.2 Оценка эффективности информационно-аналитической системы 106

4.3 Использование разработанных теоретических и практических аспектов в системах поддержки принятия решений 111

4.4 Выводы 117

Заключение 118

Список литературы

Введение к работе

Актуальность темы.

Для эффективного принятия любых управленческих решений необходимо наличие достаточного объёма данных и знаний, касающихся решаемой проблемы. Лицо, принимающее решения (ЛПР), может не обладать всеми необходимыми сведениями, поэтому в качестве одного из источников актуальной информации часто используют сеть Интернет, чья роль в современном обществе неуклонно возрастает.

Успехи в теории веб-поиска привели к появлению и стремительному развитию ряда поисковых систем. Современные поисковые системы способны находить миллионы документов по запросу пользователя и ранжировать их в соответствии с их релевантностью по отношению к запросу.

Однако зачастую пользователю необходимо получить не документы или сайты, а конкретный ответ на вопрос. Несмотря на имеющиеся успехи, существующие поисковые и специализированные вопросно-ответные системы ещё не могут вести полноценный диалог с пользователем и не всегда находят именно те сведения, которые ему необходимы. И если классический веб-поиск, предполагающий выдачу ссылок на источники с информацией, развит очень глубоко, то в области интеллектуального веб-поиска, осуществляющего анализ информации и выдающего ту её часть, которая наиболее полно соответствует ожиданиям пользователя, остался ряд нерешённых проблем.

Таким образом, получение прямых и точных ответов на вопросы с использованием сети Интернет является актуальным направлением развития информационных технологий.

Объектом исследования является информационно-аналитическая система получения релевантных данных и знаний в сети Интернет.

Предметом исследования выступают методические положения и алгоритмы получения релевантных данных и знаний в сети Интернет.

Целью исследования является разработка методов и алгоритмов извлечения релевантных данных и знаний для практической реализации вопросно-ответной системы в сети Интернет.

Задачи исследования:

1. Исследование методов извлечения информации из сети Интернет и методов автоматического составления краткого изложения текста (автореферата).

  1. Совершенствование методов выделения основных сведений по вопросу, т.е. составления авторефератов источников с учётом вопроса, ответ на который требуется найти.

  2. Обеспечение смысловой связности генерируемых авторефератов.

  3. Разработка методики выявления дублирующих друг друга по смыслу положений в тексте.

  4. Изучение и развитие методов синтеза общего (интегрированного) автореферата по нескольким источникам.

  5. Формализация вопроса и автоматическое определение краткого ответа или ответов на него с учётом его неоднозначности.

Методы исследования.

В качестве методов исследования использовались системный анализ, теория информации, теория алгоритмов, алгебра логики, теория множеств, сравнительный анализ, методы интеллектуального анализа данных и методы разработки программного обеспечения и баз данных.

Научная новизна работы. В результате проведенного в работе системного исследования достигнуты следующие новые научные результаты:

  1. Разработаны теоретические положения проблемно-ориентированного автореферирования веб-страниц с использованием интеллектуального анализа данных для усовершенствования выделения основных сведений по вопросу.

  2. Созданы методика и алгоритм поиска семантических связей между предложениями при автореферировании на основе шаблонов в виде регулярных выражений с целью обеспечения увеличения смысловой связности генерируемых авторефератов.

  3. Разработана методика автоматической оценки смыслового подобия текстов на основе критериев семантической близости с целью увеличения точности выявления дублирующих друг друга по смыслу положений в тексте.

  4. Разработано алгоритмическое обеспечение методов составления интегрированных авторефератов из нескольких источников с помощью методики оценки смыслового подобия.

  5. Разработан с использованием механизма тернарных выражений и адаптирован для русского языка алгоритм поиска ответов на вопрос в сети Интернет, повышающий точность и полноту автоматического получения ответов.

Практическая значимость

Практическая ценность работы заключается в разработке новой технологии автоматического поиска ответов на вопрос и её реализации в виде программного комплекса. Его использование позволит упростить и ускорить процесс поиска правильных ответов на вопросы в сети Интернет по сравнению с применением традиционных поисковых систем. Также создаваемый в рамках работы программный комплекс может быть использован в системах поддержки принятия решений, в том числе в составе ситуационных центров различного уровня.

Реализация и внедрение работы.

Результаты работы используются в функционировании Центра коллективного пользования Кубанского государственного технологического университета (КубГТУ) «Исследовательский центр компьютерных технологий, систем управления и комплексной безопасности» и внедрены в учебный процесс кафедры компьютерных технологий и информационной безопасности КубГТУ, о чём свидетельствуют два акта о внедрении.

Апробация работы. Основные положения диссертации докладывались и обсуждались на конференциях:

1. XIV Международная научно-практическая конференция «Наука вчера,
сегодня, завтра», г. Новосибирск.

2. XXVII Международная заочная научно-практическая конференция
«Научная дискуссия: инновации в современном мире», г. Москва.

  1. XXXVII Международная научно-практическая конференция «Технические науки - от теории к практике», г. Новосибирск.

  2. XXXVI Международная научно-практическая конференция «Инновации в науке», г. Новосибирск.

Публикации. По теме диссертации опубликовано 9 печатных работ, в том числе 3 в изданиях, рекомендованных ВАК РФ для публикации основных результатов диссертационных исследований. Получены свидетельства о государственной регистрации 5 программ для ЭВМ.

Структура и объем диссертации. Диссертационная работа состоит из введения, четырёх глав, выводов по каждой главе, основных результатов, списка используемой литературы и приложений. Общий объём работы составляет 149 страниц машинописного текста. Основная часть диссертации изложена на 132 листах, содержит 28 рисунков. Список используемой литературы содержит 126 наименований.

Web Content Mining как метод получения данных и знаний

В связи с объёмом сети Интернет ручной поиск в ней используется лишь тогда, когда пользователь точно знает, где находится интересующая его информация. В зависимости от задач и квалификации пользователя обычно применяются те или иные автоматизированные методы.

Поисковые системы представляют собой основу для автоматизированного поиска информации в сети Интернет. Другие методы автоматизированного поиска в определённой степени основаны на использовании поисковых систем. Те же, в свою очередь, для поиска информации применяют методы машинного обучения, анализа мультимедийной информации, компьютерную лингвистику, геоинформационные сервисы, исследуют психологию пользователей и их социальные связи, удобство интерфейсов и т.д. [1].

Автоматизированный поиск информации в сети Интернет с помощью поисковых систем называют также веб-поиском. Особенностями веб-поиска выступают необходимость сбора документов для индексации, способность создавать системы, эффективно работающие с большими массивами информации, а также учёт нюансов веба, таких как использование гипертекста [1].

Веб-поиск осуществляется на основе индексации. Основой её механизма является создание так называемого инвертированного индекса [1]. При осуществлении поиска по запросу пользователя непосредственно операции сравнения производятся в рамках индекса, обращение же к самим документам, размещённым в сети, происходит при «обходе веба» - сборе страниц в сети Интернет для их дальнейшего индексирования и поддержки функционирования поисковой системы. Обход веба осуществляют поисковые роботы - специаль 12 ные программы, извлекающие текст из веб-страниц и способные переходить по гиперссылкам [9].

На протяжении последних лет технологии индексирования и функционирования поисковых роботов существенно усовершенствовались, в данной области было опубликовано большое число работ, например, [10] и [11]. Более того, определённые успехи есть и в нетрадиционных сферах веб-поиска поиска, таких как поиск по изображениям [12].

Успехи в теории веб-поиска привели к появлению и стремительному развитию ряда поисковых систем. Рассмотрим наиболее актуальные из них.

Поисковая система Google [13] - лидер среди поисковых систем в мире и вторая по популярности поисковая система в России. Так, на май 2014 года по данным исследовательской компании NetMarketShare Google обрабатывал ежемесячно 68,69% всех поисковых запросов, в России в это же время его доля поданным Liveinternet составила 35,1% [14].

Лидирование Google объясняется её динамичным развитием, поддержкой большого числа языков и минимумом рекламы [15]. Google оценивает популярность веб-сайта по количеству ссылок, ведущих к нему с других страниц [16]. В связи с этим и многочисленными усовершенствованиями поисковых алгоритмов результаты поисковой выдачи Google обладают высокой точностью.

Яндекс [17] - наиболее популярная поисковая система в России [14]. По возможностям она не уступает лучшим зарубежным системам, но индексирует в основном русскоязычные ресурсы [16], чем объясняется её малая распространённость в других странах. В то же время Яндекс лучше других поисковых систем учитывает особенности морфологии русского языка, поэтому использование этой системы для поиска по русскоязычным запросам целесообразно.

В поисковой системе Яндекс реализовано множество технологий обработки введённого пользователем запроса. Так, происходит автоматическое определение языка запроса, проводится морфологический анализ введённых слов, реализуется функция снятия омонимии, выполняется расширение запроса синонимами и полными наименованиями или аббревиатурами, осуществляется выделение объектов - географических названий, имён людей, названий организаций и т.д., ведётся работа над ошибками в запросе [18]. В результате этого Яндекс показывает достаточно точные и полные результаты поиска.

Поисковая система Yahoo! [19] - одна из старейших в мире [16]. Имеет структурированный каталог категорий и поисковую машину, осуществляющую поиск в этих категориях и архиве Yahoo!. Для поиска на не расположенных в каталоге сайтах использует функции Google, поэтому её нельзя назвать полноценной поисковой системой в сети Интернет. Yahoo! не поддерживает русский язык, и, как следствие, в нашей стране её использование незначительно.

Поисковая система Рамблер [20] некогда была известнейшей и наиболее популярной поисковой системой в России, но сейчас её доля на рынке российских поисковых услуг на май 2014 года по данным Liveinternet составляет всего 0,9% [14]. У Рамблера была собственная поисковая машина с базой данных проиндексированных сайтов, теперь для поиска используются технологии Яндекса, поэтому Рамблер потерял свою актуальность как поисковая система.

Поисковая система Поиск@Маі1.Ки [21], напротив, долгое время использовала сторонние поисковые алгоритмы, но в настоящее время применяет собственные. Её доля на рынке российских поисковых услуг на май 2014 года по данным Liveinternet составляет 8,3% [14], что говорит о составлении конкуренции Яндексу. На мировой рынок данная поисковая система пока не вышла.

Поисковая система Bing [22] - разработка корпорации Microsoft, в которой было реализовано множество инновационных решений. Bing вплотную приблизилась по популярности Yahoo в мире [14]. В России данная поисковая система также используется, но не значительно.

Поисковая система Baidu - лидер среди китайских поисковых систем. По количеству обрабатываемых запросов поисковый сайт Baidu стоит на втором месте в мире [14], однако она не используется практически нигде, кроме, преимущественно, Китая и, в некоторой степени, Японии.

Зарубежные поисковые системы Lycos [23], AOL [24], а также Excite и ASK имеют незначительную долю на рынке [14]. Сравнение поисковых систем производится по различным критериям. Чаще всего их сравнивают по числу обрабатываемых запросов пользователей, поскольку оно является наиболее объективным критерием из всех возможных. Данные сравнительного анализа на май 2014 года приведены на рисунках 1.4 и 1.5 [14].

Поиск семантических связей между предложениями

Перед поиском числа появлений индикаторов в предложениях выполняется проверка логической функции СН. Она предназначается для выявления и исключения предложений, которые не могут служить ответом на какой-либо вопрос. Это слишком короткие предложения, а также предложения, полученные из элементов меню веб-страницы.

СН = 0, если длина предложения меньше установленного предела. Также СН = 0, если предложение соответствует одному из сформированных на основе анализа синтаксиса построения веб-сайтов регулярных выражений, выявляющих элементы веб-страницы типа «меню». Кроме того, если в предложении пропущены символы его окончания и оно содержит только слова из вопроса, СН = 0. Помимо этого, СН = 0 у вопросительных предложений, если они не имеют сильных семантических связей с другими предложениями, включёнными в автореферат. Наконец, в случае, если пользовательский вопрос не предполагает выдачу определения какого-либо понятия и предложение не имеет ни одного глагола или слов в значении сказуемого, СН = 0. Во всех остальных случаях СН = 1.

Если WQ WAS WA WT, TO механизм взвешивания предложений изменяется. Все i-ые предложения с СНІ = 0 исключаются из рассмотрения. По каждой группе индикаторов вычисляется свой вес: wsQi =wQ-n, wsAS wsQi+w -o, wsA1 =WSAS1+WA- (AJ), wsTi=wsAi+wT- ), (2.11) где: wsQi, wsASi, wsAi и wsTi - веса i-ого предложения по ПВ, СПВ, УСД и ТС соответственно.

Предложения сортируются по значениям wsQ. Если предложения і и к попадают на соседние позиции в отсортированном списке, и wsQi - wsQk AQ, где AQ - предельно допустимая разность близости предложений пользовательскому вопросу, то i-oe и все остальные предложения с wsQ wsQi исключаются из дальнейшего рассмотрения и автоматически попадают в ПОА. Если этих предложений больше, чем нужно в ПОА, то из дальнейшего рассмотрения исключаются все прочие предложения, а предложения с wsQ wsQi подвергаются дальнейшему взвешиванию, которое протекает подобным образом, т.е. вычисляются веса wsAS, сортируются, проверяется, превышена ли AAS и т.д. Последним вычисляется wsT. Предельно допустимая разность здесь не используется.

На практике проверку логической функции СН целесообразно проводить при выборе предложений автореферата. Тогда она будет выполняться не для всех предложений, а только для тех, что планируется включить в автореферат. В этом случае ws сначала будет вычисляться, как при СН=1, а уточняться уже на следующем этапе, и быстродействие в среднем возрастёт.

Резюмируя вышеизложенное, можно сделать вывод, что ПОА развивает индикаторный метод квазиреферирования за счёт использования принципов ассоциативного поиска и сниппетов: учёта слов из пользовательского вопроса и связанных с ними, а также применения механизма фильтрации информационного шума - логической функции СН.

Таким образом, разработанный метод проблемно-ориентированного автореферирования позволяет получать основную информацию из произвольного текста по любому пользовательскому вопросу. 2.2 Поиск семантических связей между предложениями

Как было указано выше, выявление семантических связей между предложениями в настоящее время развито недостаточно хорошо, поэтому необходимо совершенствовать его.

Для составления автореферата не нужно включать в него все предложения, имеющие между собой какую-либо семантическую связь. Дело в том, что все предложения в тексте, объединённом одним смыслом, семантически связанны между собой [92]. Однако наличие семантической связи предложения с другими предложениями ещё не говорит о том, что это предложение нельзя воспринимать в отрыве от них.

С учётом сути различных семантических связей и опыта их определения в текстах на естественном языке, охарактеризуем кратко каждый их вид с точки зрения необходимости его учёта при автореферировании (таблица 2.2) [93].

Вводные слова Достаточно высокая сила, между предложениями устанавливается зависимость, определяется элементарно При автореферировании важно добиться того, чтобы полученный автореферат мог восприниматься в отрыве от исходного текста. Предложения автореферата не должны выглядеть вырванными из контекста, следует обеспечить либо их связность с другими предложениями, либо их смысловую самодостаточность. Исходя из этого, можно утверждать, что при автореферировании любого типа требуется определять семантические связи, входящие в группу «зависимостей»: местоименную анафору, организацию логических связей и вводные слова. Данные, приведённые в таблице 2.2, также подтверждают это.

Для обнаружения всех трёх требуемых видов семантических связей можно предложить использование набора построенных с учётом синтаксиса и семантики русского языка правил в виде регулярных выражений - шаблонов, состоящих из символов и метасимволов и задающих правила поиска. Поскольку местоимений, слов для организации логических связей и вводных слов сравнительно немного, количество правил также будет умеренным, что позволит добиться высокого быстродействия [94].

Будем использовать регулярные выражения PCRE (Perl Compatible Regular Expressions - перл совместимые регулярные выражения). Основы их синтаксиса приведены в [95]. Рассмотрим некоторые его элементы:

/ - начало шаблона; А - начало строки; () - выделяют подшаблон; [] -строковой класс, или набор символов, которые могут быть в данном месте; [А] -набор символов, которые не могут быть в данном месте; - любое количество символов; - операция «ИЛИ»; . - любой символ, кроме разрыва строки; \s -любой символ пробела; \ - экранирование спецсимволов; /iu - конец регистро-независимого шаблона; - ноль или один символ.

Разбор регулярных выражений основывается на использовании недетерминированных конечных автоматов (НКА) [96], [97]. Осуществляется построение НКА и моделирование его работы. Если с помощью последовательного набора символов проверяемого предложения, поданного на вход НКА, будет достигнуто конечное состояние автомата, то в предложении обнаружена семан 60 тическая связь, соответствующая регулярному выражению, по которому был построен этот НКА.

Для теоретического обоснования обозначенного предложения рассмотрим по одному типовому примеру регулярных выражений для выявления каждого из требуемых видов семантических связей.

Попробуем выявить местоименную анафору «он». В соответствии с правилами русского языка, можно выделить следующие эвристики для её выявления: зависимое предложение должно содержать местоимение «он» прописными или строчными буквами в любом месте, и до него не должно быть запятых и точек с запятой; запятые и точки с запятой в прямой речи не учитываются.

Обеспечение семантической связности текста

В любом приемлемом для оценки смыслового подобия алгоритме необходима процедура приведения слов текста к терминам или понятиям - унифицированным обозначениям для групп слов с общим смыслом. Отсутствие обозначенной процедуры существенным образом понизит качество работы алгоритма и приемлемо только в случае допустимости грубой оценки при необходимости предельного сокращения вычислительной сложности алгоритма.

Предложим алгоритм, учитывающий все три критерия, указанных во второй главе и определяющих смысловое подобие текстов.

На первом шаге из текста автореферата удаляются знаки препинания, спецсимволы и незначащие слова - предлоги, союзы, частицы и междометия, кроме отрицательной частицы «не». Далее при помощи морфологического анализа или с помощью стеммера Портера выделяются основы слов bw.

Затем по словарю синонимов/гипонимов каждая основа приводится к базовому варианту Ь, если она отлична от него. У частиц «не» выделение основы не проводится, вместо этого они удаляются, а следующие за ними слова получают значение коэффициента koef = -1, тогда как его начальное значение для всех слов koef = 1. На четвёртом шаге каждая основа bi получает вес Wi, который зависит от присутствия bwi в словарях индикаторов и вычисляется по формуле (2.34). После вычисления весов для автореферата из множества базовых основ В составляется множество уникальных базовых основ UB по формуле (2.35). При этом вес ub вычисляется по формуле (2.36). Далее вычисляется коэффициент подобия авторефератов. Если требуется учесть только критерий К1, используется формула (2.38). Если учитываются критерии К1 и К2, применяется формула (2.39). Для учёта же всех трёх критериев необходимо использовать формулу (2.40). Если требуется определять общие и различные положения, авторефераты разбиваются на предложения Р в соответствии с таким разбиением исходного текста. Затем вычисляются меры вхождения предложений. В общем случае используются формулы (2.34), (2.42), (2.44) и (2.45). Если wQ wAs wA wT, применяются формулы (2.34), (2.42), (2.43) и (2.45). Получение меры вхождения предложений и является последним шагом алгоритма. Выявление смыслового подобия предложений или факта их противопоставления друг другу осуществляется до генерации интегрированного автореферата и учитывается при ней. Выявляется смысловое подобие и противоречия согласно алгоритму на рисунке 3.5. Генерацию интегрированного автореферата (рисунок 3.6) можно разделить на три этапа.

На первом этапе происходит корректировка весов предложений, полученных при создании проблемно-ориентированных авторефератов. Для этого осуществляется попарное вычисление мер вхождения между предложениями и определяется общий симметричный коэффициент сходства. Если предложение одного из исходных авторефератов получило высокий коэффициент сходства с другим предложением другого автореферата, то вес такого предложения увеличивается, и оно в первую очередь попадает в интегрированный автореферат. На данном этапе учитывается тот факт, что если одна и та же мысль повторяется в разных источниках, есть существенная вероятность того, что эта мысль важнее и достоверней прочих. Предложение PI

Алгоритм построения интегрированного автореферата На втором этапе происходит исключение дублирующих друг друга по смыслу предложений из дальнейшего рассмотрения. Если общий коэффициент сходства двух предложений выше некоторого порогового значения, то предложение с меньшим весом исключается из рассмотрения. Если веса предложений одинаковы, исключается то из них, которое, в соответствии с мерами вхождения, входит в другое. Если WQ WAS WA WT, TO используется только правило вхождения одного предложения в другое с учётом противоречий, и входящее предложение исключается. Это обеспечивает отсутствие дублирующих друг друга по смыслу фраз в интегрированном автореферате.

На третьем этапе осуществляется выбор настраиваемого числа предложений из проблемно-ориентированных авторефератов с максимальными весами. Из этих предложений с учётом семантических связей и составляется интегрированный автореферат.

Алгоритм построения интегрированного автореферата был сформирован с использованием автоматической оценки смыслового подобия текстов (рисунок 3.6). На рисунке 3.6: korW - выполняется ли корректировка весов; п - число ПОА; in - число предложений в і-ом ПОА; s4- ski -j-oe предложение і-ого ПОА определено как дублирующее по смыслу 1-ого предложения k-ого ПОА; w4- -вес j-oro предложения і-ого ПОА; ког - значение коэффициента, в соответствии с которым осуществляется корректировка весов; m - число предложений в интегрированном автореферате; IAmax - предложение с весом wmax включается в интегрированный автореферат, вес этого предложения становится равен -1. Предложенные алгоритмы позволят агрегировать информацию из различных источников, исключая дублирующие друг друга фразы.

Оценка эффективности информационно-аналитической системы

Представленные на рисунках А.1 - А. 8 авторефераты уже были обработаны на предмет поиска семантических связей между предложениями. Для демонстрации эффективности поиска семантических связей приведём два автореферата без такой обработки (Приложение А, рисунки А. 17 и А. 18).

Из анализа рисунков А.З и А. 17 можно сделать вывод, что после обработки в автореферат были добавлены 2 предложения. Первое предложение начиналось со слов «Отмечая хорошее качество» и было добавлено, потому что в следующем за ним предложении обнаружена указательная местоименная анафора «этот». До обработки было неясно, при какой показатель в предложении идёт речь.

Второе предложение начиналось со слов «Добросовестный производитель всегда» и было добавлено, поскольку в следующем за ним предложении обнаружено вводное слово «А». После обработки стало понятно, что именно уточнила И. Жевняк.

Из анализа рисунков А. 7 и А. 18 можно сделать вывод, что после обработки в автореферат тоже были добавлены 2 предложения. Первое предложение начиналось со слов «Практически единственной жидкостью» и было добавлено, потому что в следующем за ним предложении обнаружена логическая связь, выражаемая словом «поэтому». После обработки становится понятно, почему на заводах, перекачивающих хлор, роль смазки и рабочего тела отведена серной кислоте.

Втрое предложение начиналось со слов «Особенно внимательно стоит» и было добавлено, поскольку в следующем за ним предложении обнаружена ме 109 стоимённая анафора «них». В результате обработки стало понятно, что именно в своем составе содержит огромные концентрации хлора. Таким образом, поиск семантических связей ИАС «IntellST» улучшил качество авторефератов.

Приведём интегрированный автореферат по представленным выше ПОА (Приложение А, рисунок А. 19).

В интегрированный (общий, агрегированный) автореферат попала вся основная информация из ПОА о безопасных концентрациях хлора в различных средах, несмотря на в восемь раз более высокое сжатие информации по сравнению с проблемно-ориентированными авторефератами. При этом общая информация по хлору или, тем более, нерелевантная информация в ИА не попала. Таким образом, цель создания интегрированного автореферата была достигнута. Также в нём отсутствуют дублирующие друг друга по смыслу фразы.

Интегрированный автореферат по тем же источникам, составленный с помощью TextAnalyst v2.01 (Приложение А, рисунок А.20), напротив, включает текст, полученный из меню веб-страницы и не представляющий практической ценности для пользователя. Также данный автореферат содержит незначительный объём общей информации по хлору, сведения о безопасных концентрациях хлора отсутствуют. Таким образом, ИАС «IntellST» более эффективно агрегирует информацию из различных веб-источников.

Хлор был одним из первых химических отравляющих веществ, использованных Германией в Первую мировую войну, Хлор используют для хлорирования питьевой воды, отбеливания тканей и бумаги, получения хлор органических и хлорнеорганических веществ, дезинфекции. При работе с хлором следует пользоваться защитной спецодеждой, противогазом, перчатками. Как эффективный бактерицид хлор начал использоваться почти два столетия назад. С одной стороны, хлор спас сотни тысяч жизней благодаря своей способности разрушать вредные бактерии и вирусы, но в то же время он оказывает отравляющее воздействие и на человека.

Кроме этого, хлор является одним из важнейших продуктов химической промышленности по объёму производства и области применения.

Опасность хлора заключается во взаимодействии хлоргаза со слизистыми оболочками человека - образуется соляная кислота, вызывающая отёк лёгких, поражение глаз и носа, кожные раздражения. При вдыхании высоких концентраций хлора возможен смертельный исход - попадая в лёгкие, он обжигает лёгочную ткань и вызывает удушье.

Избегайте перехода через туннели, овраги и лощины, так как в низких местах концентрация хлора будет выше.

Предельно допустимая концентрация (ПДК) хлора в воздухе населенных пунктов: среднесуточная 0,03 мг/мЗ, максимальная разовая 0,1 мг/мЗ, в воздухе рабочей зоны производственных помещений составляет 1 мг/мЗ, порог восприятия запаха 2 мг/мЗ.

Максимально допустимая концентрация хлора для фильтрующих промышленных и гражданских противогазов составляет 2500 мг/мЗ

На расстоянии более 500 метров от очага, где концентрация хлора резко понижается, средства защиты кожи можно не использовать, а для защиты органов дыхания используют промышленные противогазы с коробками марок А , В, Г, Е, БКФ, а также гражданские противогазы ГП-5, ГП-7, ПДФ-2Д, ПДФ-2Ш, без ДПГ-3 или С ДПГ-3. Хлор должен присутствовать в воде в таких количествах, чтобы был бактерицидный эффект, но в то же время концентрация хлора должна быть безопасной для человека", -