Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Программные системы информационного обеспечения научной деятельности : модели, структуры и алгоритмы Барахнин, Владимир Борисович

Программные системы информационного обеспечения научной деятельности : модели, структуры и алгоритмы
<
Программные системы информационного обеспечения научной деятельности : модели, структуры и алгоритмы Программные системы информационного обеспечения научной деятельности : модели, структуры и алгоритмы Программные системы информационного обеспечения научной деятельности : модели, структуры и алгоритмы Программные системы информационного обеспечения научной деятельности : модели, структуры и алгоритмы Программные системы информационного обеспечения научной деятельности : модели, структуры и алгоритмы
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Барахнин, Владимир Борисович. Программные системы информационного обеспечения научной деятельности : модели, структуры и алгоритмы : диссертация ... доктора технических наук : 05.13.17 / Барахнин Владимир Борисович; [Место защиты: Моск. гос. ун-т печати].- Новосибирск, 2010.- 315 с.: ил. РГБ ОД, 71 11-5/235

Содержание к диссертации

Введение

Глава 1. Теоретические основы создания интеллектуальных информационных систем 46

1.1. Уточнение используемой терминологии на основе семиотического подхода 46

1.2. Особенности научно-информационного процесса с участием интернет-документов 60

1.3. Методология изучения интернет-сайтов 72

Выводы к главе 1 76

Глава 2. Анализ информационных потребностей научного сообщества 80

2.1. Основные характеристики информационных потребностей в сфере науки 80

2.2. Исследование информационных потребностей коллективных пользователей — научных учреждений СО РАН 90

2.3. Информационная модель описания деятельности научного сообщества 96

Выводы к главе 2 111

Глава 3. Структура основных компонентов программной системы 113

3.1. Формулировка требований к программной системе 113

3.2. Модель информационной системы 123

3.3. Модель направленных связей между документами 132

3.4. Структура логических компонентов программной системы 137

Выводы к главе 3 146

Глава 4. Извлечение метаданных из слабоструктурированных документов 150

4.1. Автоматизация процесса извлечения метаданных из слабоструктурированных документов 150

4.2. Автоматизация процесса получения метаданных документов с использованием удаленных библиографических описаний 159

4.3. Автоматическое извлечение из документов ключевых слов 163

Выводы к главе 4 173

Глава 5. Автоматизация процесса классификации и кластеризации слабоструктурированных документов 175

5.1. Автоматизированная технология построения тезаурусов и онтологии 175

5.2. Теоретические основы поиска документов "по аналогии". 191

5.3. Кластеризация научных документов на основании меры сходства 202

Выводы к главе 5 219

Глава 6. Структуры представления научной и научно-организационной информации 221

6.1. Задание структуры представления информации на основании многомерной классификации 221

6.2. Структура информационно-справочной системы по истории науки (на примере математики) 226

6.3. Структуры представления информации о деятельности научного сообщества (на примере СО РАН) 235

6.4. Структуры представления информации о научно-инновационной деятельности 240

Выводы к главе 6 243

Глава 7. Практическая реализация программной системы информационного обеспечения научной деятельности . 244

7.1. Функциональная схема программной системы 244

7.2. Практическое использование результатов исследований 247

Заключение 253

Список использованных источников 257

Приложения 299

Введение к работе

Актуальность проблемы. Происшедшее за последние 10-15 лет бурное развитие высоких технологий в области передачи и обработки информации, в частности создание современных телекоммуникационных систем (прежде всего сети Интернет), привело к появлению принципиально новых возможностей организации практически всех этапов научно-информационного процесса, что в свою очередь обусловило качественный рост информационных потребностей научных работников.

К наиболее перспективным направлениям развития информационного обеспечения научной деятельности относятся информационные технологии. В данном исследовании речь пойдет только о тех способах удовлетворения информационных потребностей научного сообщества, которые базируются на электронных технологиях. В рамках указанного подхода основным инструментом информационного обеспечения научной деятельности являются информационные системы.

В настоящее время научные сообщества наиболее развитых стран и регионов мира обладают достаточно мощными информационными системами. В Европе функционирует интегрированная система ERGO, являющаяся частью проекта CORDIS. Среди американских разработок своими масштабами выделяется информационная система Библиотеки конгресса США. К числу наиболее крупных и востребованных научным сообществом отечественных информационных систем относятся Единое научное информационное пространство (ЕНИП) РАН, "Информика", Университетская информационная система РОССИЯ, Научная электронная библиотека eLIBRARY, Соционет. Методология разработки программных систем информационного обеспечения различных аспектов научной деятельности на базе новых интернет-технологий предложена в работах Ю.И.Шокина и А.М.Федотова; А.Б.Жижченко, В.А.Серебрякова, А. Н. Без душного и соавторов; А.Н.Тихонова, А.Д.Иванникова, В.П.Кулагина и соавторов; С.В.Мальцевой и др.

Названные системы в той или иной степени удовлетворяют потребностям исследователей в информации, однако каждая из них страдает определенными недостатками.

Во-первых, существенной проблемой большинства программных систем информационного обеспечения научной деятельности является недостаточно своевременная актуализация информации, особенно проявляющаяся при включении в научно-информационный процесс слабоструктурированных документов (т.е. документов, у которых значения атрибутов метаданных, как содержательных, так и структурных, не являются элементами заданных словарей). Наибольшие проблемы вызывает организация поиска по предметным классификаторам, поскольку слабоструктурированные документы нередко лишены соответствующих классификационных признаков.

Во-вторых, построение масштабных информационных систем для поддержки научной деятельности требует распределенного хранения информации. Отсюда неизбежно возникает проблема интероперабельности, то есть обеспечения взаимодействия разнородных информационных источников (как с целью их непосредственной интеграции, так и для организации поиска по однотипным подсистемам различных информационных систем). К сожалению, большинство информационных систем не обладает такими современными средствами обеспечения интероперабельности, как возможность работы со службой директорий, а также возможность интеграции с другими системами по схемам данных.

В-третьих, при создании информационных систем зачастую недостаточное внимание уделяется вопросам организации взаимодействия разрабатываемой системы с

потребителями информации. Для возможности эффективного восприятия человеком данных нужно, чтобы они были превращены в "информацию" и "знания". Сказанное, в частности, означает, что предполагаемая возможность извлечения из содержащихся в информационной системе данных новой информации и знаний1 влечет за собой необходимость наличия связей между документами, содержащими упоминание тех или иных сущностей, с документами, описывающими эти сущности.

Преодоление указанных проблем возможно путем создания интеллектуальных информационных систем, в качестве составных компонентов которых выступают, наряду с традиционной информационной системой, еще и рассуждающая информационная система (формализующая правила логического вывода), а также интеллектуальный интерфейс (диалог, графика и т.д.), благодаря которому компьютер в диалоговом режиме усиливает комбинаторное мышление и логические возможности человека.

Развитие сети Интернет предоставило создателям интеллектуальных информационных систем новые возможности, связанные с одновременным доступом ко множеству разнородных источников данных, что открывает широкие перспективы в развитии более совершенных технологий получения знаний. Однако многие современные исследования в области интеллектуального поиска опираются на неявное предположение о возможности широкого распространения более или менее подробной стандартизации представления информации. Разумеется, реализация подобных проектов, прежде всего концепции Semantic Web консорциума W3, позволила бы вывести работу с информацией на качественно новый уровень. Однако важная особенность сети Интернет как феномена цивилизации заключается в том, что развитие информационных ресурсов сети изначально носит децентрализованный характер, поэтому многие ресурсы, содержащие важную информацию из той или иной предметной области, не соответствуют рекомендациям консорциума W3. Отметим, что на большинстве сайтов документы являются слабоструктурированными, т.е. значения атрибутов их метаданных носят достаточно произвольный характер, а не являются элементами заданных словарей (это относится как к содержательным, так и к структурным метаданным).

Алгоритмы обработки слабоструктурированных документов описаны в работах как зарубежных (В.Крещенди, Дж.Мекка, П.Мериальдо, 2001; А.Сауджет, Ф.Азавант, 2001, и др.), так и отечественных (И.Некрестьянов, Е.Павлова, 2002, И.В.Некрасов, В.О.Толчеев, 2005, и др.) авторов. Основная идея таких алгоритмов базируется, как правило, на анализе их html-разметки. Однако имеются важные нерешенные проблемы:

  1. Из документов извлекаются лишь те данные, которые присутствуют непосредственно в них самих, хотя в удаленных библиографических базах данных зачастую содержатся более подробные описания документов, которые сделаны экспертами, включающие коды классификатора (обычно отсутствующие в самих документах), ключевые слова и др.

  2. Координатное индексирование русскоязычных документов, как правило, ограничивается однословными терминами (что объясняется отсутствием соответствующих алгоритмов ввиду сложности морфологического анализа русских словосочетаний) .

Таким образом, весьма актуальна решаемая в диссертационной работе проблема теоретического обоснования и разработки технологических основ создания программ-

1В диссертационном исследовании речь идет, прежде всего, об извлечении знаний о документах и об описываемых этими документами сущностях.

ных систем, обеспечивающих автоматизированное включение в научно-информационный процесс слабоструктурированных документов с целью получения на основании содержащихся в них данных новой информации и знаний.

Цель работы: теоретическое обоснование, разработка и реализация принципов создания программных систем информационного обеспечения научной деятельности, способных в автоматизированном режиме извлекать данные (описательные характеристики) из слабоструктурированных электронных документов с целью получения на основании этих данных новой информации и знаний.

Задачи, решаемые в работе:

  1. Анализ информационных потребностей научного сообщества в свете изменений, вызванных распространением интернет-технологий, а также новыми принципами функционирования и финансирования российской науки, основанный на сравнении характеристик информационных потребностей, изучении интеграционных проектов СО РАН и исследовании интернет-сайтов.

  2. Разработка методологии комплексного изучения интернет-сайтов, учитывающей их информационное наполнение, организацию хранения и обработки данных, а также роль в информационном обеспечении соответствующего вида деятельности.

  3. Создание модели информационного обеспечения деятельности научного сообщества, включая научно-организационную и научно-инновационную деятельность.

  4. Разработка отвечающей основным системным принципам модели информационной системы.

  5. Разработка информационной модели отношений и тематических связей между документами системы.

  6. Разработка структуры логических компонентов системы, отвечающих за поиск информации, вывод новых знаний и диалог с пользователем.

  7. Описание многомерных классификационных признаков, отвечающих такой совокупности заранее сформулированных информационных запросов, которая была бы в состоянии удовлетворить основные информационные потребности пользователей системы, а также выделение соответствующих классификационных признаков для систем информационного обеспечения научной, научно-организационной и научно-инновационной деятельности.

  8. Разработка методики создания тезаурусов и онтологии, обеспечивающей высококвалифицированное описание предметной области с использованием надежно выверенных терминов и позволяющей провести начальный этап работы с минимальным привлечением специалистов — экспертов в данной предметной области.

  9. Исследование принципов и разработка алгоритмов автоматизации научно-информационного процесса с участием слабоструктурированных документов, который включает извлечение метаданных из документов, координатное индексирование терминами-словосочетаниями и классификацию (кластеризацию) документов.

Методы исследования. В диссертации использованы методы информатики как науки о структуре и свойствах семантической информации, системного анализа, теории кибернетических систем, семиотики, теории моделирования баз данных, теории сходства, математического моделирования, а также информационные технологии.

Объект исследования. Данные, содержащиеся в слабоструктурированных текстовых электронных документах научной и научно-организационной тематики.

Предмет исследования. Модели, структуры и алгоритмы, описывающие программные системы информационного обеспечения научной деятельности, предназначенные для работы со слабоструктурированными документами с целью получения на основании содержащихся в них данных новой информации и знаний.

Научная новизна. Полученный в работе комплекс теоретических результатов, обобщений и исследований позволил решить научно-техническую проблему теоретического обоснования и разработки технологических основ создания программных систем, обеспечивающих автоматизированное включение в научно-информационный процесс слабоструктурированных документов с целью получения на основании содержащихся в них данных новой информации и знаний.

Наиболее существенные научные результаты заключаются в следующем:

Обоснована методология комплексного изучения интернет-сайтов.

Предложена модель информационного обеспечения деятельности научного сообщества, отличительными особенностями которой являются четкое выделение субъектов (включая организации и группы) и объектов деятельности, а также неиерархичность структуры субъектов деятельности.

Разработана отвечающая основным системным принципам модель информационной системы, отличительной особенностью которой является использование в качестве основных структурных элементов документов (целостных информационных объектов, снабженных метаданными), связи между которыми задаются посредством направленных связей.

Разработана структура логических компонентов интеллектуальной системы, базовыми объектами которой являются каталог, объединяющий поисковые образы исходных документов, и онтология предметной области.

Предложена базовая структура представления информации на основании многомерной классификации, описываемая посредством задания подмножества метаданных, определяющего набор классификационных признаков, и сочетаний значений этих метаданных.

Разработана методика создания тезаурусов и онтологии на основе предметного указателя специализированных энциклопедий, отличительной особенностью которой является возможность автоматизированного установления связей между терминами.

Исследованы принципы и предложены алгоритмы автоматизации основных этапов научно-информационного процесса с участием слабоструктурированных документов (включая извлечение метаданных, определение ключевых слов, классификацию и кластеризации), причем программные средства, реализующие эти алгоритмы, функционируют как сетевые приложения.

Достоверность и обоснованность научных положений, результатов, выводов и рекомендаций, приведенных в диссертационной работе, обеспечиваются применением надежных методов исследования, корректностью использования адекватного математического аппарата и подтверждены результатами использования предложенных информационных моделей и структур при создании целого ряда разделов Информационно-справочной системы Сибирского отделения РАН, применением разработанных алгоритмов обработки слабоструктурированной информации для развития разрабатываемых в институтах СО РАН информационных систем по конкретным направлениям наук, а также апробацией и обсуждением результатов работы на международных и

всероссийских научных конференциях, рецензированием и предварительной экспертизой научных статей, опубликованных в ведущих научных изданиях.

Практическая значимость и внедрение. На основе полученных в работе теоретических результатов и методических рекомендаций создан комплекс методов, обеспечивающий решение важной научно-технической задачи: включения в научно-информационный процесс слабоструктурированных интернет-документов с целью получения на основании содержащихся в них данных новой информации и знаний.

Результаты работы использованы при выполнении проекта конкурса молодых ученых ННЦ СО РАН "Интегрированная информационная система научного сообщества (пилотный проект — система «Математика»)" (автор выступал в роли руководителя проекта); молодежного научного проекта СО РАН № 2003-6 "Разработка информационной системы «Web-ресурсы математического содержания»" (автор выступал в роли руководителя проекта); проектов программы поддержки ведущих научных школ РФ № НШ-2314.2003.1 "Информационно-вычислительные технологии в задачах принятия решений", НШ-9886.2006.9 и НШ-931.2008.9 "Разработка информационно-вычислительных технологий в задачах принятия решений", НШ-6068.2010.9 "Разработка информационно-вычислительных технологий поддержки принятия решений"; Федеральной целевой программы "Научные и научно-педагогические кадры инновационной России" на 2009-2013 гг. (госконтракт ГК П484 от 04.08.2009 г. по проблеме "Создание научно-технического задела, направленного на разработку новых, эффективных с позиций функциональности и безопасности, основанных на онтологиях, мульти-агентных технологий управления распределенными разнородными информационными хранилищами и библиотеками информационных ресурсов"); госконтрактов "Технология разработки распределенных программных систем для мониторинга больших корпоративных научно-образовательных сетей передачи данных на базе современных методов интеллектуального анализа данных и машинного обучения" (шифр 2007-4-1.4-00-04-103) и "Технология разработки распределенных программных систем для мониторинга и обеспечения информационной безопасности информационных систем, потенциально уязвимых в отношении деструктивных информационных воздействий" (шифр 2007-4-1.4-15-04-004); проектов РФФИ № 03-07-90423-в "Виртуальный музей науки и техники СО РАН", № 06-07-89060-а "Разработка модели виртуальной среды для обмена результатами научных исследований", № 06-07-99003-с "Ресурсы сети Интернет как объект научного исследования" (конкурс научно-популярных статей, в соавторстве с А. М. Федотовым), № 07-07-00271-а "Разработка и анализ модели управления доступом к распределенным информационным ресурсам" № 09-07-00277-а "Разработка технологий построения распределенных интегрируемых систем обработки, хранения и передачи информационных ресурсов на основе открытых спецификаций моделей данных", 10-07-00302-а "Разработка и анализ модели построения электронных библиотек на основе международных стандартов"; интеграционных проектов СО РАН 2003-132 "Виртуальный музей науки и техники СО РАН", № 2006-34 "Создание распределенной информационно-аналитической среды для исследований экологических систем", № 2006-35 "Древовидный каталог математических интернет-ресурсов", № 2006-115 "Разработка интеллектуальных информационных технологий генерации и анализа знаний для поддержки фундаментальных научных исследований в области естественных наук", 2009-50 "Модели изменения биосферы на основе баланса углерода (по натурным и спутниковым данным и с учетом вклада бореальных экосистем)".

Результаты исследований были отмечены премией конкурса Администрации Новосибирской области за научные разработки молодых ученых и премией Благотворительного фонда В. Потанина за победу в конкурсе "Лучшие молодые преподаватели вузов

Сибирского федерального округа".

Результаты исследований внедрены в Информационно-справочной системе СО РАН, занимающей, по данным на июль 2010 г. рейтинга Webometrics, в который входят сайты ведущих научно-исследовательских центров всего мира, 1-е место среди российских сайтов (19-е — в Европе, 54-е — в мире), а также использованы в процессе создания ряда систем информационного обеспечения научной деятельности: Электронного атласа биоразнообразия животного и растительного мира Сибири, Электронной библиотеки MathTree, Распределенной информационно-аналитической среды для экологических исследований, сайта журнала "Вычислительные технологии".

Результаты диссертационной работы использованы в учебном процессе кафедры математического моделирования Новосибирского государственного университета, кафедры вычислительных технологий Новосибирского государственного технического университета и кафедры прикладной математики и кибернетики Сибирского государственного университета телекоммуникаций и информатики.

Основные положения, выносимые на защиту. Технологические основы создания программных систем, обеспечивающих автоматизированное включение в научно-информационный процесс слабоструктурированных документов с целью получения на основании содержащихся в них данных новой информации и знаний, включающие в себя:

модель информационного обеспечения деятельности научного сообщества, отличающуюся от известных четким выделением субъектов и объектов деятельности;

отвечающую основным системным принципам модель информационной системы, представляемой как множество документов (целостных информационных объектов, снабженных метаданными), связи между которыми задаются посредством направленных связей;

оригинальный алгоритм создания тезаурусов и онтологии на основе предметных указателей специализированных энциклопедий;

принципы и алгоритмы автоматизации основных этапов научно-информационного процесса с участием слабоструктурированных документов (включая извлечение метаданных, определение ключевых слов, классификацию и кла-стеризцию), причем программные средства, реализующие эти алгоритмы, функционируют как сетевые приложения.

Апробация результатов исследования. Основные положения диссертации обсуждались на многих международных, всероссийских и региональных конференциях, в том числе на Всероссийских научных конференциях "Электронные библиотеки: перспективные методы и технологии, электронные коллекции" - RCDL (Дубна, 2002; Санкт-Петербург, 2003; Ярославль, 2005; Суздаль, 2006; Переславль-Залесский, 2007; Дубна, 2008; Петрозаводск, 2009; Казань, 2010); Второй Международной конференции IASTED по автоматизации управлению и информационным технологиям (Новосибирск, 2005); Международных конференциях и совещаниях по электронным публикациям - El-Pub (Новосибирск, 2002, 2003, 2004); Всероссийских конференциях с участием иностранных ученых "Распределенные информационно-вычислительные ресурсы" - DICR (Новосибирск, 2005, 2008); Международной конференции "Распределенные информационно-вычислительные ресурсы" (Казахстан, Павлодар, 2006); Международной конференции "Вычислительные и информационные технологии в науке, технике и образовании" (Казахстан, Алма-Ата, 2004); Международных конференциях "Системный анализ и информационные технологии" - САЙТ (Переславль-Залесский, 2005; Звенигород, 2009); Международной конференции "Мальцевские чтения" (Новосибирск,

2008), Всероссийских конференциях с международным участием "Знания - Онтологии - Теории" - ЗОНТ (Новосибирск, 2007, 2009); Всероссийских научно-практических конференциях "Инновационные недра Кузбасса. IT-технологии" (Кемерово, 2005, 2007, 2008); Всероссийской научно-практической конференции "Системы автоматизации в образовании, науке и производстве" (Новокузнецк, 2007); Всероссийских конференциях молодых ученых по математическому моделированию и информационным технологиям (Красноярск, 2003; Монголия, Ханх, 2009 — лекционный доклад; Красноярск, 2010 — лекционный доклад); Конференциях молодых ученых СО РАН, посвященных М. А. Лаврентьеву (Новосибирск, 2003, 2004); а также на семинарах и совещаниях в Институте вычислительных технологий СО РАН, Институте системного анализа РАН, Институте математики СО РАН, Институте систем информатики СО РАН, Институте динамики систем и теории управления СО РАН, Московском государственном университете печати, Новосибирском государственном университете и др.

Публикации. Результаты диссертации опубликованы в 57 работах (список приведен в конце автореферата), включая 21 статью в ведущих журналах, рекомендованных ВАК РФ [1-21], 1 статью в журнале "Электронные библиотеки" [22], 13 статей в сборниках трудов международных конференций [23-35], 22 статьи в сборниках трудов всероссийских конференций [36-57].

В работах, выполненных в соавторстве, В.Б.Барахнину принадлежат результаты, относящиеся к исследованию информационных потребностей научного сообщества, разработке информационной модели описания деятельности научного сообщества, моделей и структур основных компонентов интеллектуальной системы, модели направленных связей между документами, базовых структур представления информации, разработке методики комплексного изучения интернет-сайтов, разработке методики создания тезаурусов и онтологии на основе предметного указателя энциклопедий, исследованию принципов и созданию алгоритмов автоматизации научно-информационного процесса с участием слабоструктурированных интернет-документов, а также результаты по практическому использованию этих алгоритмов.

Структура и объем диссертации. Диссертация состоит из введения, 7 глав, заключения, списка использованных источников из 285 наименований, приложений (в т.ч. актов и справок о внедрении результатов в научных учреждениях и в учебный процесс вузов). Общий объем работы 315 страниц, включая 24 рисунка и 8 таблиц.

Особенности научно-информационного процесса с участием интернет-документов

Следует учесть, что за рамки этого определения выведена первоначальная стадия информационной деятельности — подготовка научных документов к их размещению в интернете. Хотя, как уже неоднократно подчеркивалось во введении, развитие интернета изначально носит децентрализованный характер, и выработка общих стандартов представления информации — не более чем благое пожелание, однако при создании интернет-документов следует стремиться к тому, чтобы работа с ними была максимально удобной для пользователей, что достигается, в частности, включением документов в информационные системы, основные принципы создания которых будут изложены в главе 3.

Здесь же мы лишь коротко отметим, что для наиболее эффективного функционировании ИнтС целесообразно рассматривать в качестве логической единицы хранения документ. Разумеется, документ — информационный ресурс — представляет собой (как это зафиксировано в ГОСТ 7.73-96 "Поиск и распространение информации") поисковый образ исходного документа, причем в некоторых случаях содержание последнего может входить в поисковый образ в качестве одного из элементов (это противоречит ограничению из классической монографии [124], но из ее контекста следует, что подобное ограничение было вызвано необходимостью уменьшения объема поисковых образов с целью уменьшения трудоемкости процесса их обработки). С другой стороны, поисковый образ документа тоже является документом (описывающим исходный документ), поэтому далее, где это не вызовет недоразумения, мы будем использовать термин "документ" в значении "поисковый образ исходного документа". Отметим, что в фундаментальных работах по информатике и кибернетике [173, 124], вышедших, в том числе, в конце 1980-х гг., поисковый образ документа не рассматривается даже в качестве вторичного документа.

Особо подчеркнем, что в этап сбора интернет-документов мы будем включать и первоначальную стадию их аналитико-синтети ческой переработки: каталогизацию, предусматривающую, в том числе, занесение в каталожную карточку сетевого имени (url-адреса) документа. Согласно стандартам построения открытых систем (OSI) [107], структура и содержание документа должны описываться в соответствии с международными схемами данных. Совокупность извлекаемых в процессе индексации характеристик документа вместе с формальным описанием структуры этих характеристик обычно называют метаданными. Более формально, метаданные — это структурированные данные, представляющие собой характеристики описываемых сущностей для целей их идентификации, поиска, оценки, управления ими [277]. В обзоре Ю. Е. Хохлова и С. А. Арнаутова [200] показано, что метаданные нельзя рассматривать как обычную разновидность каталожного описания документов ввиду специфики области их применения, используемых подходов и т. п. Таким образом, сбор интернет-доку ментов сводится к сбору их метаданных, поскольку, как будет показано в 3.2, информационная система работает не с данными, а исключительно с метаданными; к тому же непосредственное копирование документов может вызвать серьезные вопросы относительно соблюдения авторских прав.

Как уже было отмечено во введении, значительная часть интернет-документов является слабоструктурированными, т. е. они снабжены метаданными, но при этом имеют неструктурированные элементы. Слабоструктурированный документ может не содержать явно заполненных соответствующих полей метаданных, причем классификационные признаки документа зачастую вообще отсутствуют. Разумеется, обработка слабоструктурированных документов не может быть полностью автоматизирована, и основная задача разработчиков соответствующих программных средств состоит в уменьшении необходимого участия человека в процессе контроля за качеством обработки информации.

Метаданные определяют структуру и смысловое содержание документа, а также правила работы с ним и в соответствии с этим иногда подразделяются по своему функциональному назначению на структурные, описательные и административные [200].

Структура метаданных иерархична (см., например, [36]): наиболее общий характер имеют метаданные, задающие структуру документа, то есть описывающие метаданные более низкого уровня (атрибуты документа), которые определяют содержание документа; наконец, значения этих атрибутов являются фактически метаданными по отношению к исходному документу (см. рис. 1.2).

Исследование информационных потребностей коллективных пользователей — научных учреждений СО РАН

Перейдем к более конкретному анализу потребностей научного сообщества в информации, распространяемой с использованием электронных технологий. Поскольку "потребности социальных субъектов (личностей, социальных групп)... зависят от уровня развития данного общества, а также от специфических социальных условий их деятельности" [229], постольку развитие сети Интернет, а также резкий рост производительности персональных компьютеров и веб-серверов обусловили качественный рост информационных потребностей субъектов научной деятельности.

Изучение информационных потребностей ученых осложняется тем, что эти потребности зависят от множества, разных факторов и носят в значительной мере персонифицированный характер [3, с. 226]. При этом одним из более или менее объективных методов определения информационных потребностей является построение картины фактического использования учеными разных видов источников информации, а также собственная оценка учеными относительной важности этих источников.

В качестве объекта исследования рассмотрим "внутренние" информационные потребности Сибирского отделения РАН (под "внутренними" мы подразумеваем потребности ученых СО РАН в научной информации из источников самого СО РАН). Репрезентативность по добной выборки доказывается следующими фактами.

Сибирское отделение РАН — это расположенные на территории трех федеральных округов почти 90 научно-исследовательских и кон-структорско-технологических учреждений, в которых работает более 20 тыс. человек, в том числе (по состоянию на 1 января 2009 г.) 8718 научных сотрудников, РІЗ НИХ 130 членов РАН, 1853 доктора и 4725 кандидатов наук [63].

Для удовлетворения информационных потребностей Сибирского отделения создана Сеть передачи данных СО РАН [171], в которой зарегистрировано около 150 организаций-абонентов. Только в Новосибирске Сеть обслуживает более 40 тыс. пользователей и насчитывает более 12 тыс. подключенных компьютеров. Кроме того, в региональных научных центрах Отделения находится еще около 30000 пользователей. Суммарный объем информации, получаемой и отправляемой по каналам Сети, составляет более 700 Гбайт в сутки, при этом 58 % общего объема составляет информация, получаемая абонентами из Сети, а 42 % — передаваемая ими во внешний мир.

Высокий уровень информатизации СО РАН (и, следовательно, развитые информационные потребности работающих в нем ученых) подтверждает рейтинг Webometrics Кибернетической лаборатории Национального исследовательского совета Испании. В этот рейтинг входят 500 ведущих сайтов университетов и научно-исследовательских центров всего мира, при его подсчете основное значение имеет число размещенных на сайте научных работ и количество ссылок на них. По состоянию на июль 2010 г. сайт Сибирского отделения РАН занимал 1-е место среди российских сайтов (19-е — в Европе, 54-е — в мире) [278].

К сожалению, построение картины фактического использования учеными СО РАН различных источников "внутренней" информации пока не осуществлено, поскольку система мониторинга и сбора статистики Сети передачи данных СО РАН [207] создана недавно и еще не накопила достаточного количества данных для проведения соответствующего анализа.

С другой стороны, имеются данные, позволяющие исследовать оценку научным сообществом СО РАН сравнительной важности тех или иных форм удовлетворения информационных потребностей коллективных пользователей. В качестве таких данных мы рассматриваем итоги четырех конкурсов интеграционных проектов СО РАН, проводимых раз в три года. Проекты-победители определялись Постановлениями Президиума СО РАН [146-152]. По итогам конкурса 2000 года победителями было признано 88 проектов, 2003 года — 180 проектов, 2006 года —- 247 проектов, 2009 года — 267 проектов. В каждом проекте принимали участие несколько институтов СО РАН (а иногда и других научных организаций), притом институты — участники проекта — представляли, как правило, разные направления наук. Описанная процедура проведения конкурсов позволяет сделать вывод, что проекты, так или иначе связанные с информатикой, адекватно отражают информационные потребности коллективных пользователей — научных учреждений СО РАН.

В приложении 1 приведены списки тех проектов-победителей, которые предусматривали получение новых результатов в области теоретической информатики или/и использование методов теоретической информатики для создания программных систем информационного обеспечения научной деятельности на основе новых интернет-технологий. Подавляющее большинство этих проектов имело в качестве организаций-исполнителей один или несколько академических институтов, занимающихся исследованиями в области информатики: Институт математики СО РАН (ИМ), Институт вычислительных технологий СО РАН (ИВТ), Институт систем информатики СО РАН (ИСИ), Институт вычислительной математики и математической геофизики СО РАН (ИВМиМГ), Институт вычислительного моделирования СО РАН (ИВМ), Институт динамики систем и теории управления СО РАН (ИДСТУ), Институт математики и механики УрО РАН (ИММ), Институт автоматики и процессов управления ДВО РАН (ИАПУ), а также научно-исследовательские организации или вузы аналогичного профиля: Научно-исследовательский вычислительный центр Московского государственного университета (НИВЦ МГУ), Новосибирский государственный университет (НГУ), Сибирский федеральный университет (СФУ), Томский университет систем управления и радиоэлектроники (ТУСУР).

Модель направленных связей между документами

С другой стороны, отсутствие в Х.500 горизонтальных связей влечет необходимость повторения записей, описывающих объекты, связанные с тем или иным объектом.

Возникает проблема установления связей между документами, относящимися к разным составным частям системы (особенно актуальная при связывании имен с информацией об их носителях в случае, когда соответствующие денотаты (персоны) входят одновременно в разные структурные группы), а также, в отдельных случаях, между документами, относящимися к одной и той же составной части системы (например, между документами, описывающими организацию и ее неструктурные подразделения). Тем самым становится актуальной разработка технологии идентификации, спецификации и визуализации горизонтальных отношений между документами. С этой целью нами предложена уже упоминавшаяся модель направленных связей [23, 258], в которой выстраиваемые отношения фактически переносятся на уровень элементов, определяющих структуру документов.

Как было отмечено выше, структурность информационной системы обеспечивается оптимальным выбором модели связей между документами, позволяющей адекватно описывать различные аспекты соответствующих межсущпостных отношений. Однако при этом неизбежно встает проблема возможного рассогласования информации. Во-первых, включение в документы информации о разнородных сущностях может привести к появлению множественной информации об одном и том же объекте. Такая ситуация возможна, например, когда человек работает в разных организациях, участвует в разных проектах, является автором множества публикаций. Это может вызвать серьезные проблемы в случае необходимости появления различных версий информации, возникающих вследствие ее модификации.

Кроме того, для представления сложных документов, когда один документ является частью другого (полностью или частично, в том числе и в виде гиперссылки), необходимо выработать подходы к установлению связей между документами. Такая ситуация возникает, если о сущностях, описываемых документами, может быть построено истинное высказывание (представляющее интерес с точки зрения содержания системы) типа: " Сущность Л есть (или была) нечто (по отношению к) сущности -б1" или " Сущность А имеет (или имела) в некотором качестве сущность Б" . Например: "Евклид — автор «Начал»" или "Институт математики СО РАН имел директором С. Л. Соболева" . Нетрудно видеть, что типы таких связей могут быть различными, и это обстоятельство нужно учитывать в процессе разработки модели отношений между документами.

Решение данной проблемы заключается в том, чтобы хранить информацию о каждом факте, относящемся к той или иной сущности или к некоторому свойству сущности, в единственном документе, устанавливая в нужных случаях отношения между документами типа "многие-ко-мпогим" .

Указанный подход является традиционным при проектировании реляционных баз данных (см., например, [4, 121, 184]), однако основной прием его реализации заключается в рассмотрении многоместных отношений с их последующей декомпозицией в процессе нормализации. Мы же строим информационную модель с использованием только бинарных отношений, приписывая им дополнительные атрибуты, не укладывающиеся в общую схему. Таким образом, декомпозиция проводится на более высоком уровне абстрагируемости от структуры данных, что делает нашу модель более универсальной.

В основу предложенной модели отношений между документами в информационной системе легла модель RDF [26G], которая описывает ресурсы и отношения между ними. Описание ресурса в RDF — это совокупность утверждений о свойствах ресурса. Каждое утверждение представляет собой тройку: ресурс, именованное свойство и его значение. Отношения между ресурсами представляются именованными свойствами.

Основное отличие представленной модели от модели RDF состоит в том, что выстраиваемые нами отношения переносятся на уровень элементов, определяющих структуру документов: связи между документами устанавливаются путем задания на множестве документов бинарных отношений.

Автоматизация процесса получения метаданных документов с использованием удаленных библиографических описаний

Как было отмечено в 1.2, первоначальный этап научно-информационного процесса с участием электронных документов включает в себя их сбор и каталогизацию, сводящуюся к извлечению из документов их метаданных.

Подчеркнем, что каждую публикацию в составе электронного журнала, сборника и т. п. целесообразно представлять как отдельный документ. Это существенно облегчает процесс поиска пользователем нужной информации, позволяя вести атрибутивный поиск отдельных статей по авторам, названию, классификационным признакам, ключевым словам (понимаемым в этой главе в узкобиблиографическом смысле, в отличие от "информационного" употребления этого термина в опре делении тезауруса из п. 1.1.3) и т. п. Разумеется, аналогичный подход весьма желателен и при работе с полиграфическими изданиями, однако в этом случае данное требование трудноосуществимо из-за огромных трудозатрат: как отмечено в [124], один человек за рабочий день способен описать не более 50-70 документов на родном языке и не более 20-30 — на иностранном. При обработке же электронных документов, в том числе интернет-документов, возможна частичная автоматизация процесса каталогизации отдельных публикаций.

Поскольку количество организаций, работающих в той или иной конкретной области науки, а также журналов, публикующих статьи соответствующей тематики, как правило, сравнительно невелико, постольку задача первичного поиска и каталогизации научных ресурсов (прежде всего, сайтов научно-исследовательских институтов и электронных версий журналов) не представляет большой сложности для специалиста, активно работающего в данной области науки. Однако, как было неоднократно отмечено выше, полноценное удовлетворение информационных потребностей пользователя возможно лишь при каталогизации отдельных документов, в частности статей. К сожалению, далеко не все журналы размещают на своих сайтах полные тексты статей; многие ограничиваются лишь аннотациями, тем не менее практика размещения в сети Интернет полнотекстовых версий статей получает все более широкое распространение. В большинстве случаев такая публикация представляет собой HTML-страницу с аннотацией документа, на которой имеется ссылка на полный текст, например в формате pdf или ps.

Трудоемкость процесса извлечения метаданных из документов приводит к необходимости его частичной автоматизации. Основные сложности при решении этой задачи состоят в разработке алгоритма, позволяющего в автоматизированном режиме извлекать из слабоструктурированного документа основные элементы его библиографического описания.

Так как однородные документы, размещенные на одной сайте. имеют однородную структуру, то наиболее целесообразно использовать алгоритмы, учитывающие информацию о гипертекстовой разметке обрабатываемых документов (см., например [245, 269]), при этом надо иметь в виду, что метаданные в мета-тегах документа могут отсутствовать, поэтому следует ориентироваться только на HTML-разметку документа.

Один из возможных алгоритмов решения задачи частичной автоматизации процесса извлечения метаданных разработан и изложен нами в работах [12, 13, 46]. Его преимущество перед подходами, применяемыми в коммерческих пакетах, предназначенных для решения аналогичной задачи, состоит, прежде всего, в возможности получения метаданных обрабатываемого документа из удаленных библиографических баз данных.

Алгоритм, основанный на типичном для интеллектуальных информационных систем человеко-машинном взаимодействии, сводится к выполнению последовательных операций: 1) создание шаблона для обрабатываемого сайта: 2) создание списка адресов, где расположены документы; 3) обработка документов, включая возможное извлечение метаданных из удаленных библиографических источников (подробнее см. 4.2).

Похожие диссертации на Программные системы информационного обеспечения научной деятельности : модели, структуры и алгоритмы