Автоматическое связывание записей библиографических баз данных на основе унифицированных поисковых признаков Князева Анна Анатольевна

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Князева Анна Анатольевна. Автоматическое связывание записей библиографических баз данных на основе унифицированных поисковых признаков: диссертация ... кандидата технических наук: 05.25.05 / Князева Анна Анатольевна;[Место защиты: Институт вычислительных технологий СО РАН].- Новосибирск, 2013.- 147 с.

Содержание к диссертации

Введение

Глава 1 Задача автоматического связывания записей библиографических баз данных 11

1.1 Авторитетный контроль библиотечного каталога 12

1.2 Автоматизация библиотек и авторитетный контроль 17

1.3 Связывание записей 21

1.3.1 Подготовка данных 23

1.3.2 Составление пар 24

1.3.3 Сравнение отдельных полей в парах записей 25

1.3.4 Принятие решения для каждой из пар 26

1.3.5 Обучение решающей функции 28

1.3.6 Оценка качества связывания 29

1.4 Обзор систем связывания записей 30

Глава 2 Модель связывания записей и технология автоматического авторитетного контроля 36

2.1 Аналитическая модель связывания записей 36

2.2 Концептуальная модель связывания записей и процедурные модели функциональных блоков 40

2.2.1 Блок «Подготовка» 42

2.2.2 Блок «Составление пар» 43

2.2.3 Блок «Сравнение отдельных полей в паре записей» 45

2.2.4 Блок «Принятие решения» 45

2.3 Технология автоматического авторитетного контроля 47

2.3.1 Подготовка данных 50

2.3.2 Составление пар 51

2.3.3 Сравнение отдельных полей в паре записей 51

2.3.4 Принятие решения 55

2.3.5 Обучение системы 55

2.3.6 Оценка качества связывания 56

Глава 3 Экспериментальное исследование технологии автоматического авторитетного контроля 58

3.1 Описание программного комплекса «ААК-персоны» 59

3.2 Требования к базам данных 60

3.3 Консольный клиент aak 61

3.4 Модуль статистического анализа stat 62

3.4.1 Принятие решения 63

3.4.2 Обучение решающей функции 63

3.4.3 Оценка качества связывания 64

3.5 Описание экспериментов 64

3.5.1 Первая группа экспериментов 65

3.5.2 Вторая группа экспериментов 69

3.5.3 Третья группа экспериментов 73

3.6 Результаты экспериментального исследования 76

Заключение 81

Список сокращенийиусловных обозначений 83

Список литературы

Сравнение отдельных полей в парах записей
Оценка качества связывания
Концептуальная модель связывания записей и процедурные модели функциональных блоков
Модуль статистического анализа stat

Введение к работе

Актуальность проблемы. Авторитетный контроль электронного каталога является важной задачей в работе современных библиотечно-информационных систем. Использование авторитетных/нормативных документов¹ позволяет существенно упростить работу каталогизаторов и улучшить качество информационного поиска. Суть задачи авторитетного контроля заключается в том, чтобы идентифицировать объект реального мира путем установления связи между авторитетным и библиографическим документами. При этом первый документ однозначно указывает именно на этот объект (персону, организацию и т.д.), а во втором присутствует его упоминание. В настоящий момент установление таких связей производится вручную. Как следствие, при объединении ресурсов нескольких библиотек в условиях отсутствия общего набора авторитетных документов возникают задачи выявления дубликатов документов и восстановления утерянных или отсутствующих связей между авторитетными и библиографическими документами. Решению этих задач в автоматическом режиме (без участия человека) и посвящена данная работа.

За рубежом задача выявления и слияния нескольких авторитетных документов для одного автора решается в рамках проекта VIAF² Международной федерации библиотечных ассоциаций и учреждений (ИФЛА). Целью проекта является обеспечение возможности автоматического сопоставления и связывания авторитетных записей из различных национальных источников. Подход, применяемый в проекте VIAF, основан на экспертной оценке значимости признаков, участвующих в сопоставлении. На практике такая возможность не всегда доступна, поскольку зачастую невозможно выработать экспертные веса значимости признаков.

Задача автоматического связывания библиографических и авторитетных документов не решена на данный момент. Очевидно, что задача автоматического авторитетного контроля по своей сути близка к задаче связывания документов (record linkage), которой посвящено множество работ. Актуальность данной проблематики подчеркивается в обзорах авто-

¹ Далее в рамках данной работы используется термин авторитетный документ ²The Virtual International Authority File (англ.) - Виртуальный авторитетный файл

ров William Е. Winkler, Mikhail Y. Bilenko, Jeremy A. Hylton, Mauricio A. Hernandez и Salvatore J. Stolfo, Peter Christen и Tim Churches, Pawel Jurczyk и др. В литературе выделяется несколько задач, относящихся к связыванию документов: 1) нормализация - подготовка данных к процедуре связывания, их очистка и приведение к заданному виду; 2) составление пар документов, которые необходимо исследовать на соответствие (позволяет сократить объем работы по сравнению и временные затраты на нее); 3) сравнение отдельных полей в паре документов; 4) принятие решения о соответствии документов. Последние две задачи не являются тождественными. Дело в том, что соответствие на уровне документов не означает обязательного совпадения всех значений на уровне полей и наоборот. Причинами расхождений могут быть ошибки, неполнота данных, различные формы записи и т.д.

Существуют различные системы связывания документов, такие как MARLIN³, TAILOR⁴, Febrl⁵ и др. Данные системы нацелены на работу по связыванию адресов, информации о пациентах или библиографических ссылок одной строкой. Применить данные системы к решению поставленной задачи не представляется возможным, потому что при общей схожести принципов задачи связывания документов и автоматического авторитетного контроля существует и некоторая специфика, обусловленная самими данными. Так, библиографические документы, как правило, представлены в форматах семейства MARC⁶, которые распространены только в библиотечном сообществе. С одной стороны, это снимает необходимость решения такой непростой задачи как автоматическая разметка в процессе связывания и упрощает решение задачи нормализации документов. С другой стороны, это требует более сложных правил на этапе сравнения отдельных полей, поскольку одна и та же информация в таких форматах может быть записана различными способами, в зависимости от традиций каталогизирования, принятых в конкретной библиотеке. Кроме того, автоматический авторитетный контроль должен учитывать возможность наличия пропус-

³ Multiply Adaptive Record Linkage with INduction (англ.) ⁴Record Linkage Toolbox (TAILOR) (англ.) ⁵Freely Extensible Biomedical Record Linkage (англ.) ⁶Machine-Readable Cataloging (англ.)

ков в данных и использовать косвенную информацию в процессе установления связи. Такое требование появилось благодаря тому, что нередки ситуации, когда информация об авторе в библиографическом документе ограничивается фамилией и инициалами. Также, в отличие от большинства систем связывания документов, автоматический авторитетный контроль должен проводиться в условиях взаимозависимости признаков. Так, например, профессия и место работы автора, как правило, связаны между собой. Применение принципов связывания документов к области библиографических баз данных в MARC-форматах требует учета их специфики.

Цель диссертационной работы. Разработать технологию автоматического авторитетного контроля, позволяющую устанавливать связи между структурированными документами в распределенных библиографических информационных системах, относящимися к одному объекту реального мира.

Задачи. Реализация данной цели предполагает решение следующих задач:

Сформулировать и проанализировать основные требования к процедуре связывания, исходя из особенностей библиографических данных;
Разработать модель идентификации объектов реального мира, упоминаемых в структурированных документах;
Разработать технологию связывания в условиях взаимозависимости признаков и неполноты данных, позволяющую учитывать косвенную информацию, содержащуюся в уже установленных связях на примере идентификации персон;
Сформулировать рекомендации по наполнению библиографических баз данных для повышения качества связывания.

На защиту выносятся:

- Математическая модель идентификации объектов реального мира, упоминаемых в структурированных документах, позволяющая использовать информацию об уже установленных связях в массиве данных;

Технология автоматического авторитетного контроля, построенная на основе модели идентификации, позволяющая связывать библиографические документы в условиях неполноты данных и использующая косвенную информацию для связывания;

Ранжированный набор сравнительных признаков и весовые коэф-фиценты, полученные на основе реальных данных с помощью программного комплекса «ААК-персоны».

Научная новизна. На основе общих принципов связывания документов впервые сформулированы требования к системе автоматического авторитетного контроля, позволяющей делать заключение о соответствии библиографических и авторитетных документов без участия эксперта. Предложена модель идентификации объектов в структурированных документах в условиях неполноты данных и взаимозависимости признаков. Данная модель предусматривает возможность использования информации об уже установленных связях. Реализован алгоритм обучения системы на основе набора пар документов с отметками о принадлежности к одному из двух классов: соответствующих или несоответствующих документов. Предложена технология принятия решения о соответствии документов в форматах семейства MARC, а также процедура отбора наиболее значимых признаков.

Методы исследований. В работе применялись методы классификации, непараметрической описательной статистики, нечеткого сопоставления строк и принципы связывания документов.

Практическая значимость. Результаты диссертационной работы могут использоваться для решения задач автоматического связывания структурированных документов. В частности, предлагаемая технология позволяет организовать ААК библиографических данных с учетом особенностей конкретной базы и информации об уже установленных связях. В работе представлены рекомендации по наполнению библиографических баз данных, позволяющие повысить качество связывания документов. Предлагаемый подход является достаточно общим и может быть перенесен на задачу выявления нечетких дубликатов среди структурированных документов произвольной природы.

Представление работы. По теме диссертации были сделаны сообщения и доклады на научно-практических конференциях: DICR (Российская конференция с международным участием «Распределенные информационные и вычислительные ресурсы», г. Новосибирск, 2010, 2012 гг.), Современные проблемы математики, информатики и биоинформатики (Международная конференция «Современные проблемы математики, информатики и биоинформатики», посвященная 100-летию со дня рождения члена-корреспондента АН СССР Алексея Андреевича Ляпунова, г. Новосибирск, 2011), "RCDL" (Всероссийская научная конференция «Электронные библиотеки: перспективные методы и технологии, электронные коллекции», г. Переславль-Залесский, 2012), "МТЕ" (Всероссийская конференция молодых ученых «Материаловедение, технологии и экология в третьем тысячелетии», г.Томск, 2012). Работа выполнялась при финансовой поддержке Министерства образования и науки Российской Федерации (грант №07.514.11.41 ЗО⁷).

Личный вклад автора. Работы по теме диссертации выполнены в Томском филиале Института вычислительных технологий (ИВТ) СО РАН автором совместно с ведущим инженером Института сильноточной электроники (ИСЭ) СО РАН Колобовым О.С.

Все результаты, включенные в диссертацию, получены автором лично или в неделимом соавторстве. Автором были предложены модель и технология ААК, а также проведена статистическая обработка массивов данных, полученных в ходе эксперимента, проведенного совместно с Колобовым О.С.

Публикации. По теме диссертации опубликовано 13 печатных работ (объемом 9,4/8,7 печатных листов), в том числе 3 статьи [1-3] в изданиях, рекомендованных ВАК для представления результатов кандидатских диссертаций (в скобках в числителе указан общий объем публикаций, в знаменателе - объем, принадлежащий лично автору). Основные результа-

'Разработка принципов и программных средств виртуальной интеграции распределённых источников данных на основе международных стандартов для создания масштабных информационных инфраструктур (шифр «2012-1.4-07-514-0022-004»).

ты диссертации содержатся в работах [2,3,9-13] список которых приведен в конце автореферата.

Структура и объем диссертации. Диссертация состоит из введения, 3-х глав, заключения и 6-ти приложений. Объем диссертации составляет 119 страниц, включая основное содержание, список литературы и приложения. Список литературы содержит 91 наименование.

Сравнение отдельных полей в парах записей

История развития авторитетного контроля начала свое развитие примерно с конца XIX в. Классик американской каталогизации Ч. Кеттер выдвигал идею авторитетного контроля каталога с помощью «авторских списков каталогизатора в алфавитном порядке». Во времена Кеттера при традиционной организации каталогов эта идея не получила должного развития, так как затраты (как временные, так материальные) на создание и ведение таких списков не оправдывались [60].

С начала 70-х гг. в связи с внедрением компьютерных средств в библиотечную практику, авторитетный контроль начал опираться на компьютерные технологии. Развитие машиночитаемых авторитетных файлов началось с первой публикации формата "Authorities, a MARC Format"в 1981 г. (предварительное издание формата было выпущено в 1976 г.). Первоначальной идеей авторитетного контроля было исключительно удобство каталогизации. В дальнейшем появились различные определения назначения и функций авторитетного контроля. Так была сформулирована идея о том, что авторитетный контроль должен выполнять функцию унификации написания вариантов имен, заглавий и предметов [60]. Такая унификация позволяет существенно повысить качество информационного поиска. Использование авторитетных записей имен авторов позволяет учитывать смену фамилии (например, при замужестве), разночтения при переводе зарубежных источников (например, «Джерард Солтон» и «Герард Сэлтон») и любые другие несоответствия в именах.

Развитие машиночитаемых авторитетных файлов позволило перенести авторитетный контроль на качественно новый уровень развития. Появилась возможность использования одного авторитетного файла несколькими библиотеками. Это важный момент, поскольку создание авторитетной записи – достаточно сложный и дорогостоящий процесс, требующий участия квалифицированных каталогизаторов [43]. Таким образом, появилась принципиальная возможность осуществлять авторитетный контроль на региональном, национальном и международном уровне.

Работы по организации авторитетных данных на международном уровне начали проводиться после конференции в Париже 1961 г., которая положила начало унификации библиографического описания для обмена данными между разными странами. В 1977 г. ЮНЕСКО поручила национальным библиотекам ведение авторитетных/нормативных файлов имен авторов. Затем была создана рабочая группа по Международной авторитетной системе. Основным результатом работы этой группы было признание необходимости авторитетного контроля для эффективного международного универсального библиографического контроля. В 1979 г. по инициативе двух секций IFLA1 (каталогизации и информационной технологии) была создана рабочая группа, которой предстояло определить составляющие нормативной записи и подготовить коммуникативный формат [60].

1International Federation of Library Associations (англ.) – Международная Федерация библиотечных ассоциаций и учреждений В результате данной работы в 1984 г. под эгидой IFLA было опубликовано руководство по составлению нормативных и ссылочных записей2. А в 1992 г. было подготовлено и утверждено руководство по предметным нормативным и отсылочным записям3.

Развитие технологий и подходов к организации информационного поиска, а также переход к машиночитаемым библиографическим записям, привели к пересмотру российских правил каталогизации. Принципы каталогизации освещаются в работах Каспаровой Н.Н., Загорской Е.И. [70,71], Бахтуриной Т.А. [10–13], Дудник И.С. [28], Калининой Г.П. [30], Кулыгиной Н.Ю. [49], Масхулия Т.Л. [55,56], Экстрем М.В. [89] и др.

В данной работе используются библиографические записи в формате RUSMARC и авторитетные записи в формате RUSMARC/Authorities [73]. Выбор пал именно на формат RUSMARC благодаря тому, что он является коммуникативным форматом, предназначенным для обмена библиографической информацией. Кроме того, он достаточно широко распространен в российском библиотечном сообществе.

В настоящее время большинство крупных библиотечных каталогов (от 500 тысяч записей) формируется с применением технологии авторитетного контроля записей. Однако, несмотря на достаточно широкое использование авторитетного контроля и многолетнюю историю его развития, в библиотечном сообществе существуют расхождения в трактовании связанных с ним терминов.

Приведем определения терминов, используемые в настоящей работе. С подробным терминологическим анализом приводимых понятий можно ознакомиться в работе А.В. Муктепавел [60].

Авторитетный контроль представляет собой процесс поддержания единообразия форм авторитетных заголовков, определяющих одно и тоже лицо, организацию, предмет и так далее в библиографическом файле, контроль за адекватностью присвоения предметных рубрик и индексов библиотечно-библиографических классификаций документам, а также контроль за последова-2Guidelines for subject authority and reference entries - GARE (англ.) 3Guidelines for subject authority and reference entries - GSARE (англ.)

Оценка качества связывания

Сравнение входящей записи с каждой из авторитетных записей может оказаться достаточно трудоемким процессом, особенно если осуществлять его «на лету». Поэтому необходим механизм сокращения количества авторитетных записей, с которыми будет осуществляться сравнение. Такой механизм можно реализовать в виде отдельного функционального блока, отвечающего за составление пар записей (рисунок 2.4).

Составной ключ, используемый для сокращения перебора, вычисляется на основе входящей записи . Для его вычисления используются фамилия и (Начало)

Процедурная модель блока «Составление пар» инициалы автора. Таким образом, на данном этапе из базы авторитетных записей извлекаются все записи а, с такой же комбинацией фамилии и инициалов, что и во входящей записи.

Для того, чтобы увеличить объем информации, задействованной в сравнении записей, было принято решение использовать механизм расширения авторитетной записи. Расширение производится за счет включения информации из библиографических записей, которые уже связаны с данной авторитетной записью (рисунок 2.5).

Расширенная авторитетная запись Очевидно, увеличение объема информации происходит за счет выполнения дополнительных запросов к базе библиографических записей. Ключом для этих запросов является код авторитетной записи, для которой строится расширенная авторитетная запись. 2.2.3 Блок «Сравнение отдельных полей в паре записей»

Цель блока «Сравнение отдельных полей» (рисунок 2.6) заключается в оценке того, насколько записи совпадают по различным параметрам. Результатом работы блока является вектор, составленный из результатов применения правил сравнения.

Процедурная модель блока «Сравнение отдельных полей в паре записей» В рамках настоящей работы используется комбинация точного сравнения и сравнения с усечением, определяемого с помощью стеммера Портера для русского языка [131]. Сравнение полей производится для каждой из пар записей, полученных в результате работы блока составления пар.

Соответствие на уровне записей необязательно означает однозначное соответствие на уровне полей. Для принятия решения о соответствии в рамках данной работы используется индукционная модель. Классификация пары записей к классу соответствующих, либо к классу несоответствующих пар производится с помощью расстояния Махалонобиса. Расстояние вычисляется до центроидов каждого из двух классов, определенных с помощью обучающей выборки.

Само решение о выборе записи , с которой следует связать входную запись , можно разделить на две части: 1. Частное решение о соответствии, которое принимается индивидуально для каждой из составленных пар записей;

Итак, когда для всех пар {/3,а), приняты частные решения о соответствии, требуется определить, как именно следует поступить с записью - внести в нее отметку о соответствующей а или оставить все без изменений. Пусть ID - индикаторная функция, определенная следующим образом

В приведенном выражении D_ означает, что для рассматриваемой /3 не было найдено ни одной а, соответствующей ей. В этом случае /3 остается в состоянии (3 и может снова поступить на вход процедуры связывания позднее.

Решение D+ означает, что /3 была поставлена в соответствие а. При этом в [3 вносится отметка об установленной связи и она переходит в состояние [3 . Последний вариант - решение Do - отвечает ситуации, когда для (3 было найдено более одной а, и для разрешения возникшей коллизии необходимо участие эксперта. В этом случае отметок о связи в (3 не делается, и она переходит в состояние (3 для дальнейшего анализа. Технология автоматического авторитетного контроля

Технология автоматического авторитетного контроля основана на моделях связывания записей и может применяться в различных системах связывания. Рассмотрим данную технологию в применении к автоматизированному электронному каталогу. При помещении в него новой библиографической записи необходимо производить процедуру связывания, выбирая соответствующие авторитетные записи.

В рассматриваемой системе используются записи двух типов: библиографические записи и авторитетные записи имен авторов. Все они описываются с помощью Российского коммуникативного формата RUSMARC [73]. Для иллюстрации сути технологии автоматического авторитетного контроля будем использовать рабочий пример. В качестве выступает библиографическая запись, фрагмент которой приведен в таблице 2.1. Полная запись приводится в Приложении А.

Концептуальная модель связывания записей и процедурные модели функциональных блоков

Используется для сравнения информации о соавторах, указанных наряду с рассматриваемым автором публикации.

Функция TextCompare реализует сравнение текстовых полей в случае, когда допускается нечеткое соответствие. Такой подход позволяет избежать неверных заключений при сравнении, например, значений «хирург» и «хирургия», поскольку не для всех полей записи предусмотрены фиксированные словари значений. Принцип работы функции заключается в следующем: первый аргумент (строка свободного текста) разбивается на слова, в качестве разделителей используются знаки препинания и пробелы, затем полученные токены стеммиру-ются с помощью алгоритма snowball Мартина Портера для русского языка [126] и объединяются в поисковый запрос для второго аргумента. Если все усеченные термы находятся, то функция возвращает результат, говорящий о совпадении. Если сравниваемые поля одинаковы по размеру, неважно, какое из них использовать для построения запроса. В случае, если одно из полей имеет большой объем (например, содержит биографию автора), запрос составляется из меньшего по объему поля.

Функция DateCompare используется для сравнения дат, указанных в записях. Сравнение производится с точностью до года. При этом предполагается, что даты записаны в формате ГГГГММДД . Округление дат до года позволяет избежать влияния неточностей при каталогизации и снизить количество неверных заключений о несоответствии дат [96]. Выбор определенной функции сравнения обусловлен особенностями данных (таблица 2.4). Формат RUSMARC предусматривает возможность повторения полей, когда несколько значений признака записываются в двух и более полях с одинаковым обозначением. Для сравнения записей по этому признаку необходимо агрегировать результаты сравнения по каждому из полей в одно значение, указывающее на степень соответствия по рассматриваемому признаку.

В данной работе использовались следующие варианты агрегирования: – индикатор – указывает на наличие хотя бы одного совпадения; – количество совпадений; – доля соответствия – отношение количества совпадений к количеству полей в связываемой записи ; – количество найденных записей – выбирается максимальное среди найденных по всем указанным полям. Для того, чтобы с помощью одной переменной учитывать и совпадение, и несовпадение, и отсутствие информации, было решено использовать следующий принцип кодирования: – Несовпадение значений полей - 1; – Отсутствие информации в одной или обеих записях - 2; – Совпадение полное совпадение значений - 3; Доля соответствия, количество совпадений и количество найденных записей учитываются аналогично. Прибавляем к значению показателя 2 и отмечаем

Учет количества совпадений адренорецепторы , клеточные мембраны мембранный потенциал реполяризация адренорецепторы клеточные мембраны реполяризация 5

Следует отметить, что в случае, когда поле не повторяется, индикатор, количество и доля совпадений будут тождественны. В этом случае используется только индикатор, остальные показатели не вычисляются.

Для рассматриваемого примера получим следующие результаты Dist2(R} цм) = 443,88 и Dist2(R} fiu) = 445,53. Поскольку расстояние до класса соответствующих пар меньше, пара будет отнесена к этому классу. Центроиды классов \±м и \i\j для используемого набора признаков представлены в таблицах 3.5 и 3.7.

Вычисляя оценки соответствия по каждому из признаков для всех пар из обучающей выборки, получим таблицу исходных данных эксперимента. Строки таблицы соответствуют парам записей, в столбцах указываются вычисленные оценки соответствия полей для этих пар (в том числе и значение результирующей переменной out). На основе данной таблицы сначала проводится предварительный анализ, а затем вычисляются параметры системы: векторы им, Ни и матрица, обратная ковариационной W l. В дальнейшем эти параметры используются при работе блока принятия решения (п. 2.3.4).

Предварительный анализ данных

После вычисления значений признаков для всех пар обучающей выборки следует, прежде всего, отсеять неинформативные признаки. Для этого предлагается использовать ранговый коэффициент корреляции т Кендалла [26]. Данный критерий не предполагает знания распределения признаков. Из дальнейшей работы исключались признаки, для которых принималась гипотеза об отсутствии различий при уровне значимости 0,01.

Еще одно важное требование, предъявляемое к признакам - отсутствие полностью совпадающих значений по всем парам для двух или нескольких при 56 знаков. Это делается для того, чтобы избежать вырожденности ковариационной матрицы W. В процессе принятия решения используется обратная ей матрица W-1. Вычисление параметров

Для того, чтобы задать центроиды двух классов (соответствующих и несоответствующих пар записей), используются векторы средних значений, которые вычисляются по формуле (2.9). Матрица W-1 вычисляется как обратная к ковариационной матрице. Ковариационная матрица, в свою очередь, рассчитывается по формуле (2.10). Матрицы W-1, рассчитанные для трех наборов признаков, приведены в Приложении Е.

Качество связывания оценивается по результатам тестов. При этом выделяются ошибки двух типов: неверное отрицание связи (ошибка I рода) и неверно установленная связь (ошибка II рода) [19]. Количество ошибок зависит от того, как именно разделились пары записей на обучающую и тестовую выборки. Поэтому рекомендуется проводить серию экспериментов и вычислять средние проценты ошибок.

Выводы

В данной главе приводятся аналитическая и концептуальная модели связывания записей библиографических баз данных, а также процедурные модели отдельных блоков. Аналитическая модель базируется на принципах машинного обучения. Более конкретно, речь идет о решении задачи дискриминации. При этом выделяются два класса. Один класс состоит из пар записей, которые соответствуют друг другу, то есть описывают один и тот же объект реального мира. Второй класс включает пары несоответствующих друг другу записей. Дискриминация новой пары производится путем сравнения расстояния от нее до центроидов каждого класса и выбора наиболее близкого класса. Описанная модель предполагает наличие обучающей выборки, которая состоит из пар записей с известным статусом соответствия.

В целом, подход, описанный в работе, соответствует распространенным моделям систем связывания записей [94]. Исключением является двухступенчатый принцип принятия решения о соответствии записей, а также блок обучения системы. Этот блок позволяет настраиваться на используемую базу данных до начала работы и проводить корректировку параметров системы с течением времени. Благодаря настройке можно учесть особенности конкретного электронного каталога и принципов каталогизации, принятых в конкретной библиотеке.

Технология автоматического авторитетного контроля, основанная на модели связывания записей, предназначена для решения задачи связывания библиографических и авторитетных записей, относящихся к одному и тому же автору. Для большей наглядности описание технологии производится с использованием рабочего примера, с помощью которого иллюстрируются все этапы связывания записей.

Модуль статистического анализа stat

Для оценки результатов экспериментального исследования необходимо рассматривать сразу два параметра: процент ошибок и охват, то есть процент записей, которые соответствуют входным требованиям эксперимента и могут быть связаны. Таким образом, более качественный с точки зрения точности связывания метод, используемый в первой группе экспериментов, оказывается неприемлемым на практике, так как он пригоден только для пятой части библиографических записей. Для того, чтобы сравнить группы экспериментов по одному показателю представим, что все 294 пары записей, которые были исключены из выборки в первой группе экспериментов попали в тестовую выборку. Для этих пар недостаточно информации в контексте минимального набора признаков. Следовательно, связывать эти пары нельзя, поэтому мы получим 294 ошибки. При этом процент ошибок в тестовой выборке достигнет 37,4%. Процент ошибок связывания записей при охвате базы библиографических записей 77% представлен в последней колонке таблицы 3.8.

Таким образом, лучшие результаты дает расширенный набор признаков, который использовался в третьем группе экспериментов. При значительном росте охвата базы библиографических записей он позволяет снизить количество ошибок идентификации до 1,137%.

В рамках данной работы использовалась «сбалансированная» тестовая выборка, с примерно равным количеством соответствующих и несоответствующих пар. Благодаря этому результаты экспериментов с точки зрения показателей полноты и точности, приведенные в таблице 3.9, повторяют результаты в терминах ошибок I и II рода и подтверждают уже сделанные выводы.

Приведенные показатели указывают на очень высокую степень достоверности связывания записей в рассмотренной тестовой выборке. Однако, во многом это обусловлено хорошим качеством записей. В выборку включались те записи /3, в которых на самом деле присутствовало указание на соответствующие записи а. Это было необходимо для проведения проверки. Как показал анализ заполненности записей в используемых базах данных, такие записи, как правило, содержат значительно больше информации об авторах, чем записи без указаний на соответствующие авторитетные записи.

Для того, чтобы оценить качество идентификации для менее заполненных записей была проведена еще одна группа экспериментов. Из тестовой выборки искусственно изымалась информация об основных сравнительных признаках, и оставлялась только информация о соавторах и предметных рубриках. Полученную «искаженную» тестовую выборку далее будем называть модифицированной. Для тех записей, которые содержали информацию и о соавторах и о рубриках, проводилась процедура идентификации авторов. Параметры системы (матрица W l, fiu и цм) при этом оценивались по прежней обучающей выборке, из которой не удалялась информация.

Информация, используемая в первой группе экспериментов, отсутствует в модифицированной тестовой выборке. Поэтому были проведены эксперименты только со стандартным и расширенным наборами признаков (таблица 3.10). Таблица 3.10: Результаты экспериментов: модифицированная тестовая выборка

Следует отметить, что процент установления неверных связей между записями (ошибка II рода) по-прежнему достаточно низок, увеличивается лишь количество упущенных связей между записями.

Итак, в самой «худшей» ситуации, когда система располагает лишь косвенной информацией об авторе, процент ошибок идентификации составит приблизительно 17%. Использование расширенного набора в этом случае дает около 22% ошибок идентификации. Такое ухудшение результатов идентификации обусловлено тем, что расширенный набор отличается от стандартного дополнительным учетом основной информации об авторе, которую в данном случае искусственно исключили из рассмотрения.

На практике при обработке записей, не содержащих основной информации об авторе, следует использовать стандартный набор признаков. В случае, если приведенный максимальный уровень ошибок недопустим, можно ужесточить входные требования для записей. Однако, следует иметь в виду, что это приведет к снижению охвата базы данных.

Выводы

В данной главе были рассмотрены программные средства, позволяющие выполнить исследование проблемы автоматического авторитетного контроля имен авторов. В частности, описан программный комплекс «ААК-персоны», предназначенный для связывания библиографических записей в формате RUSMARC с авторитетными записями в формате RUSMARC/Authorities. Описана архитектура программного комплекса, основные этапы его работы и составные элементы: консольный клиент для связи с базами данных aak и модуль статистического анализа stat.

Приведены результаты экспериментального исследования возможностей разработанного программного комплекса. Наилучший результат для тестовой выборки по охвату и качеству идентификации показал расширенный набор признаков. При использовании этого набора суммарный процент ошибочно установленных и ошибочно отвергнутых связей составил 1,14%. В то же время охват библиографических записей составил 77% (процент рассчитан для библиографической базы, используемой в исследовании). Также приведены результаты экспериментов на основе «искаженной» тестовой выборки, которая содержит только косвенную информацию (о соавторах и предметных рубриках). Наименьший процент ошибок для такой выборки составил 16,92% и был получен при использовании стандартного набора признаков. Таким образом, если в библиографической записи содержится только косвенная информация об авторе, то для него имеет смысл использовать стандартный набор признаков, в противном случае следует использовать расширенный набор признаков.

Основной вывод по результатам проделанной работы заключается в возможности использования предложенной технологии к решению задачи автоматического авторитетного контроля. При этом необходимо задействовать всю доступную информацию и использовать все значимые признаки, не ограничивая их количества. Такое решение обусловлено большим количеством пропусков в данных, которое встречается на практике. Заключение

В диссертационной работе выполнен анализ перспективных подходов и технологий, применяемых для связывания записей. Поставлена задача автоматизации процесса авторитетного контроля, сформулированы основные требования, которые необходимо учитывать при ее решении. Предложены аналитическая и концептуальная модели связывания библиографических записей, основанные на методах машинного обучения. Также предложена технология автоматического авторитетного контроля электронного каталога. Разработано программное обеспечение, позволяющее оценить качество связывания для конкретных баз библиографических и авторитетных записей, а также обучить систему автоматического авторитетного контроля на основе этих баз данных.

В процессе разработки технологии автоматического авторитетного контроля были определены входные требования к библиографическим и авторитетным записям, которые можно рассматривать как рекомендации по наполнению библиографических и авторитетных баз данных.

Автоматическое связывание записей библиографических баз данных на основе унифицированных поисковых признаков Князева Анна Анатольевна

Сравнение отдельных полей в парах записей

Оценка качества связывания

Концептуальная модель связывания записей и процедурные модели функциональных блоков

Модуль статистического анализа stat

Похожие диссертации на Автоматическое связывание записей библиографических баз данных на основе унифицированных поисковых признаков