Ранговые распределения как инструментальный критерий при формировании документных массивов информационных систем и баз данных Либкинд Александр Наумович

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Либкинд Александр Наумович. Ранговые распределения как инструментальный критерий при формировании документных массивов информационных систем и баз данных : диссертация ... кандидата технических наук : 05.25.05. - Москва, 2004. - 145 с. : ил. РГБ ОД,

Содержание к диссертации

Введение

Глава 1. Методы изучения документальных полей 9

1.1. Меристический и холистический подходы в информатике к изучению документов: сходство и различие 9

1.2. От классификации документов к ранговому распределению 14

1.3. Математические модели ранговых распределений 16

1.4. Интерпретация ранговых распределений: меристический подход 23

1.5. Интерпретация ранговых распределений: холистический подход 27

1.6. Закон Ципфа как теоретическая модель рангового распределения 30

Глава 2. Методы оценки исследуемых документных массивов. Проблема создания отечественного указателя научного цитирования 33

2.1. Подмножество представительных документов. Инструменты выделения представительного подмножества и их оценка: реферативное издание и массив научных документов, поступающих в крупный научный фонд 33

2.2. Оценка авторитетности РЖ ВИНИТИ. Первый способ 35

2.3. Оценка авторитетности РЖ ВИНИТИ. Второй и третий способы 45

2.4. Оценка авторитетности массива научных публикаций,

поступающих в крупный научный фонд 48

2.5. Принципы и реализация создания отечественного указателя научного цитирования 49

2.6. Общие характеристики ДП по энергетическому машиностроению. Документы из ПЛИ - основа для формирования представительного множества 51

Глава 3. Математическая модель замкнутого информационного поля (ЗИП) 67

3.1. Дискретный аналог закона Ципфа - модель ЗИП 67

3.2. Эмпирический материал и его представление 70

3.3. Способы проверки закона Ципфа 75

3.4. Диаграммы разброса у(Л). Объемы ПЛИ и отклонение реальных РР от модели в области малых рангов 77

3.5. Тематическая замкнутость ДП. Замкнутость по цитированию как критерий ЗИП 84

3.6. Интернациональный и региональный характер ДП 94

3.7. Хронологические рамки ЗИП 100

Глава 4. Процесс изменения продуктивности источников для данного фрагмента ДП ... 104

4.1. Построение модели 104

4.2. Сопоставление выводов теории с данными эксперимента 110

4.3. Границы применимости модели. Возможность предсказания изменения для всего списка источников по тематике.

Поток через границу - важная характеристика ДП 121

Заключение 125

Список использованной литературы 128

От классификации документов к ранговому распределению
Оценка авторитетности РЖ ВИНИТИ. Первый способ
Эмпирический материал и его представление
Сопоставление выводов теории с данными эксперимента

Введение к работе

В теоретическом и методологическом плане диссертация посвящена разработке инструментария и формальных критериев для анализа документных массивов и проверки соответствия той или иной классификации документов естественному делению науки, а также изучению процесса изменения продуктивности периодических и продолжающихся изданий. Серьезное внимание в работе уделено также методам оценки авторитетности реферативных изданий и массивов документов, формируемых крупными научными фондами.

Работа выполнена на массивах документов, отраженных тематическими выпусками по энергетическому машиностроению РЖ ВИНИТИ, и на политематических документных массивах БД Российского фонда фундаментальных исследований (РФФИ).

Что касается РЖ ВИНИТИ, то чисто количественному анализу (динамика распределений документов по конкретным тематикам и некоторые другие параметры) были подвергнуты вторичные документы, помещенные в тематических выпусках по энергетическому машиностроению за почти полувековой период 1956 - 2004 г.г. (общее количество — более 400 тыс. документов). Те массивы документов РЖ ВИНИТИ, которые были проанализированы значительно детальней и на которых были проверены предложенные в диссертации гипотезы и модели, охватывают почти всю первую половину указанного периода, то есть 1956 - 1977 г.г.

Массивы научных документов (проекты, представленные на конкурсы РФФИ, научные отчеты по проектам РФФИ, библиографические описания публикаций, подготовленные в рамках выполнения этих проектов), поступающие в РФФИ, были проанализированы за период 1994-2001 гг. (около 300 тыс. документов). Детальный статистический и структурный анализ этих массивов, который был выполнен в работе с привлечением Science Citation Index (SCI), Journal Citation Report (JCR) и Ulrich's Periodical Directory, дает основание утверждать, что степень отражения публикаций российских ученых в SCI - недостаточна и препятствует интеграции отечественной науки в мировую. Более того, результаты этого анализа позволили сделать вывод о возможности создания отечественного указателя научного цитирования (УНЦ) и предложить подходы и принципы, которые позволили разработать первую версию отечественного УНЦ, который базируется на массивах публикаций и других научных работ, поступающих в РФФИ.

Актуальность работы обусловлена проблемами, вызываемыми рядом процессов и явлений: недостаточной степенью доступности для мирового научного сообщества значительной части работ российских ученых, что препятствует интеграции отечественной науки в мировую; усиливающимися тенденциями к росту числа и объемов информационных ресурсов (библиотек, информационных систем, и т.п.); возникновением новых видов информационных ресурсов (электронные библиотеки, массивы документов, формируемые крупными научными фондами); усиливающимся взаимопересечением и дублированием информационных ресурсов; появлением новых и прекращением издания ранее существовавших журналов, других продолжающихся изданий; проявлением

воздействия тематической подвижности (смена тематических акцентов или существенная тематическая переориентация) источников.

Степень разработанности темы исследования. В настоящей работе рассмотрены проблемы, относящиеся к информатике и смежным с ней дисциплинам. В теоретическом и методологическом плане настоящее исследование опирается на подходы и решения, содержащиеся в работах Д. Прайса [323-324], Б. Брукса [214-219], Ю. Гарфилда [255-257], В.В. Налимова [134], Г.М. Доброва [70], Ю.А. трейдера [188-191], в совместных трудах А.И Михайлова, А.И. Черного, Р.С. и Гиляревского [125], в работах М.В. Арапова [8,11], Ю.Н. Столярова [163, 164].

Специалисты в области информатики и библиотечного дела, науковеды, а также ученые, занятые в других областях науки, очень быстро оценили достоинства указателя научного цитирования SCI - информационного ресурса, созданного в США Ю. Гарфилдом [256] с коллегами в начале 60-х годов прошлого века (см., например, работы отечественных исследователей В.М Мотылева [129, 130], В.А. Маркусовой [113], И.В. Маршаковой-Шайкевич [118]) Тем не менее, недостаточность американского УНЦ как инструмента, отражающего результаты исследований отечественных (в то время -советских) ученых и необходимость создания отечественного УНЦ, осознавалась уже в конце 60-х годов (см. совместную работу Р.С. Гиляревского, З.М. Мульченко, А.Т. Терехина и А.И. Черного [51]). Однако предпринятые в 70-х годах попытки создания отечественного УНЦ к успеху не привели, хотя необходимость в создании такого инструмента не менее остро ощущается и в настоящее время [39]. Причем, несмотря на то, что в последнее десятилетие в стране наблюдается бурное развитие телекоммуникационных технологий, растет число электронных библиотек и других видов современных информационных ресурсов (см. работы А.Б. Антопольского [5], В.В. Арутюнова [19, 20]., Ф.С. Воройского [42], Н. Е Каленова [88], В.А. Цветковой [179-181], Я.Л. Шрайберга [186,187]), несмотря на все это, - серьезные попытки создания отечественного УНЦ в течение этого времени не предпринимались. Неудачи в создании отечественного УНЦ, по нашему мнению, связаны, прежде всего, с ориентацией на традиционный подход, который требует очень больших интеллектуальных, технических и финансовых затрат. В диссертации предложен принципиально иной подход, который дал возможность многократно сократить требуемые ресурсы, и позволил создать отечественный УНЦ.

Начало обсуждению проблемы формальных зависимостей, характеризующих
документные массивы (теория «концентрации-рассеяния информации»), положили
работы А. Лотки и С. Брэдфорда, опубликованные в первой половине прошлого века. Эта
проблема остается актуальной и на протяжении последующих десятилетий (см. работы Д.
Прайса , Б. Викери, Ф. Лаймкюлера, Б. Брукса, Ю.А. Шрейдера, М.В. Арапова, В.И.
Горьковой, Л.С. Козачкова,, А.Т. Мицевич, С.А. Иванова). Установлено, что

большинство такого рода зависимостей может быть сведено к виду, известному как закон Ципфа. Однако до сих пор предметом дискуссии остается проблема обоснованности применения закона Ципфа для изучения документных массивов. Дискуссионной остается также проблема интерпретации данных, полученных в результате применения

этого закона. В диссертации удалось определить рамки применимости закона Ципфа для описания документных массивов, а также предложить содержательную интерпретацию -как для случаев выполнения, так и случаев невыполнения этой зависимости.

Что касается еще одной проблемы, которая также важна при формировании документных массивов, - изучения характера процесса изменения продуктивности источников по заданной тематике, - то следует отметить недостаток внимания в литературе к этой проблеме. Более того, например, такой авторитетный исследователь как Брукс, в своих теоретических построениях в явном виде постулирует неизменность продуктивности источников по заданной тематике и тем самым, по сути, отказывает этой проблеме в существовании. Однако это противоречит практическому опыту библиотечных и информационных работников, для которых знание особенностей и характеристик этого процесса имеет важное практическое значение при решении проблем комплектования. В диссертации изучены особенности этого процесса и разработана модель для его описания.

Целью работы является определение путей повышения степени воздействия работ российских ученых на мировой научный процесс и эффективности использования их результатов на основе применения современных информационных технологий и средств, опираясь при этом на изучение и моделирование структуры и процессов, характеризующих те документные массивы, которые соответствуют конкретным тематическим разделам науки и техники.

Задачи, поставленные и решенные в ходе выполнения работы:

Разработка подходов и принципов построения отечественного указателя научного цитирования на основе структурированных массивов научных документов, поступающих в РФФИ.
Выбор математической модели и разработка критериев, позволяющих выявлять те формальные структурные особенности, которые отличают совокупности документов, соответствующие целостным, логически замкнутым тематикам.
Построение математической модели процесса изменения продуктивности периодических и продолжающихся изданий по заданной тематике.
Разработка методов, позволяющих определять степень авторитетности массивов документов, отражаемых реферативными изданиями или формируемых крупными научными фондами.

Основные методы исследования. В работе использованы методы информатики, библиотековедения и наукометрии. В их числе библиометрические методы (включая методы анализа литературного цитирования), методы теории ранговых распределений, методы, использующие результаты теории множеств, теории отношений, теории вероятностей и математической статистики, а также методы, опирающиеся на современные возможности информационных систем, баз данных и программирования.

Научная новизна:

Предложен и применен новый подход для создания указателей научного цитирования;

- Впервые поставлена и решена проблема формальных критериев, позволяющих
выделять целостные, логически замкнутые тематики. Предложенные критерии позволяют
обнаруживать ситуации, когда документная классификационная система (например,
рубрикатор) содержит сомнительные, проблемные разделы. Эта дает возможность,
используя в дальнейшем содержательный анализ классификационной системы или ее
раздела, вносить соответствующие коррективы;

Впервые поставлена и решена проблема оценки авторитетности документных массивов, поступающих в крупный научный фонд. Предложен способ оценки этих массивов, основывающийся на определении доли документов, отражающихся в указателе цитирования SCI, и использующий данные, содержащихся в издании-справочнике JCR;

Предложены способы оценки авторитетности реферативных изданий (РИ). Один из этих способов основан на проверке того, насколько последовательно данное РИ отражает те публикации, которые были «вызваны к жизни» публикациями, ранее отраженными этим же реферативным изданием;

Впервые поставлена и решена проблема исследования характера и особенностей процесса изменения продуктивности периодических и продолжающихся изданий для заданной тематики. Предложенная математическая модель этого процесса позволяет прогнозировать скорость обновления как всего списка источников по тематике, так и отдельных его фрагментов.

Теоретическая значимость. Полученные в ходе диссертационного исследования результаты указывают на связь между теориями, описывающими различные аспекты документных массивов. В частности, значения «полупериода жизни» (теория старения литературы) для заданной тематики оказываются коррелированными со значениями «периода хронологической замкнутости» для этой же тематики (понятие «период хронологической замкнутости» введено автором в рамках исследования, которое можно отнести к теории концентрации-рассеяния). Найденные в диссертации границы применимости закона Ципфа дают возможность по-новому подойти как к самим исследованиям документных массивов в рамках теории концентрации-рассеяния, так и к интерпретации результатов таких исследований. Важным представляется также и то, что в диссертации показано, что принимаемое обычно при построении теоретических моделей неявно (а иногда и явно) предположение о неизменности продуктивности источников по заданной тематике, представляет собой довольно грубое упрощение, далекое от действительности, а сам процесс изменения продуктивности поддается математическому моделированию. Определенное теоретическое значение имеет и предложенное в диссертации обобщение понятия научного цитирования.

Практическая значимость. Разработанные в диссертации средства позволяют: более обоснованно выбирать стратегию комплектования библиотек, баз данных, информационных систем, информационных фондов, других документных массивов, а также оптимизировать их классификационную структуру; судить о достаточности отражения данной тематики во вторичном информационном издании; следить за процессами интеграции и дифференциации в исследуемых научных направлениях. К настоящему времени предложенные в диссертации средства, подходы и полученные

результаты были использованы: при выработке идеологии, методологии и технологии разработки и создания ИС «Указатель РФФИ» (отечественный аналог SCI); при корректировке рубрикации РЖ ВИНИТИ; при составлении и корректировке Классификатора РФФИ; при разработке ОАСНТИ "Станкостроение"; в межотраслевой системе ЕСНТИмаш; в подсистеме "Инфортехнология" международной системы "Информаш".

Личный вклад автора. Автор лично: разработал формальные критерии, позволяющие выделять целостные, высокоинтегрированные тематики; сформулировал основные подходы при разработке модели изменения продуктивности НИИ по заданной тематике; предложил и реализовал методы оценки авторитетности РИ и документных массивов, формируемых крупным научным фондом; разработал основные подходы и принципы создания отечественного УНЦ. Вся статистическая обработка эмпирических массивов осуществлена лично автором, а необходимые для этих целей программные средства разрабатывались либо лично им, либо при его непосредственном участии.

Апробация работы. Результаты работы докладывались: на 6-й международной конференции «Россия на пути к информационному обществу» (Москва, 2002 г.); на научной конференции «Электронные библиотеки и информационное обеспечение научной деятельности» (Москва, 2002 г.); на годичном собрании Американской ассоциации достижений в науке (Бостон, 2002); на 18-й и 19-й конференциях Общества полярных библиотек (Виннипег, 2000 г. и Копенгаген, 2002 г. - соответственно); на 9-й международной конференции по наукометрии и информатике (Пекин, 2003 г.); на 2-м международном семинаре по наукометрии и информатике (Берлин, 2000 г.); на пятой международной конференции по показателям состояния науки и техники (Лейден, 2000 г.); на республиканском семинаре «Информатика и наукометрия» (Киев, 1983 г.); на всероссийской астрономической конференции «Горизонты Вселенной» (Москва, 2004).

Публикации. Основное содержание диссертации изложено в 29 опубликованных научных работах, четыре из которых подготовлены лично (одна из них - в печати), остальные - в соавторстве; в ходе работы над диссертацией разработаны комплексы программ, два из которых зарегистрированы в Государственном фонде алгоритмов и программ СССР (1979), и один - в Роспатенте (2002 г.).

Положения, выносимые на защиту:

1. Отечественный указатель научного цитирования (УНЦ) может быть создан с соблюдением следующих двух принципов: а) УНЦ должен создаваться как «побочный продукт» (by product), т.е. при его подготовке в максимальной степени должны использоваться результаты обработки информации, которые предназначались для других целей; б) оценка и отбор публикаций и их источников, предназначенных для отражения в УНЦ, и определенная часть их обработки должны осуществляться непосредственно научным сообществом России, а не силами штатных сотрудников и платных экспертов. Такой подход дает возможность преодолеть существующий в настоящее время в России дефицит финансовых, технических и других ресурсов,

которые потребовались бы в случае создания УНЦ по классической схеме.

Закон Ципфа как математическая модель выполняется лишь для тех ранговых распределений (РР), которые сформированы на основе документных массивов, соответствующих высокоинтегрированным тематикам. И соответственно, чем ниже степень однородности и интегрированности тематики, тем больше отклоняются от закона Ципфа реальные ранговые распределения, соответствующие такой тематике.
Целостные, высокоинтегрированные тематики характеризуются тематической, хронологической, а иногда и региональной замкнутостью, а также замкнутостью по цитированию.

4. Документный массив, соответствующий высокоинтегрированной тематике, в
некоторых случаях характеризуется иерархией уровней его организации. Эта иерархия
обнаруживается с помощью предложенного в диссертации формального инструментария
и зависит от характера и функционального назначения документов, образующих данный
документный массив.

5. Процесс изменения во времени продуктивности источников по данной тематике
описывается с помощью разработанной в диссертации математической модели, которая
исходит из следующего предположения: вероятность покинуть, равно как и вероятность
возвратиться к данной тематике для источников малопродуктивных (по отношению к
данной тематике) значительно выше, чем у высокопродуктивных источников.

6. Авторитетное реферативное издание (РИ) должно быть максимально

последовательным в отборе публикаций (доля случайных публикаций должна быть сведена к минимуму). Причем чем большая доля публикаций, сославшихся на публикации, отраженные данным РИ, также находит отражение в этом же РИ, тем последовательнее осуществляется отбор в это РИ. Это же справедливо и для случая публикаций, на которые ссылаются публикации, отраженные в данном РИ.

Прежде чем перейти к основному изложению введем два ключевых для настоящей работы понятия:

Документальное поле (ДП) - совокупность абстрактных документов, представленных ограниченным списком признаков, которые сформулированы на языках информатики.

Замкнутое информационное поле (ЗИП) - совокупность документов, относящихся к одной целостной области знания - тематике и отражающей состояние этой тематики на отдельном этапе ее развития.

От классификации документов к ранговому распределению

Два документа х и у относятся к одной клетке классификации (классу Х.{, если они опубликованы в одном периодическом или продолжающемся издании (источнике). При определении набора источников возникают те же трудности, что и при задании ДП. Так, например, некоторые издания внешне могут выглядеть как периодические или продолжающиеся, но реально представляют собой серию небольших работ монографического типа, тогда как издание, которое действительно функционирует как единый научный журнал (со своей тематикой, внутренней полемикой между авторами и т.п.), внешне может реализовываться как серия препринтов, вдобавок выпускаемых разными организациями и под разными заглавиями. Аналогичным образом можно построить классификацию по: (2) а в т о р а м ; (З)языку публикации; (4) региональному признаку (страна или район, в которой возник документ); (5) тематическому признаку (в основу такой классификации может быть положена, например, система типа УДК или «Рубрикатор РЖ ВИНИТИ»); (6) Классификация по возрасту. Два документа относятся к одной клетке X.., если они занимают одно и то же место на шкале возраста. Предполагается, что эта шкала разбита на равные промежутки времени At, и в один класс попадают все документы, опубликованные за интервал с / до t + At.

Пополнять запас классификаций можно не только за счет использования новых оснований, но и за счет построения производных классификаций путем применения теоретико-множественных операций к клеткам уже построенных классификаций (производные классификации не обязательно будут разбиениями; о применении классификаций, представляющих собой покрытия см., например, нашу работу [43]). Продуктивность клетки классификации. Продуктивностью F(Xj) = F. клетки X. будем называть число F. документов, отнесенных к данной клетке. Следующий шаг в изучении структуры ДП связан с классифицированием клеток в зависимости от их продуктивности.

В таблице 1.1. (см. с. 19) приводится пример PP. В этом примере: две строки, составляющие таблицу (1) занимают в таблице 1.1 соответственно графы 3 и 4; нумерация строк (графа 1) совпадает с индексом / при продуктивности в (1); в графе 2 приводится значение r(Fk); в графах 5 и 6 - значение \ и и MF , соответственно. Наблюдение за РР, соответствующим близким к ЗИП фрагментам ДП, показывает, что таблица (1) имеет для этих РР следующие особенности (2): Таблицу (1) можно разделить на две (примерно равные) части, причем в - левой части ("высокопродуктивные" клетки) ранг г последовательно принимает все натуральные значения от 1 до некоторого а, а в правой части . ("малопродуктивные" клетки) все натуральные значения от 1 до Fa, [ (2) последовательно принимает продуктивность F . В правой части - ранг, а в левой - продуктивность изменяются скачками. Только для "высокопродуктивных" клеток, чья продуктивность F Fa, имеет смысл говорить о ранге клетки, как о величине однозначно характеризующей данную клетку, для «малопродуктивных» клеток определенный смысл имеет только понятие "рангового интервала", к которому относится данная клетка. 1.3. Математические модели ранговых распределений Под моделью РР здесь понимается аналитическая зависимость между величинами, входящими в (1) или между этими величинами и функциями от них. Соответствующие зависимости удобно классифицировать с точки зрения того, какая из упомянутых величин считается аргументом, а какая функцией. Все обсуждаемые ниже модели можно рассматривать как непрерывные аналоги зависимостей между дискретными величинами. Эти модели известны в информатике как модели "рассеяния (концентрации - рассеяния) информации". Модель Ципфа (1935 г. - см. [370]): ранг r(Fk) — продуктивность Fk Fk=Cr(Fky (З)1 Си у здесь параметры, причем 0 ,\у-1 tc 1 Заметим, что эти параметры в силу свойства (2) ранговых распределений не независимы. Ограничение, накладываемое (2), можно представить как выполнение г неравенства ггр \у , для всех г, \ r N (хотя возможна и другая интерпретация [6]). Модель (3) часто используется в работах отечественных исследователей: В.И.Горьковой [55-60], Л.С.Козачкова [95-98], Ю.А.Шрейдера [189, 190], М.В.Арапова [6, 7, 10], в совместных работах двух последних авторов [11, 17, 18], а также в работах целого ряда других авторов [37, 79, 142, 247, 270, 277, 310, 335]. Кроме простоты, эта модель привлекательна тем, что позволяет установить прямые аналогии между структурой ДП и структурами объектов другой природы: текстов на естественных языках (формула (3) была предложена Дж. Ципфом для описания распределения слов по частоте их встречаемости в тексте)2, объектов теоретической биологии (Закон Виллиса, обзор см. [102]), демографией (распределение городов по числу жителей [370]) и т.д. Обзор ситуаций, в которых наблюдается сходная зависимость, можно найти в [246]. К недостаткам этой модели относится то, что для малопродуктивных клеток (Fk Fa), как видно из (2), само понятие ранга теряет смысл.

Формулировка Брэдфорда (6) следует из (5). С другой стороны, утверждение, что росту числа клеток в геометрической прогрессии соответствует рост накоплений этими клетками продуктивности в арифметической прогрессии, эквивалентно существованию

Единственное и не принципиальное отличие (5) от записи этой модели Бруксом состоит в том, что (5) не предусматривает для наиболее продуктивного источника той особой роли, которая ему почему-то отводится в авторской записи модели (см. [13]). логарифмической зависимости (5) между рангом и накопленной частотой (об эквивалентности (5) и (б) см. [281]).

Однако в модели А.Т. Мицевич два свободных параметра (остальные два определяются условием, согласно которому кривая должна проходить через точку с координатами (r = l,/l = /J,/ J - продуктивность наиболее продуктивной клетки классификации) и точку с координатами (г = N,A = L). В модели (3) практически всего один свободный параметр, т.к. значение С определяется значениями у и общим числом клеток в классификации N (см. ниже). Поэтому модель А. Т. Мицевич обладает большей гибкостью по сравнению с (3) и лучше приближает экспериментальные данные. Однако интерпретация многопараметрической модели связана со значительными трудностями.

Оценка авторитетности РЖ ВИНИТИ. Первый способ

Уже на этапе выбора сравниваемых РИ необходимо учитывать: - трудности в установлении соответствия между рубриками (разделами) различных реферативных изданий; - различия в контингенте читателей (академические круги, ИТР и т.д.), на который может быть ориентировано каждое из сравниваемых РИ, другие различия функционального характера (реферативный журнал, сигнальная информация и т.д.). Оценка РЖ ВИНИТИ рассматриваемым в этом параграфе способом осуществлялась для тематики "Ядерные реакторы" (т.е. для отдельного выпуска "Ядерные реакторы" (РЖ ВИНИТИ ЯР или просто РЖ ЯР).

Выбор РИ для сравнения с РЖ ВИНИТИ ЯР производился исходя из требования максимально возможной близости их тематик, учитывая также объем РИ, круг читателей, тип вторичных публикаций, распределение РИ по языку и странам (см. таблицу 2.1 на странице 39). Эти данные были получены путем предварительного выборочного анализа каждого из приведенных в таблице 2.1 шестнадцати реферативных изданий и с использованием справочника [84].

В качестве РИ, подходящего для оценки РЖ ВИНИТИ по тематике "ядерные реакторы", была признана рубрика «Reactor and Regulation» из американского РЖ "Nuclear Science Abstracts"(NSA RR).

Комплект NSA RR за 1974 год был подвергнут статистической обработке. Она выполнялась аналогично обработке РЖ ВИНИТИ ЯР (см. 2.6 и 4.2.) за тем исключением, что для NSA RR учитывались лишь публикации из периодических и продолжающихся источников (ПЛИ). В результате был получен список наименований ПНИ за 1974 г., распределение их по числу отраженных публикаций, распределение ПЛИ и публикаций по языкам, выявлены ПЛИ общие для NSA RR и РЖ ВИНИТИ ЯР, а также НИИ общие для и РЖ ВИНИТИ в целом.

Судя по таблице 2.2 (см. с. 43), численности большинства соответствующих друг другу подмножеств документов, отраженных в РЖ ВИНИТИ ЯР и в NSA RR близки друг к другу. Так, число наименований НИИ, использованных в течение 1974 года, для РЖ ВИНИТИ ЯР и NSA RR составляет 223 и 228 соответственно. Распределение этих источников по языкам для обоих РИ также мало отличаются (см. таблицу 2.2): Наибольшее несовпадение здесь соответствует публикациям на русском языке (18,3 и 7,0%), но и оно не превосходит колебаний в значениях этой характеристики для РЖ ВИНИТИ ЯР (18,3 и 6,7%% за 1974 и 1977 гг. соответственно).

Что касается общего числа публикаций из ПЛИ за 1974 год, то здесь NSA RR заметно превосходит РЖ ЯР (1699 публикаций для первого и 1215 - для второго). Предположим, что это различие обусловлено действием следующих причин или их комбинации: 1) Неполнота (по отношению NSARR) в комплектовании источниками фондов ВИНИТИ. 2) Чрезмерно "жесткое" отсеивание (фильтрация) в РЖ ВИНИТИ первичных публикаций из имеющихся источников. 3) Различные сроки поступления и реферативной обработки в РЖ ВИНИТИ и NSA RR одних и тех же источников. 4) Определенное тематическое и/или функциональное несоответствие между РЖ ВИНИТИ ЯР и NSA RR.

Обсудим влияние каждой из этих причин. Из 228 наименований ПЛИ, прошедших реферативную обработку в NSA RR за 1974 год, только 20 отсутствуют в фондах ВИНИТИ (подчеркнем - именно в фондах ВИНИТИ, т.е. соответствующие номера этих источников не отражены в каталоге Отдела научных фондов ВИНИТИ) за этот же год. Причем, на пять из этих 20 подписка в ВИНИТИ осуществлялась в более ранние годы, а затем была прекращена из-за чрезвычайно низкой продуктивности для тематики ВИНИТИ в целом. Таким образом, из 228 наименований, использованных в NSA RR в 1974 году, только 15 никогда не обрабатывались в РЖ ВИНИТИ, что составляет менее 7%. Из этих 15 источников в NSA RR было отражено 40 публикаций, что составляет менее 2,5% (см. таблицу. 2.2а на с. 44).

Относительно предположения (2) то, судя по таблице 3.12 (графы 14 и 16), степень отражения публикаций, релевантных тематике РЖ ВИНИТИ, достаточно высокая - на 176 первичных публикаций в РЖ помещено 290 рефератов. Следует подчеркнуть, что эти данные относятся к публикациям из тех источников, которые имеют относительно высокий научный статус - эти источники включены в список обрабатываемых в указателе SCI.

Что касается определенных тематических и функциональных различий, то их влияние на несовпадение объемов ДП в NSA RR и РЖ ЯР может быть более существенным. В самом деле, если мы будем последовательно приближать тематику и временные интервалы, в рамках которых осуществлялся анализ и сравнение этих двух реферативных издании - NSA RR и РЖ ВИНИТИ ЯР, то картина все более и более будет отличаться от только что приведенной. Так, уже 21 источник из числа 228, обработанных в NSA RR в 1974 г., ни разу не был отражен ни в одном из пяти тематических выпусков РЖ ВИНИТИ по энергетическому машиностроению за 1956-1977 гг. Если ограничиться только РЖ ЯР, то это число (за тот же период) составит 60 наименований ПЛИ. И, наконец, это число возрастет до 159, если ограничить период анализа РЖ ЯР (как и NSA RR) только 1974 годом. Таким образом, число общих источников для NSA RR и РЖ ЯР в 1974 голу составляет лишь 69 наименований, т.е. менее трети всех ПЛИ, отраженных NSA RR за этот год (они обеспечили 76,5% всех публикаций в NSA RR и 72,5% - в РЖ ЯР). Т.е. располагая практически всеми теми же источниками, что и NSA RR (93-98%) РЖ ВИНИТИ отразил в выпуске "ЯР" лишь менее их трети.

Начиная с 1975 года, в РЖ ВИНИТИ наблюдается резкий рост числа публикаций по тематике "Ядерные реакторы" (см. таблицу 2.3 на странице 57). Причем, такой рост для англоязычных публикаций, составляющих более половины ДП, происходит быстрее, чем в целом по тематике. Поскольку англоязычные источники могут поступать в американское (англоязычное) издание «Nuclear Science Abstract» значительно быстрее, чем в РЖ ВИНИТИ, то различие в объемах ДП может объясняться и тем, что NSA RR имел возможность несколько раньше, чем РЖ ВИНИТИ ЯР, отреагировать на резкое возрастание числа первичных документов по тематике "Ядерные реакторы".

Таким образом, мы убедились, что РЖ ВИНИТИ по тематике "Ядерные реакторы" на момент исследования был укомплектован не хуже, чем NSA, гарантируя при этом достаточно высокую степень отражения релевантных документов из имеющихся источников. В то же время имеются аргументы в пользу того предположения, что различие между NSA RR и РЖ ВИНИТИ ЯР в численностях отраженных документов связано со сроками поступления источников, а также определенными функциональными и тематическими различиями. Видимо, если исключить влияние этих причин, то различие в значениях численностей отраженных документов будут минимальны.

Что касается других характеристик ДП (численности обработанных ПЛИ, распределение ПЛИ и публикаций из них, доля публикаций из ПЛИ в общем объеме ДП), то соответствующие значения для NSA RR и РЖ ЯР близки.

Таким образом, исходя из принятой интерпретации, можно утверждать, что РЖ ВИНИТИ ЯР обладает достаточным уровнем авторитетности и ожидать, что все (почти все) наиболее представительные документы, соответствующие тематике "Ядерные реакторы" находят отражение в РЖ ВИНИТИ ЯР.

Эмпирический материал и его представление

Все имеющиеся в нашем распоряжении РР можно расклассифицировать, используя следующие две координаты: тематика и время. В некоторых, специально оговоренных случаях, мы будем пользоваться и дополнительными признаками, такими как язык публикаций, источник, по которому получено РР, метод подсчета. Будут рассмотрены, например, одинаковые с точки зрения тематики и времени распределения, но полученные с помощью обработки различных вторичных изданий (для тематики "ЯР").

Рассматриваемые здесь РР являются результатами обработки РЖ ВИНИТИ по энергетическому машиностроению (см. главу 2) и рубрик соответствующих тематике "Ядерные реакторы", из двух реферативных изданий: "Nuclear Science Abstract" [314] и "Engineering Index" [349]. Представление об объемах названных ДП, дает таблица 3.2 (см. с. 73). Кроме этого, были использованы данные, приведенные в работах [ПО, 265, 337, 338] (см. таблицу 3.3 на с. 74).

Классификация РР по признакам «тематика» и «время» приведена в таблице 3.4 (см. с. 75). Кроме РР, включенных в эту таблицу, - мы будем называть эти распределения исходными, рассматривались различные композиции исходных PP. Для получения композиций РР были определены две различные операции суммирования (композиции) PP. Операция (1) применялась к тем исходным РР, у которых значения обоих признаков (времени и тематики) - совпадали. Это те РР, которые были получены для одной и той же тематики и за один и тот же период времени). Т.е. операция (1) применялась к таким РР, которые попадали в одну клетку классификации, приведенной в таблице 3.4, а операция (2) - ко всем остальным PP. 1. Если РР а и і относятся к одной клетке классификации (к "конгруэнтным" рубрикам), то продуктивность Fk к-ото источника, в суммарном распределении определяется следующим образом: FA=max(Ffta Fj В частном случае к-тытл источник может иметь в одном из РР "нулевую" продуктивность, т.е. просто отсутствовать в нем. Тогда продуктивность этого источника в суммарном распределении совпадает с продуктивностью его в другом распределении. 2. Если РР а и Ъ относятся к различным клеткам классификации, то продуктивность Fk к -ого источника в суммарном распределении определяется так: =F ka+Fkb В пояснении нуждается только первый способ композиции PP. Поскольку предполагается, что тематика и охватываемые периоды одинаковые, меньшая продуктивность данного источника в одном из распределений ("недобор" из него документов) может объясняться лишь случайными, внесистемными причинами, так как предполагается, что для конгруэнтных рубрик решения об отнесении к ним одного и того же документа в принципе всегда совпадают.

Остановимся подробно на тех тематиках, для которых были получены PP. Тематики по энергетическому машиностроению и их обработка для получения РР описаны в 2.4 и 4.2. Схема изменения рубрикации соответствующих выпусков РЖ ВИНИТИ в течение исследуемого периода приводится на рис. 3.2 (см. с. 87). Выпуски РЖ за "стартовый" период (1956-1962 гг.) обрабатывались после их приведения к существующей рубрикации. Подробнее об особенностях обработки соответствующих выпусков РЖ ВИНИТИ см. [14, 104, 105].

ДП по тематике "Ядерные реакторы" обрабатывались также в реферативных изданиях "Engineering Index (EI)" [349] и "Nuclear Science Abstracts" [314]. В "Engineering Index" документы по ядерным реакторам находятся, в основном, под рубрикой "Nuclear Reactors" (ядерные реакторы).

Данная система координат обладает двумя важными преимуществами. Во-первых, диаграммы, относящиеся к различным РР с различным общим числом документов L и различным общим числом источников N, оказываются легко сопоставимыми, т.к. они построены в одном масштабе в долях (т.е. для всех них А изменяется от 0 до 1). Во-вторых, графики у(Л) во многих случаях, даже в тех, когда структура соответствующих РР довольно значительно отклоняется от ципфовской, удается приблизить (в выбранном масштабе) прямой, хотя и не параллельной оси абсцисс (рис. 3.4 на с. 88).

На этом пути возникает естественная мера отклонения реальных РР от идеального типа -значение углового коэффициента соответствующей прямой (tgy(X)). Эту меру, к сожалению, нельзя считать идеальной, так как диаграммы разброса у(Л) даже в выбранном масштабе иногда имеют форму, которую можно аппроксимировать прямой разве лишь приблизительно (см., рис. 3.15).

Нужно заметить, что рассматриваемые нами ранговые распределения относятся к ДП сравнительно небольшого объема, поэтому не исключено сильное влияние случайной компоненты. Необходимо каким-то образом усреднить отклонения, представленные в отдельных РР, с тем, чтобы выяснить, имеют они регулярный или случайный характер. Наиболее простым приемом является здесь нанесение на одну диаграмму значений у, относящихся к различным РР, что практически возможно в силу того, что они все построены в одном стандартном масштабе.

Сопоставление выводов теории с данными эксперимента

В этом параграфе описан способ формирования экспериментального массива, выбор экспериментальных аналогов для теоретических переменных - ранга и времени, метод математической обработки экспериментальных данных, способ представления результатов эксперимента. Но прежде обсудим, на какие вопросы необходимо получить ответы в ходе эксперимента. Прежде всего, нас интересует насколько вообще удовлетворительна марковская аппроксимация интересующего нас случайного процесса, то есть, в какой мере можно считать оправданным введение постулата 1. Для того, чтобы ответить на этот вопрос, сопоставим различные пары словарей и получим статистические оценки параметров а и /3, входящих в выражение (16). Некоторые основания для положительного ответа возникли бы в том случае, если бы оказалось, что для всех пар рассматриваемых словарей (может быть, за исключением словарей, разделенных малым промежутком времени) полученные оценки совпали или оказались близкими друг другу.

Имеет также смысл убедиться в том, что симметрия процесса, вытекающая из постулата 1, в действительности имеет место, то есть, что ранг, который имело слово в прошлом, столь же достоверно предсказывает его судьбу в будущем, сколь достоверно позволяет судить о прошлом этого слова его ранг, который оно имеет в настоящий момент.

Под "судьбой" и "прошлым" слова мы имеем в виду только то, будет ли оно присутствовать в словаре через г лет, присутствовало оно там т лет тому назад. Затем нас интересует, насколько хорошо можно предсказать степень обновления различных по продуктивности зон словаря, зная только единые для всего словаря параметры а и Р, то есть, насколько хорошо "работает" постулат 2. Менее важной представляется задача получения точных и несмещенных оценок параметров процесса. Попытаемся определить область возможных значений аир. Желательно чтобы области возможных значений были не настолько велики, чтобы замаскировать ожидаемое различие в темпах обновления словарей для различных разделов энергетического машиностроения. Экспериментальный массив, на котором проверялась предложенная модель, был получен в результате первоначальной статистической обработки пяти отдельных выпусков РЖ ВИНИТИ по энергетическому машиностроению (см. главу 2). Каждый выпуск и их объединение составляют отдельную тематическую линию (в том смысле, какой придан этому термину выше, в 4.1). Всего, таким образом, в эксперименте обрабатывалось шесть линий. Предварительная обработка отдельных выпусков РЖ заключалась в следующем: 1) были составлены списки ПЛИ, отражаемых в этих выпусках. На этом этапе были отсеяны патенты, монографии, непериодические сборники и проч.; 2) полученные списки были ранжированы по продуктивности; 3) были идентифицированы издания, вошедшие в состав нескольких различных списков.

Периодическим или продолжающимся изданием признавалось издание, которое отражено хотя бы в одном из следующих каталогов: картотеках периодических и продолжающихся изданий Отдела научного анализа и отбора мировой литературы ВИНИТИ, каталоге периодических и продолжающихся изданий Отдела научных фондов ВИНИТИ, каталоге журналов Российской государственной библиотеки (РГБ), каталоге журналов ГПНТБ, в справочнике [353].

Те же каталоги и библиографические пособия были использованы для идентификации изданий. Специальная процедура идентификации необходима, так как с течением времени меняются названия периодических изданий, одни прекращаются, другие разделяются на несколько изданий, или наоборот, сливаются [73, 74, 267-269, 343, 355]. С годами меняется также система сокращенного обозначения названий в РЖ ВИНИТИ.

Были приняты следующие правила идентификации. Издание признается тождественным себе в случае изменения названия. Расщепление издания игнорируется, если хотя бы в одном из указанных выше каталогов это издание зафиксировано как единое. Факт раздельного существования изданий в течение какого-то времени также игнорируется, если хотя бы в одном из каталогов указано, что они слились. Случаи прекращения существования издания никак специально не отмечаются и при подсчетах учитываются вместе со случаями изменения журналами своей тематики (соглашения об игнорировании слияний и расщеплении изданий, конечно, приводит к уменьшению объемов словарей, но не более, чем на 2%).

Принятые критерии идентификации дают возможность получать ранжированные списки ПЛИ для различных объединений выпусков РЖ, в том числе и для объединения всех пяти выпусков по энергетическому машиностроению.

В результате первой стадии обработки было получено 48 ранжированных словарей, отражающих с промежутками один - два года последовательные состояния шести ДП. Последовательное сопоставление каждого из словарей с другим словарем той же тематической линии дало возможность для каждого слова с данным рангом г указать те словари, в которых представлено данное слово. Сравнение списков - всего проделано 3361 сравнений - осуществлялось на ЭВМ, для чего была составлена специальная программа [8].

Для упрощения дальнейшей обработки сгруппируем слова внутри каждого словаря. Под группой понимается совокупность слов, занимающих в словаре непрерывный интервал рангов [ju,rj], где ju - наименьший ранг слова, отнесенного к данной группе, a J - наибольший. Разбиение на группы проводится таким образом, чтобы в группе либо было не менее к слов с различной частотой продуктивности F, либо все слова, включенные в группу, характеризовались бы равными величинами F (в этом случае длина группы не могла быть менее к /2). В случае, когда ни одно из этих двух правил не позволяло разбить словарь на группы, выбирался компромиссный путь. На основе предварительных экспериментов было выбрано к равное 10.

Таким образом, группы могут иметь разные размеры, и размер группы обычно возрастает в зоне малопродуктивных изданий. Рангом группы будем называть т] -наибольший из рангов слов данной группы. В качестве оценки вероятности сохранения слова рх с данным рангом г через время г будем рассматривать долю слов, сохранившихся в группе [ju,TJ], ju r TJ, то есть представленных в словаре Vi, отделенным от

1 Число сравнений обуславливается тем, что сравнение словаря А со словарем В дает информацию о сохранении в В слова, которое имеет в А ранг г, а сравнение В с А - информацию о сохранении в словаре А слова с рангом р словаре В Сведения этих двух типов, вообще говоря, не совпадают. рассматриваемого периодом в г лет. Если нам нужно экспериментально оценить вероятность /?,(г,г) найдем группу [JU,TJ], в которой лежит слово с рангом г в словаре К(/,), и проверим, какие слова этой группы содержатся в словаре V(tx), ґ, —t = т. Общее число слов, принадлежащих пересечению [М,Т7]Г\У( ), деленное на число слов в группе [JU,TJ]H есть искомая оценка. Например, в словаре "Турбостроение" за 1957 г. из группы [11, 23] выделенной в словаре за 1965 г., представлено 10 изданий, следовательно, оценкой для р,(15,8) будет 10/13. Очевидно, что такова же будет оценка для /?,(11,8), рх(12,8),..., /7,(23,8). Иными словами, в ходе обработки эмпирических данных заменяем кривую (16) ступенчатой функцией. Оценки /7,, полученные описанным выше методом, приведены в таблице 4.1 (см. с. 119). В этой таблице группа строк, объединенная общим годом, соответствует словарю, вероятности сохранения слов из которого мы определяем. Аналогично этому, группа столбцов — соответствует словарю, в котором определяется сохранение этих слов.

Заметим, что группировку данных, аналогичную группировке слов по оси рангов, мы производим и по оси времени, делая все подсчеты относительно годовых комплектов выпусков РЖ.

Ранговые распределения как инструментальный критерий при формировании документных массивов информационных систем и баз данных Либкинд Александр Наумович

От классификации документов к ранговому распределению

Оценка авторитетности РЖ ВИНИТИ. Первый способ

Эмпирический материал и его представление

Сопоставление выводов теории с данными эксперимента

Похожие диссертации на Ранговые распределения как инструментальный критерий при формировании документных массивов информационных систем и баз данных