Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Модели и методы повышения эффективности и качества разработки и функционирования тематических патентных баз данных : На примере Евразийского патентного ведомства Бителева Анастасия Вячеславовна

Модели и методы повышения эффективности и качества разработки и функционирования тематических патентных баз данных : На примере Евразийского патентного ведомства
<
Модели и методы повышения эффективности и качества разработки и функционирования тематических патентных баз данных : На примере Евразийского патентного ведомства Модели и методы повышения эффективности и качества разработки и функционирования тематических патентных баз данных : На примере Евразийского патентного ведомства Модели и методы повышения эффективности и качества разработки и функционирования тематических патентных баз данных : На примере Евразийского патентного ведомства Модели и методы повышения эффективности и качества разработки и функционирования тематических патентных баз данных : На примере Евразийского патентного ведомства Модели и методы повышения эффективности и качества разработки и функционирования тематических патентных баз данных : На примере Евразийского патентного ведомства Модели и методы повышения эффективности и качества разработки и функционирования тематических патентных баз данных : На примере Евразийского патентного ведомства Модели и методы повышения эффективности и качества разработки и функционирования тематических патентных баз данных : На примере Евразийского патентного ведомства Модели и методы повышения эффективности и качества разработки и функционирования тематических патентных баз данных : На примере Евразийского патентного ведомства Модели и методы повышения эффективности и качества разработки и функционирования тематических патентных баз данных : На примере Евразийского патентного ведомства Модели и методы повышения эффективности и качества разработки и функционирования тематических патентных баз данных : На примере Евразийского патентного ведомства Модели и методы повышения эффективности и качества разработки и функционирования тематических патентных баз данных : На примере Евразийского патентного ведомства Модели и методы повышения эффективности и качества разработки и функционирования тематических патентных баз данных : На примере Евразийского патентного ведомства
>

Данный автореферат диссертации должен поступить в библиотеки в ближайшее время
Уведомить о поступлении

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - 240 руб., доставка 1-3 часа, с 10-19 (Московское время), кроме воскресенья

Бителева Анастасия Вячеславовна. Модели и методы повышения эффективности и качества разработки и функционирования тематических патентных баз данных : На примере Евразийского патентного ведомства : диссертация ... кандидата технических наук : 05.25.05.- Москва, 2006.- 250 с.: ил. РГБ ОД, 61 06-5/2395

Содержание к диссертации

Введение

Глава 1. Евразийское патентное ведомство и задачи автоматизации его деятельности 15

1.1. Цель создания, структура и функции Евразийского патентного ведомства 16

1.2. Структура системы управления и требования к принятию решений в Евразийском патентном ведомстве 30

1.3. Основные задачи автоматизации административной и информационной деятельности Евразийского патентного ведомства 58

1.4. Концепция автоматизации ЕАПВ и задачи создания тематических патентных баз данных 69

Краткие выводы 75

Глава 2. Методы анализа предметных областей пользователей тематических патентных баз данных 76

2.1. Тематические базы данных и особенности формирования и анализа патентного информационного фонда международной патентной организации 77

2.2. Формализованные модели и методы анализа предметных областей пользователей тематических патентных баз данных 104

2.3. Методы построения внешних моделей пользователей тематических патентных баз данных 108

2.4. Процедуры формирования обобщенной внешней модели ТПБД 110

2.5. Модели и методы построения и анализа канонических структур ТПБД 115

Краткие выводы 122

Глава 3. Разработка моделей и методов повышения эффективности и качества тематических патентных баз данных 124

3.1. Анализ и формулирование требований к показателям качества ТПБД 125

3.2. Методы анализа и синтеза типовой иерархической структуры ТПБД 139

3.3. Формализованное определение показателя полноты тематических патентных баз данных 154

3.4. Модель и метод синтеза оптимальных логических структур тематических патентных баз данных 158

Краткие выводы 171

Глава 4. Разработка Евразийской патентной информационной системы 174

4.1. Исходные положения по разработке ЕАПАТИС 175

4.2. Разработка функциональной структуры и основные характеристики ЕАПАТИС 182

4.3. Функциональные комплексы системы ЕАПАТИС 209

4.4. Развитие системы ЕАПАТИС 227

Краткие выводы 237

Заключение 239

Литература 244

Введение к работе

Актуальность темы

Переход к широкомасштабному применению современных информационных технологий (ИТ) и систем во всех сферах деятельности общества с целью обеспечения широкого круга пользователей наиболее полной, достоверной и своевременной информацией приобретает в настоящее время особую актуальность в связи с происходящими кардинальными преобразованиями в России. Современные информационные технологии являются основой развития всех сфер общественной жизни и должны рассматриваться не только как информационные и технологические процессы, но прежде всего как процессы, имеющие социальное, экономическое, организационно-правовое, историческое и другие значения.

На современном этапе развития информации, когда рынок информационных продуктов и услуг представляет достаточно широкое оснащение средствами технического, программного обеспечения и организацией всех форм собственности, основной проблемой информации является переход от создания различных инструментариев информационных технологий (программных и технических средств, локальных сетей и систем), к созданию и последующей реализацией концепции комплексной информационной поддержки различных видов деятельности, имеющих общегосударственную значимость, к каким, безусловно, принадлежит патентное дело. Патентные документы содержат уникальную информацию по различным аспектам общественно-политического, государственного, экономического, социального, культурного развития Российской Федерации, в совокупности эти документы являются основной частью национального интеллектуального богатства страны, задача сохранения и эффективного использования которого закреплена в законодательном порядке.

В настоящее время хранящиеся патентные документы используются исследователями как в своем первичном виде, так и для создания вторичных, производных источников. При этом исходные данные интегрируются во вновь создаваемых каталогах, таблицах и так называемых тематических патентных базах данных (ТПБД). ТПБД определяется как отобранная из патентных источников и организованная определенным образом коллекция тематически связанных данных, созданная для решения определенной научной или прикладной проблемы и позволяющая в процессе ее решения рациональным способом извлекать, просматривать и редактировать необходимые данные.

Для снижения общей трудоемкости процесса концептуального проектирования ТПБД необходимо использовать методы формального анализа информационные требований пользователей, для последующего формирования канонических структур ТПБД и построения логических структур БД.

В этой связи, наряду с общетеоретическими, методологическими и прикладными проблемами проектирования баз данных (БД), возникает связанная с ними проблема обеспечения максимальной полноты удовлетворения информационных потребностей широкого круга пользователей при создании и эксплуатации тематических баз данных по материалам патентных источников. Ее решение базируется, прежде всего, на качественном проведении этапа концептуального проектирования ТПБД, связанного с описанием и синтезом информационных требований в рамках некоторой достаточно общей и безызбыточной структуры, объединяющей требования полного множества пользователей ТПБД.

Большие масштабы работ по созданию и использованию ТПБД в различных патентных организациях, и в то же время отсутствие единой методологии проектирования ТПБД обуславливают высокую актуальность проведенных в работе научных исследований.

Целью работы является разработка моделей и методов создания и повышения эффективности функционирования тематических патентных баз данных на примере Евразийского патентного ведомства (ЕАПВ).

Методы исследования.

Основные результаты диссертационной работы получены и математически обоснованы с использованием аппарата исследования операций, теории графов, методов оптимизации и других разделов современной теории управления.

Научная новизна. В результате проведенных исследований, анализа и обобщения опыта проектирования и эксплуатации систем автоматизации деятельности патентных организаций РФ и ЕАПВ:

- разработана единая методология проектирования оптимальных структур тематических патентных баз данных, заключающаяся в последовательном решении задач анализа и структуризации предметной области пользователей и формирования безызбыточной канонической структуры ТПБД; синтеза оптимальных по заданным критериям эффективности логических структур ТПБД;

- разработана совокупность графовых и матричных моделей и процедур их преобразования, обеспечивающая формальный анализ и структуризацию предметных областей пользователей, выявление и анализ дублируемых информационных элементов и избыточных взаимосвязей, выделение групп данных, ключей и зависимых атрибутов, а также построение рациональных канонических структур тематических патентных баз данных на этапе, предшествующем их техническому проектированию;

- разработаны методы построения типовой иерархической структуры ТПБД, основанные на последовательном выполнении комплекса процедур анализа требований к категориям информации патентно-информационного фонда, выделения типов объектов данных на основе процедур классификации объектов данных с использованием введенного в работе нормированного показателя подобия объектов; построения объектной канонической структуры ТПБД на основе информации об отношениях между типами объектов. В дальнейшем разработанный комплекс процедур обеспечивает реструктуризацию объектной канонической структуры ТПБД с целью приведения ее к иерархическому виду и построения типовой канонической структуры (ТКС) ТПБД;

-разработаны постановка задачи, модель и метод синтеза оптимальных логических структур ТПБД по критерию минимума суммарного времени загрузки и тестирования ТПБД, а также обслуживания множества запросов пользователей, возникающая на этапе технического проектирования ТПБД. Задача синтеза поставлена при ряде структурных и технологических ограничений, а также ограничений по эффективности использования вычислительных ресурсов. Задача сформулирована в виде задачи нелинейного целочисленного программирования с булевыми переменными. Для ее решения разработан алгоритм, основанный на модифицированной схеме метода «ветвей и границ»;

- введены определения основных показателей качества ТПБД: полноты, достоверности, актуальности, глубины ретроспективы, времени загрузки и тестирования ТПБД, а также обслуживания множества запросов пользователей и определены области их применения для различных категорий патентной информации. Разработаны требования и приведены описания структур данных для различных категорий патентной информации -патентной, непатентной, нормативно-правовой и справочной документации. Разработаны формализованное определение и аналитические выражения для определения оценки полноты структур ТПБД в процессе их создания и функционирования.

Практическая ценность. Предложенные модели и методы позволяют создавать эффективные локальные и распределенные тематические базы патентных данных с целью их многоцелевого использования в патентных учреждениях. Использование указанных методов, алгоритмов и программ проектирования ТПБД позволяет снизить трудоемкость и общие затраты на разработку, внедрение и модификацию соответствующих автоматизированных систем в 1,5-3 раза.

Предложенные модели и методы повышения качества тематических патентных баз данных использовались при проектировании канонических и логических структур ряда ТПБД Евразийского патентного ведомства, в частности ТПБД патентной документации ВОИС, ТПБД патентной документации США, ТПБД патентной документации ЕАПВ, ТПБД патентной документации Европейского патентного ведомства. Использование предложенных методов позволило повысить полноту и достоверность ТПБД, в 1,5-2 раза сократить время загрузки и тестирования ТПБД, повысить эффективность информационного обслуживания запросов экспертов.

Апробация результатов диссертационного исследования.

Основные положения и результаты диссертации докладывались и обсуждались на IX, X, XI и XII международных конференциях по проблемам управления безопасностью сложных систем, проблемам регионального и муниципального управления, а также по проблемам теории открытых систем (2001-2005 г.г.).

Публикации. По теме диссертации опубликовано 12 печатных работ.

Структура и объем диссертационной работы.

Диссертация состоит из введения, четырех глав, заключения, списка цитируемой литературы.

Текст работы содержит 243 страницы машинного текста, 26 рисунков и 15 таблиц.

В первой главе рассматриваются цели, структура и функции Евразийского патентного ведомства в условиях использования и развития новых информационных технологий, включая создание, ведение и многоаспектное использование тематических патентных баз данных. Проводится детальный анализ, исследуются особенности структуры системы управления. На основе результатов анализа формулируются основные требования к структуре и характеристикам системы принятия решений в Евразийском патентном ведомстве (ЕАПВ).

На основе сформулированных требований определяются основные задачи автоматизации административной и информационной деятельности в Евразийском патентном ведомстве и очередность их внедрения. В рамках сформулированной концепции автоматизации основных функций ЕАПВ ставятся задачи создания и ведения тематических патентных баз данных, представляющих собой множество тематически связанных данных, создающихся для решения определенной научной и прикладной проблемы и позволяющей в процессе ее решения рациональным образом просматривать, изменять и редактировать необходимые данные, что существенно повышает качество и скорость обслуживания пользователей.

Во второй главе рассмотрены целевое назначение, особенности формирования, хранения, использования, а также основные характеристики тематических патентных баз данных патентного информационного фонда международных патентных организаций. Предложены формализованные модели описания предметных областей и спецификации информационных требований пользователей ТПБД.

Разработана совокупность графовых и матричных моделей и процедур их преобразования, обеспечивающая формальный анализ и структуризацию предметных областей пользователей, выявление и анализ дублируемых информационных элементов и избыточных взаимосвязей, выделение групп данных, ключей и зависимых атрибутов, а также построение внешних моделей пользователей.

Предложена методология нормализации информационных структур внешних моделей пользователей, описываемых в виде иерархических и сетевых моделей данных, отличающаяся от известных методов универсальностью, экономичностью, простотой алгоритмизации и автоматизации, Формализованные процедуры нормализации обобщенной внешней модели ТПБД обеспечивают выделение базовых структурных элементов, анализ дублируемых информационных элементов и транзитивных взаимосвязей, структуризацию информационных элементов по уровням иерархий, выделение ключевых атрибутов, то есть проектирование канонической структуры ТПБД.

В третье главе рассматриваются постановки и решение задач, связанных с обеспечением требуемого уровня полноты и эффективности функционирования тематических патентных баз данных и направленных на повышение их качества.

Проведен анализ и сформулированы требования, предъявляемые к показателям качества ТПБД, предложены методы построения типовой иерархической структуры ТПБД.

Разработаны методы построения типовой иерархической структуры ТПБД. Предложенные методы основаны на последовательном выполнении комплекса процедур анализа требований к категориям информации патентно-информационного фонда, выделения типов объектов данных на основе процедур классификации объектов данных с использованием введенного в работе нормированного показателя подобия объектов; построения объектной канонической структуры ТПБД на основе информации об отношениях между типами объектов. В дальнейшем разработанный комплекс процедур обеспечивает реструктуризацию объектной канонической структуры ТПБД с целью приведения ее к иерархическому виду и построения типовой канонической структуры (ТКС) ТПБД. Разработаны процедуры построения типовой логической структуры (ТЛС) ТПБД на основе заданных характеристик ТКС ТПБД и разработанных алгоритмов ее преобразования с учетом ограничений ТЛС ТПБД.

Разработаны формализованное определение и аналитические выражения для определения и оценки полноты структур ТПБД. В качестве оценки полноты канонической структуры ТПБД используется отношение числа типов и экземпляров данных, связей и путей доступа между ними, зафиксированных в канонической структуре ТПБД, к их общему числу в ТКС ТПБД. Аналогичные оценки могут быть использованы для анализа полноты логической структуры ТПБД. При этом построенная логическая структура ТПБД сопоставляется с ТЛС ТПБД.

Разработана постановка задачи, модель и метод синтеза оптимальных логических структур ТПБД по критерию минимума суммарного времени загрузки и тестирования ТПБД, а также обслуживания множества запросов пользователей, возникающая на этапе технического проектирования ТПБД. Задача синтеза поставлена при ряде структурных и технологических ограничений, а также ограничений по эффективности использования вычислительных ресурсов. Задача сформулирована в виде задачи нелинейного целочисленного программирования с булевыми переменными. Для ее решения разработан алгоритм, основанный на модифицированной схеме метода «ветвей и границ».

В четвертой главе представлены результаты разработки Евразийской патентной информационной системы (ЕАПАТИС).

Приведено описание функциональной структуры системы, основных подсистем, информационного, программного и технологического обеспечения. Особое внимание уделено описанию пользовательского интерфейса, обеспечивающего универсальный доступ к внутренним и внешним источникам патентной информации и возможность мультипоиска в них.

Предложенные модели и методы повышения качества тематических патентных баз данных использовались при проектировании канонических и логических структур ряда ТПБД Евразийского патентного ведомства, в частности ТПБД патентной документации ВОИС, ТПБД патентной документации США, ТПБД патентной документации ЕАПВ, ТПБД патентной документации Европейского патентного ведомства. Использование предложенных методов позволило повысить полноту и достоверность ТПБД, в 1,5-2 раза сократить время загрузки и тестирования ТПБД, повысить эффективность информационного обслуживания запросов экспертов.

В приложении приведены документы, подтверждающие эффективность внедрения полученных в диссертации научных результатов и рекомендаций.

Структура системы управления и требования к принятию решений в Евразийском патентном ведомстве

Положительный сдвиг в этой связи, хотя и разделенный почти столетием, внесли Парижская конвенция по охране промышленной собственности и Договор о патентной кооперации (РСТ) [18], которые устанавливают принципы и процедуры рационализации патентной системы для большого числа стран. Более унифицированная структура получения патентов во всем мире будет содействовать все большему числу пользователей создавать и коммерциализировать свои изобретения на действительно международной основе, испытывая при этом все меньше страха, что плоды их работы будут неадекватно или неэффективно охраняться, содействуя тем самым более эффективной и рентабельной инновационной деятельности и экономическому росту.

РСТ, участниками которого являются 112 стран и по процедуре которого в 2000 г. было подано более 90000 заявок, предлагает гармоничные процедуры в силу обязательного общего набора формальных требований и одной международной публикации для подачи заявок, имеющих действие во многих странах. РСТ также предусматривает существенные, но в то же время не обязательные международный поиск и международную предварительную экспертизу. Хотя результаты этих процедур не полностью признаются национальными и региональными патентными ведомствами, РСТ вероятно предлагает наилучшую структуру, на основе которой может получить развитие по-настоящему международная патентная система в сотрудничестве с национальными и региональными системами и наряду с такими другими инициативами, как более широкая гармонизация патентного законодательства, В частности, РСТ является наиболее подходящим договором для более широкой интеграции в международную патентную систему развивающихся стран, наименее развитых стран и стран с переходной экономикой, которые желают, чтобы их патентные системы предоставляли более совершенные услуги и шире использовались.

Анализ показывает, что в настоящее время наблюдается растущая потребность в более фундаментальных изменениях международной патентной системы. Причиной этой потребности является ряд источников, из которых в общем смысле наиболее важным является более активная интернационализация рынка и обязательства ЕПВ для стран в плане укрепления национальных систем интеллектуальной собственности.

Патентная система более полно должна отвечать международному характеру деловой практики. Проблемы. Стоящие перед национальными и региональными системами, становятся наиболее острыми, когда промышленность заинтересована в получении всемирной патентной охраны или по крайней мере охраны в значительном ряде стран. Система РСТ предлагает частичное решение вопроса о необходимости эффективных средств получения патентов на международном уровне, но в то же время не предлагает полного решения.

Одной из основных проблем, с которыми сталкиваются пользователи, является ненужное дублирование обработки патентных заявок на одно и то же изобретение, что влечет за собой дополнительные расходы для заявителей, Это дублирование охватывает национальные и региональные патентные ведомства, Международные поисковые органы, Органы международной предварительной экспертизы и Международное бюро ВОИС [3,17,18]. Это распространяется также на административные и правовые аспекты процедур патентования. Для преодоления этого недостатка целесообразно разработать и внедрять тематические патентные базы данных по различным вопросам патентования.

Анализ показывает, что обработка отдельных национальных и региональных заявок на одно и то же изобретение в ряде патентных ведомств ведет к существенному дублированию работы. Следующие цифры иллюстрируют размеры такого дублирования. Из приблизительно 872000 патентных заявок, которые были поданы во всем мире в 1998 г. и затем опубликованы, 114000 представляли собой параллельные подачи в двух или нескольких стран или региональных системах (т.е. 114000 являлись членами так называемых патентных «семей», каждая из которых состоит из 2-х или нескольких членов), и 61000 заявок были поданы вне рамок РСТ [17,19,20]. На сегодняшний день не существует международной системы признания результатов поиска и экспертизы по заявкам в других патентных ведомствах, хотя некоторые патентные ведомства в одностороннем порядке применяют схемы признания результатов проведения экспертизы и поиска в других странах. Даже в тех случаях, когда для подачи используется процедура РСТ, когда заявки вступают в национальную фазу обработки большинство указанных ведомств не оказывает надлежащих «веры и доверия» международным поискам и заключениям международной предварительной экспертизы по РСТ.

Такая высокая степень дублирования патентных операций и документов существенно повышает стоимость получения патентов и рабочую нагрузку патентных ведомств. Отдельные изобретатели, а также малые и средние предприятия зачастую просто не могут позволить себе подавать патентные заявки и многие заявители из различных развивающихся стран, наименее развитых стран и стран с переходной экономикой считают стоимость патентования преградой для их участие в этой системе. В то же время статистика показывает постоянный и значительный рост рабочей нагрузки в рамках патентной системы, которая включает как число пользователей, так и число заявок. Обычным стал ежегодный рост в пределах 10 и 20% и даже более. Всего лишь за один год между 1999 г. и 2000 г. в рамках РСТ наблюдалось увеличение подачи международных заявок на 23%.

Формализованные модели и методы анализа предметных областей пользователей тематических патентных баз данных

Информация по нетрадиционным знаниям в основном не публикуется и «живет» в сознании и практическом опыте человечества. Сбор данной информации сопряжен с большими сложностями и работы по созданию такого рода тематических баз данных находятся на стадии становления.

К законодательной, нормативно-методической и справочной литературе относятся вспомогательные документы и материалы, которые, во-первых, являются правовой основой для деятельности региональных и национальных патентных ведомств. Например, в ЕАПВ, к таким документам относятся «Евразийская патентная конвенция», «Правила процедуры Административного совета Евразийской патентной организации», «Административная инструкция к Евразийской патентной конвенции» и др. Во-вторых, такие документы, которые регламентируют деятельность патентного ведомства, например, «Правила составления, подачи и рассмотрения евразийских заявок в ЕАПВ», «Положение о евразийских патентных поверенных», «Руководство по экспертизе евразийских заявок» и др. В-третьих, такие, которые содержат информацию и справочные материалы, такие, например, как инструкции типа «Как получить евразийский патент», комментарии к патентному законодательству, контактную информацию и т.п. Необходимо отметить, что законодательная, нормативно-правовая и справочная информация практически не формализована и представляется в свободном, удобном для прочтения тестовом виде, а поиск в данном массиве информации проводится по ключевым словам из полных текстов документов.

В приведенном множестве документов и материалов, составляющих патентный информационный фонд патентного ведомства, главную роль для международных организаций играет патентная и связанная с ней документация, от правильной организации, ввода, обработки, хранения и пользования которой существенно зависит эффективность выполнения организацией своей главной задачи -качественное проведение экспертизы и выдачи патентов.

Таким образом, развитый патентный информационный фонд содержит патентную и связанную с ней информацию из внутренних и внешних источников. При этом внутренними источниками информации являются собственные патентно-информационные ресурсы, формируемые в результате производственной деятельности патентных ведомств, а также патентная и другая документация, получаемая на бумажных и машиночитаемых носителях из других ведомств по обмену и подписке. Внешними источниками информации являются информационные ресурсы, предоставляемые специализированными патентными и научно-техническими организациями и библиотеками, доступ к которым может обеспечиваться, в том числе, по телекоммуникационным каналам связи. Большие объемы патентной и связанной с ней информации доступны в настоящее время по сети INTERNET, в том числе в режиме свободного доступа (к примеру через системы esp@cenet/ USPTO, EPOLIWE и др.). Существует ряд известных коммерческих центров патентной и непатентной информации прямого доступа (Questel-Orbit, Derwent, STN и др.), которые за определенную плату предоставляют on-line доступ к ретроспективной информации, обеспечивают разнообразие поисков и высокое качество найденной информации.

Разнообразные поисковые и сервисные возможности, предоставляемые INTERNET-патентными базами данных и коммерческими патентными службами, а также распространение патентной документации на дисках CD-ROM и DVD привносят в парадигму создания патентных информационных систем.

Анализ показывает, что патентные фонды совместных патентных информационных систем должны быть организованы в виде системы взаимосвязанных и взаимодействующих локальных и удаленных распределенных тематических патентных баз данных, доступ к которым обеспечивается через единый пользовательский интерфейс. При этом в локальных ТПБД хранится патентная и непатентная документация и литература из внутренних источников информации, а в удаленных ТПБД - информационные ресурсы распределенных патентных БД сети INTERNET и коммерческих on-line служб. Взаимодействие между ТПБД должно определяться га основе разработки экономически обоснованной стратегии и тактики взаимодополняющего поиска в локальных и удаленных ТПБД.

Формализованное определение показателя полноты тематических патентных баз данных

Для построения типовой структуры ТПБД воспользуемся подходом «от предметной области», суть которого заключается в том, что проектирование структуры БД осуществляется путем анализа общих системных требований к рассматриваемой предметной области и формирования обобщенной (типовой канонической) структуры данных на основе выявления типов объектов (сущностей) данных и отношений между ними [31, 42, 43, 46, 52].

Построение типовой канонической структуры ТПБД осуществляется на основе анализа сформулированных выше требований к категориям информации патентно-информационного фонда, выявления типов объектов данных предметной области и отношений между ними.

Под объектом данных (объектом) будем понимать уникальную сущность предметной области, которая обладает четко выраженным поведением и набором свойств (информационных элементов). Поведение объекта характеризуется методами, которые объект предоставляет другим объектам (интерфейс объекта) или использует для реализации своего поведения (реализационная часть). Объекты, обладающие одинаковым поведением и набором атрибутов (информационных элементов), представляются в виде типов объектов, что позволяет ввести абстракцию.

Каждый тип объекта имеет имя и состоит из множества образующих его объектов. Различают простые типы объектов данных, а также составные или сложные типы данных - массивы, списки, потоки.

Отнесение объекта к определенному типу может осуществляться различными способами. Тип объекта данных может быть установлен в результате анализа требований к информационным элементам предметной области. Он также может быть установлен при помощи процедур классификации данных при известных свойствах объектов. Следует отметить, что объекты с течением времени могут менять свой тип. Например, некоторая заявка на изобретения, отнесенная вначале к типу объекта «ЗАЯВКА», после вынесения решения о выдаче патента и его официальной публикации, должна относится к объекту типу «ПАТЕНТ».

Пусть 0 = {от\т = \,М}- множество объектов данных предметной области ТПБД. Каждый объект О] характеризуется множеством входящих в него информационных элементов Dm = {d, І7 є Lm с L), где L -полное множество информационных элементов предметной области. Каждый информационный элемент, как отмечалось в главе 2, описывается совокупностью интегральных характеристик, таких как: длина, тип (целый, вещественный, символьный), количество экземпляров данных. Типы данных информационных элементов будем задавать матрицей смежности S=.sJ, проиндексированной по осям множеством типов данных T={tq\qzQ} и полным множеством информационных элементов D={ d,\leL} . К одному типу данных tq относятся информационные элементы, для которых Sqi=l/ V d, є D. Рассмотрим процедуры выделения типов объектов данных на основе процедур классификации объектов данных. Для определения количественной оценки степени общности пары объектов (0j,0k)eO определим следующие величины: - количество общих в Oj и 0к элементов: /?„=DynZ)J; - количество элементов, присутствующих В Oj, но отсутствующих в 0k: pw=\Dj\-pn; - количество элементов, присутствующих В 0к, но отсутствующих . Существующие функции подобия для оценки степени общности различных объектов [53] не в полной мере обеспечивают адекватность сравнения объектов данных. Так, если информационные элементы объекта Oj являются подмножеством информационных элементов объекта 0к ,т.е., если ЗОк :Dj что является характерной особенностью ТПБД, описывающих хорошо формализованную и стандартизованную предметную область патентного информационного фонда, то величина меры подобия (например, по Жаккарду, Чупрову и др.) может оказаться слишком малой (из-за большого значения рої) , что привело бы к исключению объекта 0к из дальнейшего рассмотрения, хотя множество элементов 0к фактически покрывает элементы Oj . Другими словами, чем больше мощность множества элементов объекта 0к, с которым сравнивается объект Oj , тем меньше общность (степень подобия) между ними. Для устранения такого противоречия введем нормированный показатель подобия, вычисляемый по следующей формуле.

Разработка функциональной структуры и основные характеристики ЕАПАТИС

Исходными данными при синтезе логической структуры ТПБД являются формализованное описание и параметры канонической структуры ТПБД, формализованное описание и характеристики запросов пользователей, процессов ввода, загрузки и тестирования ТПБД.

Формализованное описание канонической структуры ТПБД G(С,U)задается следующей системой множеств, векторов и матриц: C={ct li = \J} - множество групп данных, W=Jwtf.J -матрица взаимосвязей между группами данных; і? = бй-матрица вхождения информационных элементов в группы данных, где бй = 1, если элемент d, входит в состав группы cif bti=0 в противном случае; R = , ,..., ,... )-вектор количества экземпляров групп, p={pl,p2,...,pi,...,p,} -вектор характеристик длины каждой группы в байтах. Каждый запрос qk eg, где Q = {qklk = \,K}- множество запросов к ТПБД, формализовано описывается: Lk множеством возможных точек входа в каноническую структуру; матрицы используемых им групп данных Л=д, и матрицы связей _Р=[/] , реализуемых к-ы запросом при поиске через 7-ю точку входа. Здесь: а &=1, если при реализации к-то запроса через 1-ю точку входа используется /-я группа; а ік=0 в противном случае; f"=l, если связь (ii ) используется при реализации к-го запроса через 1-ю точку входа; f"- в противном случае. Основными характеристиками множества запросов являются: P-{fiu-\f" = множество средних значений суммарного числа просматриваемых при реализации k-vo запроса из 1-й точки входа указателей и экземпляров групп; P = {P"\f" =1}- множество средних значений суммарного числа выбираемых при реализации А:-го запроса из 1-й точки входа экземпляров групп; а= {их,...,ак ,..., JK}- вектор частот использования запросов. Временными параметрами отдельного запроса являются: tnc - среднее время просмотра указателя связи и сравнение выбранного экземпляра с признаком, задаваемым в условии запроса; /,- среднее время поиска и выбора экземпляра і-й группы из ТПБД. Методы расчета основных характеристик запросов приводятся в [29, 31]. Для описания процесса ввода и загрузки данных в ТПБД определяется общее количество загружаемых экземпляров для каждой связи канонической структуры ТПБД уи,, которое зависит от количества загружаемых экземпляров групп данных (гІ И Г ) И выбранной системы указателей связи. Параметр у„, является элементом множества y = {yu,li,V=\J} загружаемых экземпляров связей. Временными параметрами отдельной операции ввода и загрузки данных являются: 1:сл- среднее время слияния (композиции) групп в логическую запись; t3 - среднее время загрузки одной логической записи в ТПБД; ty -время формирования указателя (адреса) связи. Методы расчета количественных и временных параметров процесса ввода и загрузки данных в базу данных (БД) приводятся в [31].

Задания на тестирование данных инициируются администратором ТПБД и включают следующую последовательность операций: доступ к ТПБД; поиск данных, подлежащих тестированию; анализ полученных результатов (сравнение результатов с эталонными значениями); принятие решения о готовности ТПБД для коллективного использования. Следует отметить, что задания на тестирование выполняются в монопольном режиме обработки информации, и это увеличивает время доступа к ТПБД и поиска в них информации.

Задания на тестирование ТПБД характеризуются подмножеством данных, выбираемых при тестировании, деревьями их поиска и временными характеристиками доступа и поиска данных.

Обозначим через K = {ks/s = \,S0} - множество заданий на тестирование ТПБД. Задания на тестирование ТПБД описываются с помощью: матрицы использования групп данных при их выполнении WTec sILjH, где wT"=l, если при .у-м задании тестируется і-ТА групповой элемент, и w%c=0 в противном случае; вектора частот использования заданий на тестирование администратором ТПБД Л={}, где частота использования s-vo задания; множества средних значений экземпляров групп данных, выбираемых при тестировании, Г ={yisli = \,I,s = \,Su\, где yh - среднее значение количества выбираемых экземпляров /-й группы данных при выполнении 5-го теста; среднего времени тестирования одного экземпляра группы данных tTec. Параметр Yis зависит от характеристик тестируемого группового элемента (количества экземпляров группы данных, распределения ключевых (индексных) элементов по группам данных), а также метода организации массива данных.

Общая задача синтеза оптимальной логической структуры ТПБД формулируется следующим образом: определить логическую структуру ТПБД, т.е. состав логических записей, связей между записями, структуры запросов к ТПБД и множество тестируемых элементов, обеспечивающую минимум общего суммарного времени загрузки и тестирования ТПБД, а также обслуживания множества запросов пользователей.

Похожие диссертации на Модели и методы повышения эффективности и качества разработки и функционирования тематических патентных баз данных : На примере Евразийского патентного ведомства