Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Исследование структур и разработка интерактивной экспертно-поисковой системы правовой информации Толок Наталия Борисовна

Исследование структур и разработка интерактивной экспертно-поисковой системы правовой информации
<
Исследование структур и разработка интерактивной экспертно-поисковой системы правовой информации Исследование структур и разработка интерактивной экспертно-поисковой системы правовой информации Исследование структур и разработка интерактивной экспертно-поисковой системы правовой информации Исследование структур и разработка интерактивной экспертно-поисковой системы правовой информации Исследование структур и разработка интерактивной экспертно-поисковой системы правовой информации Исследование структур и разработка интерактивной экспертно-поисковой системы правовой информации Исследование структур и разработка интерактивной экспертно-поисковой системы правовой информации Исследование структур и разработка интерактивной экспертно-поисковой системы правовой информации Исследование структур и разработка интерактивной экспертно-поисковой системы правовой информации Исследование структур и разработка интерактивной экспертно-поисковой системы правовой информации Исследование структур и разработка интерактивной экспертно-поисковой системы правовой информации Исследование структур и разработка интерактивной экспертно-поисковой системы правовой информации
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Толок Наталия Борисовна. Исследование структур и разработка интерактивной экспертно-поисковой системы правовой информации : диссертация ... кандидата технических наук : 05.13.13.- Москва, 2000.- 162 с.: ил. РГБ ОД, 61 00-5/2573-7

Содержание к диссертации

Введение

Глава I. Анализ методов организации и поиска данных в компьютерных информационно-поисковых системах по законодательству 15

1.1. Специфика развития правовой информатики как структурного элемента системы информатизации общества 15

1.2. Анализ существующих методов организации и поиска данных в правовых системах 27

1.3. Оценка эффективности ИПС. Задача совершенствования поискового аппарата компьютерных систем правовой информации 43

1.4. Выводы 60

Глава II. Разработка интерактивной экспертно-поисковой системы правовой информации на основе аппарата автоматизированного экспертного анализа парадигматических связей 61

2.1. Исследование модели предметной области 61

2.2. Разработка основных системологических соотношений для экспертно-технологического модуля АСПИ 76

2.3. Разработка аппарата автоматизированного экспертного анализа парадигматических связей между элементами массива базовой справочно-контекстной информации 91

2.4. Разработка интерактивной экспертно-поисковой системы правовой информации на основе аппарата автоматизированного экспертного анализа парадигматических связей 100

2.5. Выводы 107

Глава III. Разработка моделей и алгоритмов интерактивной экспертно-поисковой системы справочно-правовой информации ... 108

3.1. Разработка физических моделей организации экспертного модуля интерактивной экспертно-поисковой системы 108

3.2. Модель технологического процесса объединения эквивалентных словоформ в замкнутые контуры для четких и нечетких множеств элементов функционирующего контекстного массива 116

3.3. Исследование эффективности модели организации данных интерактивной экспертно-поисковой системы 132

3.4. Выводы 146

Заключение 147

Литература 148

Введение к работе

Актуальность темы. В 1993 году в утвержденной Указом Президента Российской Федерации от 28.06.93 г. №966 "Концепции правовой информатизации России" отмечалось, что "Стремительное качественное обновление общества, становление рыночной экономики, построение демократического правового государства - эти и многие проблемы выдвигают на первый план решение глобальной задачи - формирования в России единого информационно-правового пространства, обеспечивающего правовую информированность всех структур общества и каждого гражданина в отдельности, ибо правовая образованность необходима, чтобы расти в условиях демократии", и далее: "Проблема в том, что государство не только не предоставляет гражданам возможность получать информацию о действующем законодательстве, но и само не располагает достаточно эффективными системами правовой информации".

Для решения глобальной задачи формирования в России единого информационно-правового пространства Концепцией были сформулированы основные цели правовой информатизации:

информационно-правовое обеспечение внутренней деятельности органов государства;

информационно-правовое обеспечение внешних по отношению к государственным органам субъектов, с том числе физических лиц;

- сохранение и структурирование информационного правового поля.
Для достижения указанных выше основных целей правовой

информатизации Концепция предусматривала решение, в частности, таких задач, как развитие индустрии правовой информатизации, обеспечение использования общей коммуникационной среды, единого комплекса взаимосвязанных информационных технологий по ведению эталонных банков правовой информации, а также поддержка развития сферы правовых информационных услуг в условиях рынка.

Положения, закрепленные в Концепции, нашли свое отображение в тенденциях развития рынка информационно-правовых услуг, диктуемых динамичным развитием российского законодательства. В сравнительно <ороткий срок на рынке появились такие правовые системы, как "Эталон", 'Консультант", "Гарант", "Кодекс", "Юсис" и др. При работе с русскоязычными текстами документов разработчики вынуждены гталкиваться с трудностями, связанными с развитой флективностью языка.

В связи с вышеперечисленным возникает необходимость создания шпаратно-программного комплекса для структуризации линейной модели екстовой базы данных блоками, обладающими единой' внутренней :емантикой, что способствует повышению уровня интеллектуальности (тклика автоматизированных информационно-поисковых систем правовой гнформации. Такая задача решается в правовой информатизации России первые.

Цель работы. Целью диссертационной работы является разработка и
создание компьютерной системы обработки и хранения данных на базе
программно-технологического комплекса «ФОНД», обеспечивающей
повышение технико-экономических, семантических, и прагматических
показателей эффективности интеллектуального аналитического поиска в
массиве документов, накопленных в органах федерального, регионального и
местного управления. .

Для достижения указанной цели в диссертационной работе сформулированы и решены следующие задачи;

Определена система параметров' для технико-экономической, семантической и прагматической оценки эффективности информационно-поисковой системы по законодательству.

Определены основные системологические соотношения для экспертно-технологического модуля автоматизированной системы обработки правовой информации на основе грамматических закономерностей склонения.

Разработан аппарат автоматизированного экспертного анализа парадигматических связей между элементами функционирующего

. массива базовой справочно-контекстной информации (БСКИ).

Разработаны модели физической организации данных экспертно-технологического модуля АСПИ, обеспечивающие взаимодействие программно-технологического комплекса «ФОНД» с массивом замкнутых парадигматических контуров.

Разработана компьютерная математическая модель технологического процесса взаимодействия экспертного модуля системы с базовой справочно-контекстной информацией ПТК «ФОНД».

Разработан алгоритм объединения эквивалентных словоформ в замкнутые контуры для четких множеств элементов базового справочно-контекстного массива.

Разработана интерактивная экспертно-поисковая система справочно-правовой информации на базе программно-технологического комплекса «ФОНД».

Методы исследования. Аппарат автоматизированного экспертного анализа парадигматических связей между элементами функционирующего контекстного массива разработан на основе метода исследования грамматических характеристик словоизменения, методов математического моделирования, теории множеств, теории систем, методов организации файлов баз данных.

Объект исследования. Объектом исследования является центральный узел РИВС юстиции, функционирующий в Научном центре правовой информации при Минюсте России.

Научную новизну составляют:

  1. Математические модели экспертно-информационного представления объекта как системы грамматических правил. Предложена многомерная матричная модель системы парадигматических связей в виде декартового произведения пяти параметрических множеств, где параметрические множества характеризуют проявления свойств системы и отображаются операторами абстрагирования в индексные последовательности.

  2. Аппарат автоматизированного экспертного анализа парадигматических связей между элементами базового справочно-контекстного массива, обеспечивающий выполнение прямой и обратной задачи экспертной оценки. Под прямой задачей понимается структуризация справочно-контекстной информации блоками, обладающими единой внутренней семантикой, посредством экспертного модуля. Обратная задача аппарата состоит в определении гипотетических парадигматических схем для нечётких данных, не вошедших в полный замкнутый парадигматический контур, с принятием решения на уровне внешней экспертизы.

  3. Модели физической организации экспертного модуля интерактивной экспертно-поисковой системы, обеспечивающие принятие решений при организации поиска полной парадигмы. К ним относятся: модель схемы парадигмы как экспертного элемента парадигматических замыканий, модель списка схем парадигматических замыканий, модель организации флексий, модель инверсного списка соответствия экспертных кодов парадигматических схем конкретной флексии.

  4. Интерактивная экспертно-поисковая система на базе исходной модели предметной области АСПИ ПТК «ФОНД». В отличие от существующих ИПС для полнотекстовых баз данных, базирующихся на морфологическом анализе пользовательского запроса с использованием специализированных словарей, эта система основана на принципах экспертной оценки посредством модулей взаимосвязанных грамматических правил.

  5. Математическая модель технологического процесса объединения эквивалентных словоформ в замкнутые контуры. Формально процесс интерактивного экслертно-поискового моделирования (ЭПМ) содержит в себе этап экспертно-поискового моделирования для чётких данных и этап интерактивного ЭПМ для нечётких множеств элементов базовой справочно-контекстной информации.

Личный вклад автора. Все исследования,. изложенные в диссертационной работе, связанные с ними расчеты, теоретические выводы и практические рекомендации, получены лично автором. На основе системологических и математических методов автором разработан интерактивный экспертно-технологический комплекс, предназначенный для функционирования в составе ПТК «ФОНД».

Практическая ценность работы. Разработанные алгоритмы и математические модели позволили создать интерактивную экспертно-поисковую систему, обеспечивающую эффективное решение задач

формирования массива парадигматических замыканий на основе существующей модели данных АСПИ ПТК «ФОНД». При этом система не имеет сугубо правовой ориентации и может быть использована в качестве экспертно-поискового модуля многопрофильных полнотекстовых баз данных с линейной или теоретико-множественной индексацией.

Реализация результатов работы. Результаты работы нашли отражение в научных отчетах научно-технического совета НЦПИ Министерства юстиции РФ. Разработанная интерактивная экспертно-поисковая система функционирует в составе центрального узла РИВС юстиции на базе аппаратно-программного комплекса научного центра правовой информации «ФОНД» - компьютерном многомашинном комплексе для обработки правовой информации. Система «ПАРАДИГМА» используется для реорганизации индексного массива базовой справочно-контекстной информации в замкнутые семантически эквивалентные блоки, позволяющие повысить уровень интеллектуальности отклика системы при обработке запроса к базе данных правовой информации. Реализация результатов работы подтверждена соответствующими актами.

Апробация работы. Основные положения диссертационной работы докладывались и обсуждались на научно-технической Конференции профессорско-преподавательского, инженерно-технического состава и аспирантов МТУ СИ (Москва, 1997 г.), на XXV Международной конференции «Новые информационные технологии в науке, образовании, телекоммуникации и бизнесе» (г. Гурзуф, '1998 г.), на заседании научно-технического совета НЦПИ при Минюсте России (Москва, 1999 г.), на XXVI Международной конференции «Новые информационные технологии в науке, образовании, телекоммуникации, бизнесе и охране природных ресурсов» (г. Гурзуф, 1999 г.), на научном семинаре кафедры «Математического моделирования и информационных технологий» Запорожского государственного университета (январь, 2000 г.).

Публикации результатов. По теме диссертации опубликовано 6 печатных работ (из них 2 в соавторстве).

Структура и объем работы. Диссертация состоит из введения, трех глав с выводами, заключения, списка используемой литературы. Она включает 145 страниц машинописного текста, 25 рисунков и 27 таблиц. Список литературы включает 143 наименования.

Специфика развития правовой информатики как структурного элемента системы информатизации общества

Современный этап экономических и политических реформ, происходящих в России, характеризуется переходом к созданию новых основ технико-экономического базиса общества, важным компонентом которого является информатизация. Информатизация должна быть ориентирована на все возможные области деятельности отдельного человека, любого субъекта рынка и государства. Информатизация предусматривает массовое использование информационных технологий во всех сферах деятельности человека, создание информационных систем, эффективно поддерживающих функционирование любой экономической, организационной и социальной структуры.

Процесс информатизации и создания информационной среды, охватывая материальное производство, социальную сферу, а также услуги, включает в себя: создание информационной техники и технологий, обеспечивающих производство, обработку и распространение информации; разработку инфраструктуры, обеспечивающей применение и развитие средств и процессов информатизации; производство самой информации, информационных продуктов и услуг.

Упрощенное понятие информации как сведений различного рода, передаваемых или предназначенных для передачи от одного человека к другому, вполне устраивало и теорию, и практику лишь до последнего времени, т.е. до появления кибернетики, применения мощной вычислительной техники, внедрения информационных сетей и банков данных. В настоящее время, когда роль информационных процессов резко возросла, и они приравниваются к непосредственным производительным силам общества, большое принципиальное значение получает проблема проникновения в сущность информации. Информационный процесс при этом целесообразно понимать как процесс отражения в живой природе, а информацию - как содержание этого отражения. Определяя информационный процесс как процесс отражения в живой природе, мы тем самым сразу выделяем по крайней мере три аспекта: наличие объекта и субъекта познания и их взаимодействия [64]. Объектом познания (источником информации) могут служить любые предметы и явления природы, включая и человеческое общество, из которых субъект познания (адресат) черпает информацию. Под адресатом понимается либо человек, либо кибернетическая система. В последнем случае человек выступает в роли метанаблюдателя. Согласно теории познания, отбор (выявление) информации является одной из наиболее важных составляющих информационного процесса. Какая бы цель ни стояла перед адресатом, она всегда предполагает определенное использование полученной от источника информации в текущий момент или в некоторые моменты в будущем. В связи с этим адресат в общем случае должен обладать следующими свойствами: 1. Иметь возможность перерабатывать информацию в соответствии с функцией цели, т.е. в нем предполагается наличие некоторого центра переработки информации (мозг, центральный процессор и т.п.); 2. Иметь выход для информации, что обеспечивает реализацию функции цели. Можно выделить следующие составляющие информационного процесса: 1. Отбор информации возникает на первой стадии информационного процесса и неразрывно связан с первичной переработкой - кодированием и конечным представлением. Отбор обеспечивается наличием свойства избирательности, которое позволяет выделять лишь существенную информацию. 2. Передача информации. Процесс передачи информации в том или ином виде является частью любого информационного процесса. В то же время в некоторых информационных системах передача информации является их основной функцией. Передача информации должна свести к минимуму задержку между моментами отправления информации и поступления ее к адресату. Значительно возросли требования также к достоверности передачи информации. В связи с все возрастающими потребностями возникает необходимость объединения вычислительных машин и комплексов в единую систему, что, в свою очередь, требует создания специальных сетей передачи данных. Проблема создания информационных сетей характерна не только в отношении передачи данных, она актуальна в настоящее время в отношении всех информационных потоков производственной сферы и общества в целом. 3. Переработка информации. Эта составляющая информационного процесса характеризуется наличием алгоритма (программ) переработки, массивов исходной и конечной информации - продукта переработки. 4. Хранение информации. Количество накопленных человечеством знаний растет во всё убыстряющемся темпе, и проблема хранения информации становится все более ощутимой. Она заключается не столько в том, чтобы успеть компактно зафиксировать информацию на каком-либо материальном носителе и обеспечить его сохранность в течение определенного срока. Главная сторона проблемы заключается в поиске необходимой информации. Уже сейчас имеются огромные запасы информации и большая часть ее не используется, так как поиск требуемых данных, выделение их из общих запасов представляет собой трудоемкую задачу. Для решения проблемы компактного хранения и оптимального поиска информации необходимы современные качественно новые методы и средства, отвечающие этим двум противостоящим критериям. 5. Выдача информации. Эта составляющая - конечный этап информационного процесса. Однако, говоря о конечном этапе, мы понимаем под этим окончание некоторого определенного цикла информационного процесса: отбор - передача - переработка - хранение - выдача. Процесс выдачи информации определяется целевой функцией, заложенной в соответствующем цикле информационного процесса. Если выходная информация (результат выдачи) предназначается человеку-оператору, возникают вопросы согласования выхода информационного процесса с рецепторным полем человека по физическим характеристикам, по количеству информации, форме представления выходного сигнала, количеству информации, которое может воспринимать человек в единицу времени [91].

Разработка основных системологических соотношений для экспертно-технологического модуля АСПИ

Поскольку тексты законодательных актов постоянно подвергаются изменениям (появление новых актов, внесение изменений и дополнений в ранее принятые акты, отмена действия нормативного акта и т.д.), то ключевые слова, являющиеся поисковыми образами документов, могут удаляться из массива КС или добавляться в него. Поэтому контекстный массив, создаваемый на основе текстов документов, является динамическим, и к нему применяются методы организации индекса для динамических файлов.

Для поиска актов, содержащих заданные словоформы или их части, в каждое поле записывается либо полное значение данного, задающего поисковые условия, либо его усечение справа (т.е. несколько начальных символов данного). В этом случае после начальных символов записываемого в поле данного ставится Критерий выдачи документов строится по следующей схеме: 1. Все поля карты запроса считаются связанными конъюнкцией (т.е. связкой "И"). Таким образом, документ соответствует запросу в целом, если соответствует ему по каждому полю. 2. Если значение любого поля КЗ, связанного дизъюнкцией (т.е. связкой "ИЛИ"), то документ признается соответствующим запросу по этому полю, если пересечение множества значений в поле РК и множество значений в соответствующем поле КЗ не пусто. 3. Если значения в поле КЗ связаны конъюнкцией, то документ признается соответствующим запросу по этому полю в том случае, когда множество значений поля КЗ является подмножеством множества значений соответствующего поля РК. Для поля "Текст" дополнительно могут быть определены типы связи: расположены последовательно, принадлежат одному предложению, принадлежат одному абзацу. Функции поиска нормативных правовых актов обеспечивают: - обработку запросов на поиск документов, дата принятия которых равна, больше или меньше значения, указанного пользователем, либо содержится в заранее заданном интервале; - обработку запросов на поиск нормативных правовых актов по усеченным справа значениям ИГР или регистрационного номера, присвоенного государственным органом, принявшим этот документ; - возможность указания множества значений в запросе на поиск по всем полям, кроме "ИГР". При множественном выборе обеспечивается возможность определения типа связи между значениями каждого атрибута (И, ИЛИ, НЕ); - интерпретацию и обработку запроса, в котором в поле "ЗАГОЛОВОК" задаются произвольные выражения, включающие не только требуемые термины, но также и связки И либо ИЛИ; - интерпретацию и обработку запросов, в которых в поле "ТЕКСТ" задаются не только требуемые термины, но также связки И, ИЛИ, НЕ, причем возможно ограничение области действия логической формулы одним предложением или одним абзацем; - сохранение запроса на жестком диске, загрузку и отображение на экране списка запросов с возможностью выбора и повторного использования для поиска документов любого из ранее сохраненных запросов; - отображение на экране ПЭВМ результатов поиска нормативных правовых актов в виде списка реквизитов найденных документов. Функции для работы со списками реквизитов документов обеспечивают: просмотр списка и его сохранение на жестком диске; исключение заголовка документа из списка и его обратное включение в список в случае ошибочного удаления; выполнение теоретико-множественных операций объединения, пересечения, разности и симметрической разности над списками, сформированными в результате обработки различных поисковых предписаний; группировку (кластеризацию) элементов списка по видам документов и по органам государственной власти; лексикографическую и хронологическую сортировку нормативных правовых актов как в целом списке, так и внутри выделенных в нем групп документов; создание рабочего списка пользователя "Личная папка"; переход из списка реквизитов найденных документов (или рабочего списка) в режим просмотра текстов документов, возврат к списку (или рабочему списку). На рис. 2.1.5. представлена обобщенная схема организации поиска данных информационно-поисковой системы «ЭТАЛОН».

Разработка интерактивной экспертно-поисковой системы правовой информации на основе аппарата автоматизированного экспертного анализа парадигматических связей

Массив базовых словоформ, элементы которого содержат указатели на полную парадигму, подвергается сортировке по возрастанию ключа, а затем переиндексируется, образуя многоуровневую симметричную Р-структуру, позволяющую организовать наиболее оптимальный с точки зрения скорости поиск. Указанный файл является динамическим, поскольку правовая база данных подвергается постоянным изменениям, связанным с постоянным обновлением законодательства, что может сказаться на составе массива БСКИ.

Эффект повышения скорости поиска информации достигается за счет уменьшения порядка Р-дерева вследствие замены общего списка ключевых слов массивом базовых (исходных) словоформ.

На рис. 2.4.4 изображена логическая организация данных, формируемых интерактивной экспертно-поисковой системой на базе исходной модели предметной области ИПС «ЭТАЛОН».

Задача обеспечения повышения полноты и точности выдачи правовой информации выполняется непосредственно за счет объединения эквивалентных словоформ в единую самостоятельную структуру словоизменения (см. рис. 2.3.4 и 2.4.4).

При использовании указанной структуры для логической организации данных интерактивной ЭПС поиск по усечениям справа для нахождения всех словоформ может не использоваться. ИПС, построенная на основе разработанного аппарата автоматизированного экспертного анализа парадигматических связей, включающего прямую и обратную задачу преобразования, по желанию пользователя сможет найти тексты нормативных правовых актов, содержащих одну требуемую словоформу или полную парадигму указанного пользователем слова.

Разработанная многомерная матричная модель системы парадигматических связей, представляющая систему общих экспертно-информационных закономерностей склонения в виде декартового произведения пяти параметрических множеств, является основой экспертного модуля и позволяет однозначно определить проявления свойств системы для организации замкнутых парадигматических контуров склонения.

Предложенный аппарат реорганизации модели данных включает в себя процесс работы с четкими и нечеткими данными. Поскольку процедура работы с четкими данными позволяет однозначно определять полное парадигматическое замыкание, а нечеткие данные, предполагающие отсутствие полноты информации, требуют внешнего экспертного вмешательства, то процесс завершения полного формирования модели нуждается в организации интерактивного экспертного блока. Таким образом, аппарат формирования парадигматических замыканий предполагает использование принципов решения прямой и обратной задачи экспертной обработки данных.

Прямая задача представляет собой последовательный выбор схемы парадигмы из экспертного блока и определение в массиве БСКИ всех полных парадигм, соответствующих выбранной схеме. Обратная задача аппарата автоматизированного экспертного анализа состоит в определении гипотетических парадигматических схем на основе экспертного анализа словоформы, не вошедшей в полный замкнутый парадигматический контур.

Совокупность функционирующей модели предметной области АСПИ и разработанных блоков системы, а именно: экспертного модуля, аппарата автоматизированного экспертного анализа парадигматических связей и системы обработки запроса, позволила создать интерактивную экспертно-поисковую систему правовой информации.

Разработка физических моделей организации экспертного модуля интерактивной экспертно-поисковой системы

Как известно, выбор представления данных часто является довольно трудной проблемой, поскольку не определяется однозначно доступными средствами. Всегда необходимо принимать во внимание и операции, которые выполняются над этими данными [8, 20, 29, 55]. Программные средства должны обеспечивать по возможности более полное разделение физической организации данных и их логической организации так, чтобы физическую организацию данных можно было бы изменять частично или целиком не вызывая при этом прикладных программ [56, 63].

Наряду с этим базы данных должны удовлетворять следующим основным требованиям: возможностью представления внутренней структуры данных; производительностью, обеспечивающей интерактивность; минимальностью затрат на создание и эксплуатацию базы данных; минимизацией избыточности данных; обеспечением возможности поиска данных; целостности данных и др.

С учетом изложенного предлагается разработка системы данных для информационно-поисковой системы «Эталон». Она обеспечивает взаимодействие основных видов моделей, посредством которых реализуются цели повышения уровня интеллектуальности поиска нормативной и ненормативной правовой информации. К ним относятся: - исходная модель структуры взаимосвязи массива БСКИ с массивом соответствия, - модель замкнутой структуры полной парадигмы, - модель структуры списка парадигматических замыканий для четких и нечетких данных, - модель схемы парадигмы как экспертного элемента парадигматических замыканий, - модель списка схем парадигматических замыканий, - модель организации флексий, - модель инверсного списка соответствия элементов парадигматических схем конкретной флексии, - модель организации поисковой структуры в виде симметричного р-дерева. Поскольку задачей является повышение уровня интеллектуальности поиска документальной информации, содержащейся в базе данных информационно-поисковой системы «Эталон», предложенный метод построен на перегруппировке существующей структуры, описанной в п. 2.1 на основе разработанной модели экспертно-технологического модуля центрального узла РИВ С юстиции, описанной в п. 2.2. Существующую структуру, подлежащую перегруппировке, определим как исходную модель структуры взаимосвязи списка КС с массивом соответствия.

Для решения поставленной задачи формирования списка парадигматических замыканий для четких и нечетких данных, представленного в виде модели в п. 2.3., предлагается использовать интерактивную экспертно-поисковую систему. Эта система основана на взаимодействии экспертно-лингвистических моделей, обеспечивающих выполнение прямой и обратной задачи, состоящих в однозначном выявлении множества групп эквивалентных словоформ, соответствующих определенной парадигматической схеме, и наоборот: для каждого элемента списка КС определить соответствующее его типу множество парадигматических схем.

Системологическое представление моделей, используемых в системе интерактивного экспертного поиска, было описано в п. 2.2. Рассмотрим их физическое представление на основе общих требований к организации подобных структур [84, 118, 138].

Общие принципы организации данных на физическом уровне отображены на рис. 3.1.1. Специфика физического формирования данных связана с принципами последовательной организации информации, при которой первому блоку отводится информация о структуре хранения последующих блоков. Тогда для локализации записи не обязательно вести поиск во всем файле, поскольку существует возможность иным способом найти небольшую область, содержащую искомую запись, и поиск вести только в этой области.

Согласно общим принципам построения структур данных с различной размерностью блоков, количество переменных, содержащих информацию о размерности блоков, соответствует количеству блоков [49, 117].

Второй блок структуры отражает содержание блока в обобщенном виде. Организация данных предполагает последовательное хранение этих блоков. Данная структура позволяет избежать избыточности информации и организовать прямой доступ к искомой ячейке необходимого блока путем поиска посредством математических формул.

В первом блоке структуры содержится информация о количестве окончаний, начинающихся с одного символа. Согласно таблице 2.2.13, общее количество характерных букв окончаний равно 9, поэтому количество блоков известно и не требует хранения этих сведений в структуре файла.

Организация данных в блоке также предполагает определенную степень сжатия данных, обеспечивающую отсутствие избыточной информации. Первый элемент каждого блока содержит характерное односимвольное окончание, с которого может начинаться ряд других флексий. Этот символ предполагается хранить только в этой ячейке как базовый элемент для подключения к нему двух остальных символов окончания (согласно таблице 2.2.13 максимальное количество символов во флексии склоняемых словоформ равно 3-м).

Элементы В2 и В3 предполагают хранение только недостающих одного или двух символов флексии. Если полная флексия состоит из двух букв, элемент В3 равен нулю.

Такая блочная организация данных с фиксированным размером блока позволяет формализовать поиск необходимого флексического образования с помощью двузначного десятичного кода: первое значение кода несет информацию о номере искомого блока, где первым элементом является характерная однобуквенная флексия; второй элемент кода определяет положение искомой пары элементов в блоке.

Похожие диссертации на Исследование структур и разработка интерактивной экспертно-поисковой системы правовой информации