Методы, модели и алгоритмы декомпозиции, синтеза и использования информации в фактографических информационно-поисковых системах Ворошилов Виталий Витальевич

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Ворошилов Виталий Витальевич. Методы, модели и алгоритмы декомпозиции, синтеза и использования информации в фактографических информационно-поисковых системах: диссертация ... кандидата Технических наук: 05.13.01 / Ворошилов Виталий Витальевич;[Место защиты: ФГАОУВО Самарский национальный исследовательский университет имени академика С.П. Королева], 2016.- 172 с.

Содержание к диссертации

Введение

ГЛАВА 1 Анализ проблематики и постановка задачи 11

1.1 Анализ информационных систем обеспечения поисковой деятельности в интернете 11

1.2 Анализ информационных систем мониторинга поисковой деятельности 22

1.3 Постановка проблемы использования информации в фактографических информационно-поисковых системах 27

1.4 Выводы и результаты первой главы 29

ГЛАВА 2 Метод организации и управления поисковой фактографической деятельностью 31

2.1 Особенности фактографического поиска информации 31

2.2 Метод формирования, наполнения и развития ФБД 34

2.2 Метод использования ФБД при поиске фактографической информации 35

2.4 Метод подготовки пользователей, мониторинга и поддержки фактографического поиска с использованием ФБД 38

2.5 Выводы и результаты второй главы 46

ГЛАВА 3 Математические модели и алгоритмы 48

3.1 Основные обозначения 48

3.2 Модели оптимального формирования выдаваемой пользователю информации на основе лексем поискового запроса в линейной и табличной форме 52

3.3 Модели оптимального формирования выдаваемой пользователю информации с оптимальным расширением поискового запроса в линейной и табличной форме

3.4 Сводные математические модели 71

3.5 Линейные модели систематизации информации 73

3.6 Эвристический алгоритм поисковой деятельности пользователя по получению пертинентной информации 83

3.7 Выводы и результаты третьей главы 85

ГЛАВА 4 Реализация и анализ эффективности Реализация и анализ

4.1 Структура инфокоммуникационной системы и основные проектные решения 87

4.2 Структура БД 94

4.3 Основные алгоритмы 97

4.4 Основные интерфейсы 104

4.5 Внедрение и анализ 116

4.6 Выводы и результаты четвертой главы 150

Заключение 152

Список литературы

Анализ информационных систем мониторинга поисковой деятельности
Метод использования ФБД при поиске фактографической информации
Модели оптимального формирования выдаваемой пользователю информации с оптимальным расширением поискового запроса в линейной и табличной форме
Основные интерфейсы

Введение к работе

Актуальность темы исследования

Современный период развития информационного общества характеризуется лавинообразным нарастанием объема информации как в больших базах данных («big data»), так и в разнообразных других источниках, доступных пользователю через интернет. Все большую часть этой информации составляет фактографическая информация, в первую очередь, числовые данные, извлекаемые из первичных или вторичных документов, либо непосредственно из источников их возникновения. Ее эффективное использование становится одной из важнейших задач, стоящих перед человечеством.

В решение этой задачи, в области методов системного анализа, исследования операций, управления сложными организационно-техническими системами, внесли вклад работы таких отечественных и зарубежных ученых, как Оптнера С.Л., Глушкова В.М., Моисеева Н.Н., Пиявского С.А., Малышева О.И., Канторовича Л.В., и др. В области теории научной и технической информации (в части построения автоматизированных информационных систем и баз данных) внесли вклад работы таких отечественных и зарубежных ученых, как Гиляревского Р.С., Михайлова А.И., Черных А.И., Минакова И. А., Vannevar Bush, Sibley E.H., Codd E.F., Chen P.S., Taylor R.W., Frank R.L., Kim Won, Delobel C., Sundgren В., Mylopoulos J., Childs D.L., Halassy В. В области информационного поиска и поиска фактографической информации известны труды Тимоти Бернас Ли, Авакяна К.А., Аносова В.В., Надь П., Кристальных Б.В., Ильиченко А.И., Koblitz J., Клейнова Л., Jan Kowski L., Stys T., Beck L., и др. Практические результаты в области поиска информации нашли отражение в широко известных информационно-поисковых системах таких компаний, как AltaVista, Yahoo, Google, Microsoft, Яндекс, WolframAlpha, Нигма, TheBrain Technologies, и

Что же касается поиска фактографической информации, ситуация является не столь благополучной. Поиск в жестко структурированных корпоративных базах данных ограничен их структурой и не позволяет выявлять актуальную информацию, циркулирующую в сети, и не включенную в рубрикаторы этих баз. Такая информация рассеяна в текстовых документах и с трудом выделяется пользователями, к тому же в неструктурированном виде. Неудовлетворительное положение складывается и с использованием фактографической информации в междисциплинарных предметных областях, поскольку представляющие интерес факты находятся в различных структурно несовместимых корпоративных базах данных и пользователю приходится затрачивать значительные усилия и время на их совместное использование.

Поэтому задача разработки новых форм и методов организации

фактографической информации в информационно-поисковых системах и ее представления для удовлетворения поисковой потребности пользователей имеет высокую актуальность.

Целью диссертационной работы является повышение эффективности поиска фактографической информации, циркулирующей в информационных сетях в источниках различного вида, за счет специальной организации деятельности по созданию и использованию фактографических баз данных и трансформации в табличной форме выдаваемой пользователю информации.

Задачи исследования. Для достижения поставленной цели решаются следующие задачи:

1) разработка метода организации и использования фактографической

информации на основе ее декомпозиции и последующего синтеза в фактографических информационно-поисковых системах;

разработка комплекса математических моделей, обеспечивающих оптимальную систематизацию выдаваемой пользователю фактографической информации в виде активно моделируемых им двух- и многомерных таблиц;
разработка эвристических алгоритмов поисковой деятельности пользователя по получению пертинентной (удовлетворяющей его информационную потребность) информации в виде активно моделируемых им двух- и многомерных таблиц;
разработка информационной системы, реализующей специализированную инфокоммуникационную среду и обеспечивающей поддержку и управление фактографической поисковой деятельностью на основе метода декомпозиции и систематизации фактографической информации.

Объект исследования - поисковая деятельность различных акторов (разработчиков, администраторов и конечных пользователей) в информационных сетях.

Предмет исследования - фактографическая поисковая деятельность различных акторов (разработчиков, администраторов и конечных пользователей) в информационных сетях.

Методы исследования. В диссертации использованы методы системного анализа, исследования операции, документалистики, теоретической информатики, математического моделирования, оптимизации, объектно-ориентированного проектирования систем, теории реляционных баз данных, проектирования информационных систем, методы обучения, педагогики высшей школы.

Научная новизна работы содержится в следующих результатах:

новый метод организации, поиска, систематизации и использования фактографической информации, отличающийся от аналогичных методов дезинтеграцией источников информации на элементарные фактографические единицы и последующим оптимальным синтезом информации в ответ на поисковый запрос в виде двух- и многомерных таблиц, что позволяет повысить пертинентность ответа за счет устранения содержащейся в источниках информации не фактографических сведений и систематизации выдаваемой информации в наиболее удобном для осмысления и использования виде, а также специальной методикой подготовки пользователей;

комплекс новых оптимизационных математических моделей в ранее не рассматривавшихся задачах систематизации фактографической информации: формирование наиболее информативных блоков, формирование двумерной и многомерной таблицы, формирование систем двумерных таблиц, планирование поиска дополнительной информации; позволяющих представлять релевантную поисковому запросу информацию в наиболее компактном и доступном для осмысления виде;

новый эвристический алгоритм организации деятельности пользователей по поиску наиболее релевантной и полной информации в интересующей их предметной области;

структурные элементы специализированной инфокоммуникационной среды, реализующей фактографическую поисковую деятельность, отличающейся использованием оптимизационных алгоритмов и расширением спектра моделирования воспринимаемой пользователем информации.

Теоретическая значимость исследования состоит в новом методе организации фактографических информационно-поисковых систем на основе дезинтеграции источников информации на элементарные фактографические единицы с последующим оптимальным синтезом информации в табличной форме и в системе математических оптимизационных моделей, позволяющих осуществлять этот синтез.

Практическую значимость имеют разработанные инфокоммуникационная поисковая система декомпозиции и интеллектуального синтеза фактографической информации, и система поддержки поисковой деятельности пользователя.

Результаты работы внедрены в ООО «Си Кью Джи Ай Рус», в научную деятельность и учебный процесс кафедры информационных и развивающих образовательных систем и технологий Самарского государственного архитектурно-строительного университета, о чем свидетельствуют акты реализации. В текущее время результаты работы внедряются в ЗАО «НИЦ ФОРС», ЗАО «ИНТЕГРА-С», в учебный процесс кафедры конструкции и проектирования летательных аппаратов Самарского национального исследовательского университета имени академика С.П. Королева.

На защиту выносятся:

Новый метод организации, поиска, систематизации и использования фактографической информации;
Математические модели систематизации фактографических данных в специализированной инфокоммуникационной среде;

3. Эвристический алгоритм организации фактографической поисковой
деятельности пользователей;

4. Структурные элементы специализированной фактографической
инфокоммуникационной среды для поисковой деятельности в сети.

Достоверность полученных результатов обусловлена непротиворечивостью и полнотой исходных предпосылок, корректным использованием аналитических и расчетных методов, сопоставимостью результатов теоретического исследования и математического моделирования с экспериментальными данными.

Таким образом, диссертация соответствует требованиям п. 12 «Визуализация, трансформация и анализ информации на основе компьютерных методов обработки информации» паспорта научной специальности 05.13.01, а также п.п. 1, 2, 3, 4, 5.

Апробация работы. Научные и практические результаты диссертационной работы
докладывались и обсуждались на международной научно-практической конференции с
элементами научной школы для молодежи «Развитие творческого потенциала студентов в
компетентностной парадигме высшего образования с использованием информационных
технологий, Творческий потенциал – 2011» (Самара 2011); международной конференции
«Системный анализ, управление и навигация» (Евпатория 2011, 2016); XVI
всероссийской объединенной конференции «Интернет и современное общество» (Санкт-
Петербург 2013); II международной научно-практической конференции «Социально-
гуманитарные проблемы современности: человек, общество и культура» (Красноярск
2013); международной научно-технической конференции «Перспективные

информационные технологии (ПИТ 2016)» (Самара 2016).

Публикации. Основные результаты диссертации представлены в 19 публикациях, в том числе 6 изданиях, рекомендованных ВАК РФ для публикации результатов докторских и кандидатских диссертаций.

Структура и объем работы. Диссертационная работа состоит из введения, четырех глав основного материала и заключения, изложенных на 152 страницах; списка литературы из 159 наименований и одного приложения.

Анализ информационных систем мониторинга поисковой деятельности

Институт статистики ЮНЕСКО (ИСЮ) является статистическим филиалом Организации Объединенных Наций по вопросам образования, науки и культуры. Институт предоставляет данные и методики для отслеживания тенденций на национальном и международном уровнях. Он обеспечивает сравнительные данные для стран на всех стадиях развития, чтобы обеспечить глобальную перспективу по образованию, науке и технике, культуре и коммуникации. Сайт института статистики ЮНЕСКО позволяет проводить фактографический поиск по средствам построения необходимой пользователю двумерной таблицы: для этого нужно выбрать область (образование, культура и др.), выбрать индикаторы, выбрать страны, выбрать временной период и построить формат результирующей таблицы (определить строки и столбцы).

Таким образом, даже наиболее крупные фактографические поисковые системы представляют собой просто совокупность жестко структурированных двумерных таблиц с ограниченным числом параметров. Обеспечивая в какой-то мере информационных потребностей узких специалистов в определенных отраслях, они совершенно не приспособлены для оперативного отображения информации по новым возникающим направлениям. Что касается широкого круга пользователей, работающих в междисциплинарных областях, то интересующая их частная информация выдается с большим информационным шумом, препятствующим ее осмыслению и систематизации. Лишь в последние годы появились попытки разработки специальных технологий работы с фактографической информации в автоматизированной информационной среде.

Поисковый сервис Яндекс в последнее время включает функцию, которая находит моментальные ответы на запросы о фактах и цифрах. Цифры и факты появляются в подсказках по запросам, на которые можно дать короткий однозначный ответ. В настоящее время ответ в подсказках реализован только в русскоязычной версии поиска. Сейчас у Яндекса есть готовые ответы на самые часто задаваемые запросы по наиболее популярным темам. Это коды стран и городов, столицы, валюты, химические формулы, имена писателей и другие темы.

Так, например, по запросу «длина реки Волга» Яндекс выдает ответ (3530 км), а затем обычный для документальных систем ранжированный перечень 2 млн. документов, содержащих соответствующие лексемы. Аналогично ответ (4248 км) он выдает на запрос «длина реки Иртыш». Однако на запрос «длины рек Волга и Иртыш» поисковик прямой фактографической информации не выдает, ограничиваясь перечнем документальных источников.

В поисковом сервисе Google имеется такая же возможность (правда на тот же запрос выдается близкий, но другой ответ: 3692 км), также не выдается фактографической информации на поиск длины двух рек. Кроме того, в Google существует логический оператор для поиска по конкретному числу или числовому диапазону (чтобы найти страницы, содержащие число в нужном диапазоне (например, даты, цены, размеры), нужно разделить первое и последнее число диапазона двумя точками без пробелов).

Например введя известную пользователю длину реки Волги (3530 км или 3692 км) поисковик в первом случае приводит ранжированный перечень 45 млн документированных источников где в числе наиболее релевантных фигурируют модель телефона Samsung 3530, МФУ Epson WorkForce WF-3530, а река Волга вообще не упоминается, а во втором случае указывает ряд источников с восточными иероглифами, а река волга в числе наиболее релевантных источников также не фигурирует.

Приведенные сведения показывают осознанный интерес ведущих информационных игроков к реализации фактографического поиска в сети интернет, но в тоже время демонстрируют полное отставание в этом направлении. К числу специализированных фактографических информационно-поисковых систем относятся разработки недавнего времени поисковые системы Wolfram Alpha и Нигма.рф. Wolfram Alpha Wolfram Alpha — база знаний и набор вычислительных алгоритмов (англ. computational knowledge engine) [98-103]. Не является документальной поисковой системой. Wolfram Alpha не возвращает перечень ссылок, основанный на результатах запроса, а вычисляет ответ, основываясь на собственной базе знаний, которая содержит данные о математике, физике, астрономии, химии, биологии, медицине, истории, географии, политике, музыке, кинематографии, а также информацию об известных людях и интернет-сайтах. Wolfram Alpha не использует веб-материал, как другие поисковики, в основе Wolfram Alpha лежит собственная база знаний, основанная на лицензионном контенте, пополняемая сотрудниками компании Wolfram Research. На момент запуска системы в общий доступ на серверах компании уже хранилось более 10 триллионов отдельных фрагментов данных. Важно, что компания Wolfram Research помимо подготовки данных также занимается проверкой их достоверности, персонал работает с экспертами в различных областях, чтобы решить, какие источники являются лучшими. В случаях разных результатов на один запрос система покажет все результаты с указанием соответствующего источника. В настоящее время система обрабатывает запросы только на английском языке.

Метод использования ФБД при поиске фактографической информации

Таким образом, в основе автоматизированного фактографического поиска должна лежать специальным образом организованная база данных фактографической информации (ФБД), представляющая собой совокупность фактов фактографической информации [105]. Система управления такой ФБД должна обеспечивать пополнение БД с выявлением тавтологической и противоречивой информации, а также выдачу, по определенному запросу пользователя, релевантной фактографической информации как в не систематизированном виде (набор фактов упорядочениях по релевантности), так и систематизированной (в виде наиболее плотно заполненных двумерных таблиц). Использование такой формы фактографического поиска требует специального обучения пользователей, а это обучение может проходить достаточно эффективно лишь с использованием специальной информационной системы, позволяющей контролировать работу пользователей.

Метод формирования, наполнения и развития ФБД На основе вышеизложенной структуры данных был разработан метод формирования фактографической базы данных, представленная на рисунке 2.4.

Схема метода формирования, наполнения и развития фактографической базы данных (ФБД) Предлагаются три канала формирования ФБД. Первый из них - пополнение ФБД службой сопровождения БД, оно включает в себя формирование и пополнение базовых наборов лексем, характеризующих различные предметные области, т.е. прямое пополнение тезауруса системы базовым набором характеризующих предметную область. поиск Второй канал пополнения - это автоматизированный фактографической информации, ее индексирование и ввод в ФБД, который _. „ _ „,„„ „. „м.,ф, „_ „», —zz :,исковой деятельности пользователей системы,.а также запросам, составленным методологической службой сопровождения и состоящим дезинтеграция единиц фактографической информации, их индексирование и сохранение в ФБД. Третий канал - это пополнение ФБД в процессе ее использования: —: ж:і:гм=т:ф-—вой фактографическому поиску на основе ФБД. 2.2 Метод использования ФБД при поиске фактографической информации Использование ФБД происходит посредством выполнения пользователем следующих этапов (рисунок 2.5): лексе в виде указания поисковой строки; o в виде указания набора поисковых лексе ; zмzыzфм 36 = итнх араетров: размер получаеог резул предлагает - проведение первичного анализа полученной информации с воз о ность ностью расшизить область поискаP.,m Блок с и Формирование поискового запроса в виде поисковой строки Пользователь Формирование поискового запроса в виде набора лексем из словаря системы Выбор сохраненного поискового запроса Математические модели формирования двух- и многомерных таблиц наибольшей информативности при фиксированном наборе лексем Математические модели оптимального формирования выдаваемой пользователю информации с оптимальным расширением поискового запроса Эвристический алгоритм последовательного формирования выдаваемой информации А Задание параметров на выдачу информации ФБД _ Блок активного моделирования выдаваемой информации Пополнение ФБД Поиск информации в интернете Анализ информации в таблицах на предмет ее наполненности Первичный анализ результатов запроса Варьирование параметров выдачи \fФБД - Использование информации Рисунок 2.5 - Схема информации Для использования системы, вначале, пользователю необходимо Далее необходимо задать лимитные параметры выдачи фактографической ини альное значение количества количества фактов в выдаваемом результате; фактов в выдаваемом результате; максимальное значение количества лексем при поиске информации в ФБД; - минимальное значение количества лексем при поиске информации в ФБД.

После указания параметров выдачи проводится поиск в ФБД и в результате представляется фактографическая информация в виде набора максимально Затем, варьируя параметрами выдачи, пользователем проводится первичный анализ информации в таблицах на предмет ее наполненности, с в ы елением недостающей информации из таблиц cri:r::i :z средств и сервисов. И добавление новой найденной информации с указанием рез у JX-Т K\, A. \м . .Jымrr»организован»:i :мri:rr жм упорядоченного по релевантности к лексемам поискового запроса; - формирование по поисковому запросу максимально информативного кластера информации ограниченного размера без учета и с учетом уровня ф— учетом уровня осведомленности пользователя; информативного набора фактов без учета и с учетом уровня осведомленности поль з ователя; наиболее эффективных направлений дополнительного . - выявление максимально информативных «кфтов и лексем и введение на этой основе новых синтезирующих понятий. 2.4 Метод подготовки пользователей, мониториг м ФБД"н „rir;z:м:z:rы ыш;ыx:ы ой результаты их поиска в отличие от обычных пользователей оказывает влияние не только на их жизнь, но через производимый ими продукт трудовой деятельности на жизнь всего общества. Поэтому составной частью предлагаемого метода является система формирования фактографических поисковых компетенций. Ее структурная схема показана на рисунке 2.6.

В современных подходах подготовки пользователей активно используются инфокоммуникационные системы [115-121] и математическое моделирование [122, 123] для контроля (с использованием сети интернет и мобильных устройств [124-126]) и управления процессом подготовки [124-127] и деятельностью обучаемых [128-133].

Вначале обучаемым читается лекция, в которой излагаются основные положения фактографического поиска с использованием фактографических баз данных. Затем тьютором раздаются персональные задания на поиск фактографической информации по определенной, индивидуальной тематике. Отметим, что эти задания различны, но относятся к общей глобальной тематике. После получения задания, обучаемыми, во взаимодействии с преподавателем, формируются основные перечни лексем, характеризующие поставленную задачу. Затем с этим набором лексем проводится первоначальное обращение к ФБД и получением от нее фактографической информации в виде простого линейного информационного потока, т.е. некого набора фактов, где каждый факт описывается набором лексем. Далее под контролем тьютора, обучаемыми выполняется систематизация полученного набора фактов в виде максимально заполненных таблиц. Отметим, что участие тьютора на этом этапе играет очень важную роль, так как анализ и систематизация фактографической информации в виде максимально заполненных таблиц для пользователя представляет собой не тривиальную и сложную задачу. Далее обучаемыми проводится повторное обращение к ФБД и с использованием разработанных средств на запросы обучаемого выдаются уже построенные максимально заполненные таблицы, которые под контролем тьютора необходимо сопоставить с построенными вручную таблицами. В результате, на этом этапе, формируется результирующий набор таблиц, содержащий неполную информацию.

Модели оптимального формирования выдаваемой пользователю информации с оптимальным расширением поискового запроса в линейной и табличной форме

Спецификой фактографических поисковых систем является значительно больший объем единиц информации, выдаваемой на поисковый запрос, по сравнению с документальными информационно-поисковыми системами. Это естественно, так как если, к примеру, найденная в базе данных таблица, содержащая десять строк и пять столбцов, выдается документальной информационно-поисковой системой как одна единица информации, то для фактографической информационно-поисковой системой аналогичный по содержанию объем данных будет представлен 50 единицами данных, так как каждое данное выдается отдельно в соответствие с его релевантностью в отношении поискового запроса. Поэтому, для того, чтобы выданная фактографической ИПС информация могла быть осмыслена пользователем необходимо систематизировать ее, объединив в некоторые блоки, обладающие внутренней ценностью и интегрирующая в себе наиболее релевантную фактографическую информацию.

Такой блок будем называть кластером. Вообще говоря, под кластером (англ. cluster; нем. Cluster.) понимается класс родственных элементов совокупности [146]. В [147] под кластером понимается «совокупность (скопление) однотипных объектов (например, звездное скопление, атомный и молекулярный кластеры). На основе кластеров образуются так называемые (искусственные) кластерные материалы — сверхпроводники, в том числе высокотемпературные, полупроводники, полимеры со специальными свойствами и т. д.». В Википедии [114] кластер — это объединение нескольких однородных элементов, которое может рассматриваться как самостоятельная единица, обладающая определёнными свойствами. Например, в информационных технологиях: Кластер как подмножество результатов поиска, связанных единством темы.

В диссертации далее под кластером понимается определенный набор фактов и связанный с ним набор лексем, описывающий соответствующие факты. Фигурально говоря, кластер является молекулой ФБД, в которой факты соединены связями, определяемыми совпадающими лексемами.

В дальнейшем в диссертации будет решен ряд задач, связанных с выделением из общей фактографической базы данных единственного выдаваемого пользователю кластера, обладающего неким экстремальным свойством. Это свойство характеризуется близостью фактов кластера, если понимать под близостью меру совпадения лексем, входящих в их описание. Отличие этой задачи от обычной задачи кластеризации состоит в том, что не требуется разбивать на кластеры всю исходную совокупность. Поэтому обычные методы кластеризации, например, к-средних, здесь не применимы, а используются общие методы оптимизации, построенные на идеях линейного и нелинейного программирования и требующие разработки специальных оптимизационных математических моделей.

Для количественной оценки степени заполненности кластера введем понятие его информативности. Под информативностью лексемы относительно кластера будем понимать отношение числа фактов, в описании которых содержится данная лексема, к общему числу фактов в кластере. В таком понимании понятие информативности можно интерпретировать как частота встречаемости лексемы в фактах кластера. Однако мы не используем термин частота встречаемости, поскольку традиционно он связывается с частотой встречаемости лексем в достаточно больших кодифицируемых словарях, что может приводить к неверному пониманию смысла понятия в контексте диссертации.

Информативностью кластера будем называть среднюю информативность относительного данного кластера всех лексем, входящих в описание хотя бы одного из фактов этого кластера.

Систематизация фактографической информации выдаваемой пользователю в рамках разрабатываемой технологии будет нацелена на формирование кластера обладающего максимальной информативностью, поясним ценность такого подхода. Фактографическая БД потенциально содержит огромное количество фактов в описание которых входят лексемы из поискового запроса пользователя.

Для удобства представления информации, содержащейся в ФБД большое значение, имеет возможность использования более емкой табличной формы описания кластера. В такой таблице заголовки строк и столбцов должны содержать названия лексем, а клетки – числа, входящие в факт информации, описание которого включает лексемы, отвечающие соответствующей строке и столбцу. Остальные лексемы, входящие в описание данного факта, являются дополняющими и приводятся в шапке таблицы или примечании к данной Например, кластер приведенный в таблице 3.2, можно представить в виде следующей двумерной таблице (таблица 3.3), которая более удобна для восприятия пользователем.

Основные интерфейсы

Основными таблицами в ней являются таблицы для хранения фактов и лексем. Для каждого факта в таблице Atom хранятся значения: уникального идентификатора, числовое значение, его размерность и источник, откуда было получено это значение, это может быть ссылка, название документа, печатного издания. Отметим, что значение должно быть числовым только в рамках поставленной нами задачи, физически в базе данных это может быть, как числовое, так и текстовое значение. Значение размерности хранится в отдельной таблице справочнике и используется в таблице фактов по значению уникального идентификатора. Справочник размерностей пополняется и редактируется только методологом системы, это позволяет вести контроль над пополнением и изменением списка размерностей. Значение источника хранится в отдельной таблице, с указанием названия и ссылки на него в интернете или библиотеке, а в таблице фактов используется его уникальный идентификатор.

Для каждой лексемы в таблице Lexeme хранятся следующие значения: уникальный идентификатор лексемы, ее название и ссылка на элемент из тезауруса системы, т.е. под лексемой понимается форма самостоятельного элемента тезауруса. Это позволяет избежать избыточности и учета различных словоформ, например, суффиксов, предлогов и т.д. Каждая лексема связана с другой лексемой различными семантическими связями, т.е. для каждой лексемы могут быть указаны все возможные ее связи с другими родственными по теме лексемами. Для хранения видов связей используется таблица Relation, в которой для каждого вида связи указывается название, описание и приоритет. Соответственно хранения связи лексемы с лексемой используется вспомогательная таблица Lexeme_Lexeme, реализующая отношение многие ко многим. т.е. «у одного Для соответствия факта набору лексем используется вспомогательная таблица Atom_Lexeme, реализующая отношение один ко многим, факта есть много лексем». логическая модель [149, 150] база данный На рисунке 4.4 показана подготовки пользователей.

Из основных таблиц этой базы данных отметим таблицы для хранения информации о обучающих, тьюторах и заданиях для выполнения. Для хранения информации о обучаемых используется таблица Student в которой представляются следующие значения: фамилия, имя обучаемого, его логин, пароль для авторизации в системе, номер группы, адрес электронной почты и телефон. По каждой успешной авторизации обучаемого ведется логирование времени авторизации, таблица AuthorizationLog, эта информация необходима для отслеживания тьютором времени пользования системой. Для тьютора используется таблица Teacher, с фамилией, именем тьютора, его логин и пароль в системе, адрес электронной почты и телефон.

Для каждого обучаемого в системе, по отношению один ко многим хранится информация о выданному ему заданию, таблица Task: тема задания и его описание. Каждое задание разбито на несколько этапов, таблица Phase. Для каждого этапа существуют значения о его выполнености и проверки тьютором, эти значения используются тьютором и обучаемым в процессе выполнения задания и хранятся в вспомогательной таблице TaskPhase.

Для осуществления контроля выполнения обучаемым информационного поиска, в системе логируются запросы которые обучаемый использует для поиска, а также информация о просмотренных страницах обучаемым по введенному запросу, таблицы Request и NavigationUrl соответственно. Таким образом, тьютор, на любом этапе выполнения задания, имеет возможность посмотреть используемые обучаемым поисковые запросы и просмотренные им страницы, с целью не только контролировать работу, но и помочь ему наиболее правильно и корректно составить поисковый запрос.

Для осуществления удаленной работы тьютора и обучаемого реализована возможность для тьютора оставлять замечания, а также просто вести беседу в свободной форме с обучаемым. Физически в базе данных это реализовано в виде таблицы ChatRecord, со значениями времени и текста записи для определенного пользователя. Отметим, что это простое решение позволяет тьютору вести контроль и управление над выполнением задания обучаемым.