Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Методы интеллектуального анализа данных в предметных областях с частично детерминированными свойствами объектов Григорьев Петр Александрович

Методы интеллектуального анализа данных в предметных областях с частично детерминированными свойствами объектов
<
Методы интеллектуального анализа данных в предметных областях с частично детерминированными свойствами объектов Методы интеллектуального анализа данных в предметных областях с частично детерминированными свойствами объектов Методы интеллектуального анализа данных в предметных областях с частично детерминированными свойствами объектов Методы интеллектуального анализа данных в предметных областях с частично детерминированными свойствами объектов Методы интеллектуального анализа данных в предметных областях с частично детерминированными свойствами объектов
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Григорьев Петр Александрович. Методы интеллектуального анализа данных в предметных областях с частично детерминированными свойствами объектов : диссертация ... кандидата технических наук : 05.13.17.- Москва, 2000.- 146 с.: ил. РГБ ОД, 61 02-5/737-8

Содержание к диссертации

Введение

Глава 1. JSM-метод, как средство интеллектуального анализа данных 6

1. Интеллектуальный анализ данных 6

1.1. Определение ИАД 6

1.2. Знания в НАД 8

1.3. Данные в ИАД 9

1.4. Неформальная классификация методов ИАД 13

2. JSM-метод автоматического порождения гипотез 16

2.1. Истинностные значения JSM-логики 18

2.2. Переменные в JSM-логике: объекты, фрагменты, свойства 26

2.3. Внутренние предикаты JSM-логики 29

2.5. Каузоидные структуры 31

2.6. Язык JSM-логики 33

2.7. Правила вывода JSM-метода 41

2.8. Алгоритмические средства JSM-метода 51

Глава 2 Количественный JSM-метод 62

1. Предметные области с частично детерминированными свойствами объектов 65

2. Аргументация обще-импликативных гипотез 68

3. Количественные критерии фальсификации JSM-гипотез 73

4. Система правил вывода количественного JSM-метода 92

5.Алгоритмические средства количественного JSM-метода 96

Глава 3. Приложения количественного JSM-метода 101

1. Распознавание кодировки HTML-документов на русском языке 102

2. Прогнозирование рецидива аденомы гипофиза 109

3. Восстановление анкетных данных в социологических исследованиях 112

Заключение 119

Библиографический список 122

Введение к работе

За последнее время технические возможности для сбора и хранения больших массивов данных значительно возросли. Накоплены миллионы баз данных, которые охватывают практически все области человеческого знания. Такой стремительный рост накапливаемых данных вызывает острую необходимость в средствах Интеллектуального анализа данных (ИАД), которые позволяют автоматически извлекать из больших массивов данных практически полезные знания.

В течение последних лет методы ИАД стремительно развивались. Столь же стремительно разрабатывались программные средства ИАД и расширялась область их применения. В предметных областях, где предполагается достаточно жесткий детерминизм, хорошо зарекомендовал себя один из весьма перспективных методов ИАД - JSM-метод автоматического порождения гипотез. В областях, где превалируют случайные события, успешно работают методы мягких вычислений (сочетающие нечеткий контроль, нейронные сети и генетические алгоритмы) и статистические методы (например, GUHA-метод). Однако для обширного класса задач - задач ИАД в предметных областях, где причинно-следственные закономерности сосуществуют со случайными событиями, применение как JSM-метода, так и других известных методов ИАД оказывается недостаточно эффективным.

Таким образом, чрезвычайно актуальной задачей является создание методов ИАД, эффективных для работы в предметных областях с частично детерминированными свойствами объектов.

Целью настоящей работы является, разработка логико-алгоритмического аппарата, обеспечивающего эффективное решение задач ИАД в предметных областях с частично детерминированными свойствами объектов.

Для достижения поставленной цели необходимо:

  1. Изучить возможности существующих методов ИАД для работы в предметных областях с частично детерминированными свойствами объектов.

  2. Разработать систему правил правдоподобного вывода для порождения и проверки гипотез о зависимостях, допускающих исключения, то есть зависимостях, присущих предметным областям с частично детерминированными свойствами объектов.

  3. Построить алгоритмический аппарат, реализующий автоматический вывод в предложенной системе правил.

  4. Продемонстрировать эффективность предложенного метода для решения задач ИАД в нескольких конкретных предметных областях на основе соответствующих программных реализаций.

На основе анализа современных методов ИАД в целом, а также углубленного исследования JSM-метода, с одной стороны, и изучения специфики предметных областей с частично детерминированными свойствами объектов - с другой, в диссертационной работе разрабатывается оригинальный метод ИАД - количественный JSM-метод. Ядром метода является предлагаемая система правил правдоподобного вывода, формализующая JSM-рассуждение, обогащенное количественными критериями проверки гипотез. При построении алгоритмического . аппарата, . реализующего автоматический вывод в предложенной системе правил, учитываются соображения эффективной вычислимости. Количественный JSM-метод - основной теоретический результат работы, выносимый на защиту, определяющий научную новизну работы.

Программные системы, реализующие предложенный метод, внедрены і разнородных прикладных областях: медицине, прикладном сетевои обеспечении, социологии. Анализ опыта внедрения количественной

JSM-метода демонстрирует его высокую эффективность для решения задач прогнозирования, распознавания, восстановления данных, что характеризует практическую значимость работы.

Апробация работы. Основные научные выводы и результаты работы докладывались на международных конференциях НТИ-97 и НТИ-99, а также на научном семинаре Отдела теоретических и прикладных проблем информатики Всероссийского института научной и технической информации (ВИНИТИ).

По теме диссертации автором опубликовано 4 работы.

Структура и объем работы: Диссертация, объемом в 130 страниц состоит лз введения, трех глав, заключения, списка использованной литературы из 73 «именований. -Имеется два приложения.

Данные в ИАД

Способ представления данных в конкретной задаче также является существенным критерием применимости того или иного метода ИАД. В этом разделе мы опишем три наиболее распространенных способа представления данных:

атрибутивное,

структурное,

полнотекстовое

На сегодняшний день в большинстве практических приложений используется атрибутивное представление данных [29]. Как правило, для этого используются реляционные базы данных. Атрибутивный подход состоит в следующем: объекты предметной области представлены через значения фиксированного набора своих атрибутов. Иначе говоря, объекту предметной области соответствует множество пар вида: имя_атрибута, значение_атрибута .

Доменом атрибута называется множество его допустимых значений. При атрибутивном представлении данных используются как конечные, так и счетные домены. Кроме того, на элементах некоторых доменов может быть задан линейный порядок и доступно ограниченное количество операций.

Здесь же важно отметить, что обычно, при атрибутном представлении объектов, сами значения атрибутов являются атомарными и, неразложимыми. То есть, элементы доменов обычно не имеют структуры.

В ряде случаев атрибутивное представление не позволяет адекватно описывать всей существенной информации об объектах предметной области. Поэтому зачастую используют структурное представление объектов.

Так, например, в химии используются базы данных, в которых образом конкретного соединения является пространственный граф соответствующей молекулы [34, 35]. Другим примером служат базы данных, используемые в инженерном деле, где образом конкретного объекта является его двухмерный или трехмерный чертеж.

Мы привели примеры двух предметных областей, для которых широко применяется структурное представление объектов. Практическую пользу знаний в этих областях невозможно переоценить. Кроме того, и в той и в другой области используются базы данных колоссального объема. По данным на 1996 год, в химических БД было представлено более тринадцати миллионов химических соединений, и это притом, что ежегодно синтезируется от четырехсот до пятисот тысяч новых соединений [24]. Столь же внушительные размеры имеют и базы данных, применяемые в инженерном деле. Количество деталей, используемых при сборке современного легкового автомобиля, исчисляется десятками тысяч! Анализ такого объема информации выходит за рамки возможностей человеческого интеллекта.

Методы ИАД, которые используются в этой области, можно разделить на две основные группы: предметно-ориентированные и универсальные.

Методы первой группы предназначены для работы в конкретной предметной области, зачастую, правда, весьма обширной. Так, например, широкое распространение получили методы интеллектуального анализа графических образов (Image Mining) [64]. Некоторые из этих методов используются, в частности, и для анализа химических соединений, представленных в виде 3D изображений [62].

Мы осознаем важность исследований в области предметно-ориентированных методов ИАСД. Однако так же, как и в случае с методами интеллектуального анализа текстов (см. 1.3.3), методы этой группы в существенной степени задействуют теорию, специфичную для конкретной предметной области. Поэтому, дальнейшее обсуждение предметно-ориентированных методов выходит за рамки настоящей работы.

Решение многих задач практически в каждой области человеческой деятельности требует анализа большого количества документов. На сегодняшний день огромные объемы информации накоплены в виде текстов на естественном языке. Поэтому чрезвычайно актуальной является задача выявления знаний в полнотекстовых базах данных.

Буквально за последние несколько лет в этой области были достигнуты довольно внушительные результаты [56], и есть все основания полагать, что именно эта область станет одним из ключевых направлений информатики в следующем столетии. Однако в связи с тем, что технологии выявления знаний в полнотекстовых БД в существенной степени основаны на лингвистических методах, большинство авторов выделяют исследования в этой пограничной области в отдельное направление: интеллектуальный анализ текстов (Text Mining).

В заключение этого раздела отметим следующие положения. Первое: задача интеллектуального анализа текстов (ИАТ) представляется нам весьма актуальной и интересной. Второе: поскольку технологии ИАТ в значительной своей части лежат в области компьютерной лингвистики, специальное исследование этого направления выходит за рамки настоящей работы. И третье: однако, практически все методы ИАД, о которых мы упоминаем в этой работе, в той или иной степени применяются в программных системах ИАТ.

Алгоритмические средства JSM-метода

JSM-система, как система ИАД, позволяет извлекать знания из данных. Исходными данными для JSM-системы служит так называемая матрица инцидентности, выражающая (эмпирические) сведения о том, какие свойствами обладают исследуемые объекты. Матрица инцидентности, предъявленная в качестве данных JSM-системе, также называется базой фактов JSM-системы.

Удобным графическим представлением матрицы инцидентности является таблица, строки которой соответствуют исследуемым объектам, а столбцы - свойствам этих объектов. Если на пересечении і-того столбца и j-той строки стоит знак "+", это означает, что j-тый объект обладает i-тым свойством, если "-" - не обладает, если "т" -неизвестно: обладает или нет. Пример матрицы инцидентности приведен на рисунке 1.

Базу знаний JSM-системы составляют гипотезы первого рода, порожденных этой системой. Будем также называть базу знаний матрицей каузальности. Также как и матрица инцидентности, матрица каузальности допускает табличное представление. Однако обычно фрагментов существенно больше, чем объектов (в худшем случае -экспоненциально больше). Поэтому, зачастую, табличное представление базы знаний слишком громоздко для практического использования.

Задача JSM-системы - максимально восполнить как базу знаний, так и базу фактов.

Поскольку JSM-метод создавался, как метод ориентированный на компьютерную реализацию, правила правдоподобного вывода JSM-метода обладают одним замечательным свойством. А именно, они фактически являются программными инструкциями, в смысле Программирования в терминах типовых конфигураций (см. [11]).

Однако представляется разумным описать работу JSM-системы в рамках процедурного подхода - как программу на процедурном языке. Для этого имеется как минимум две причины. Во-первых, такое описание позволяет делать суждения о вычислительной сложности JSM-метода. И, во-вторых, процедурный подход значительно шире известен и в значительно большей степени применяется на практике.

Процедуру, реализующую простой JSM-метод будем называть простой JSM-процедурой.

Для простоты ограничимся случаем, когда объекты распределены относительно только одного свойства, которое будем называть целевым свойством. Тем самым, корректно следующее сокращение. Будем говорить, что объект о является положительным примером, или "+"-примером, подразумевая, что о обладает целевым свойством. Также, будем говорить, что фрагмент f является положительной причиной или "+"-причиной, подразумевая, что имеется гипотеза "f -причина наличия целевого свойства". Аналогично будем употреблять термины: "-"-пример, "0"-пример, "т"-пример, "-"-причина, "0Г -причина, "т"-причина.

Относительно целевого свойства, база фактов представима, как четверка множеств 0+, О", О0, От , где:

0+ есть множество "+"-примеров,

О - множество "-"-примеров,

О0 - множество "0"-примеров,

От - множество "т"-примеров.

Аналогичным образом, база знаний представима и как четверка множеств F+, F", F, FT , где:

F+ есть множество "+"-причин,

F" - множество "-"-причин,

F0 - множество "0"-причин,

FT - множество "т"-причин.

В работе простой JSM-процедуры можно выделить два этапа: Пересечение и Доопределение. Первый этап соответствует применению JSM-правил первого рода. На этом этапе процедура находит фрагменты объектов, которые могут быть связанными с проявлением целевого свойства. В частности, это пересечения "+"-примеров, не являющиеся пересечениями "-"-примеров. Для краткости, будем называть первый этап Пересечением. Таким образом, Пересечение пополняет базу знаний.

На втором этапе, с помощью найденных гипотез первого рода процедура пытается доопределить неопределенные примеры, то есть, предсказать - обладает или не обладает объект целевым свойством, если это было неизвестно. Таким образом, второй этап соответствует применению JSM-правил второго рода. Для краткости, будем называть второй этап Доопределением. Таким образом, Доопределение пополняет базу фактов.

Процедуры Пересечение и Доопределение приводятся на рисунках 2 и 3 соответственно. Алгоритмы приведены на Си-подобном псевдокоде, в котором:

символ ; маркирует конец инструкции,

символы { и } маркируют начало и конец блока.

символ := означает оператор присваивания, == -сравнения,

символ — означает оператор добавления элемента ко множеству, -» - удаления элемента из множества,

символы и , п , V используются для обозначения соответствующих теоретико-множественных операций,

типами данных являются: Объект, Фрагмент, МножествоОбъектов, МножествоФрагментов, Булево,

стандартным образом используются булевы операторы: и, или, не, булевы константы: да, нет,

стандартным образом используются управляющие конструкции: для каждого ... из ...{...}, пока(...) {...}, если{...){...}, вернуть... .

Несложно показать, что функция СходстваОбъектов, используемая в процедуре Пересечение, имеет экспоненциальную сложность от числа объектов. Более эффективный вариант этой процедуры (линейный от выхода), приводится в приложении 2. Процедура Доопределение работает, как правило, значительно быстрее: ее сложность в худшем случае составляет O(oc-n-k), а - вычислительная сложность отношения Е , п - количество "т"-примеров, к -количество гипотез первого рода.

Шагом JSM-системы называют однократное последовательное применение процедур Пересечение и Доопределение.

Классический алгоритм JSM-метода предусматривает итеративное применение процедур Пересечение и Доопределение, до тех пор, пока оно приводит к пополнению базы фактов. Такая стратегия называется многошаговой, или итеративной. Однако на практике чаще используется одношаговый подход. Алгоритмы одношаговой и многошаговой JSM-процедуры приводятся на рисунках 4 и 5 соответственно.

В заключение отметим, что, вообще говоря, необходимость итерации и надежность результатов, получаемых при повторном применении JSM-правил вызывает определенные сомнения. По-видимому, для большинства предметных областей наиболее правильным решением является одношаговая стратегия. Однако применение многошаговой стратегии весьма естественно в том случае, когда рассматриваемые объекты эволюционируют, то есть у одного и того же свойства могут быть как «старые», так и «новые» причины, причем на некоторых этапах эволюции «старые» и «новые» причины могут сосуществовать в одном объекте. В этом случае итеративное применение процедур Пересечение и Доопределение к данным, отражающим начальный этап эволюции, позволяет породить гипотезы о причинах свойств для последующих этапов. Изящная демонстрация такого случая приводится в работе О.М. Аншакова [4].

Количественные критерии фальсификации JSM-гипотез

Важная особенность простого JSM-метода состоит в том, что он является средством конструктивной индукции: правила первого рода JSM-логики являются своего рода "фабриками" гипотез. Однако после того, как гипотеза была получена, ее необходимо подвергнуть проверке на соответствие фактам. Такая проверка называется фальсификацией.

Неформально говоря, процесс фальсификации гипотезы можно представить как судебное разбирательство, в ходе которого рассматриваются аргументы как в пользу того, чтобы принять эту гипотезу, так и в пользу того, чтобы ее отвергнуть.

В предыдущем разделе были рассмотрены четыре класса фактов относительно их аргументационной связи с некоторой фиксированной гипотезой. Для обще-импликативной гипотезы h факты бывают опровергающие h, подтверждающие h, снижающие значимость h, и косвенно повышающие значимость h. В нашем исследовании мы будем считать, что любые два различных факта, принадлежащие к одной из перечисленных групп, имеют одинаковую аргументационную силу.

Таким образом, с точки зрения фальсификации гипотезы важны четыре ее числовые характеристики, а именно количество фактов, принадлежащих к каждой из перечисленных категорий. Сейчас дадим неформальное определение аргументационной четверки и ее составляющих для импликативной гипотезы общего вида. Формальное определение аргументационной четверки для JSM-гипотез будет дано в конце этого раздела.

Обозначение 3.1.

Пусть h - гипотеза.

Через pro(h), будем обозначать количество фактов, подтверждающих h.

Через con(h), будем обозначать количество фактов, опровергающих h. Через sig+(h), будем обозначать количество фактов, косвенно повышающих значимость h.

Через sig"(h), будем обозначать количество фактов, понижающих значимость h.

Определение 3.2.

Аргументационной четверкой гипотезы h будем называть кортеж aq(h) = pro(h), con(h), sig (h), sig+(h) .

Итак, мы условились, что относительно любой фиксированной гипотезы, любые два факта, принадлежащие к одному аргументационному классу, имеют одинаковую аргументационную силу. Поэтому, для того, чтобы оценить, что одна из двух гипотез в некотором фиксированном смысле "лучше", чем другая (правдоподобней, значимей и т.д.), достаточно знать аргументационную четверку каждой из этих гипотез.

Два способа ввести частичный порядок на аргументационных четверках, то есть две формализации интуитивного понятия "лучшая гипотеза" приводятся в работе П. Гаека и Т. Гавранека [15].

Первая из этих формализации рассматривает только факты, имеющие отношение к истинности гипотезы, но не к ее значимости. Этот подход состоит в следующем: мы считаем, что гипотеза hi не хуже, чем гипотеза h2, если количество фактов, подтверждающих h] не меньше, чем количество фактов, подтверждающих h2, и количество фактов, опровергающих hi не больше, чем количество фактов, опровергающих h2.

Определение 3.3.

Будем говорить, что гипотеза hi і-лучше1, чем h2/ если pro(hi) pro(h2) и con(hi) con(h2).

Если hi і-лучше, чем h2/ будем писать h2 - hi. Таким образом, h2 - І hi =? (pro(hi) pro(h2)) & (con(hi) con(h2)).

Отношение - , будем называть отношением импликативной привлекательности.

Несложно убедиться, что - . - нестрогий частичный порядок, то есть для любых гипотез hi, h2 и Ііз:

hi ih],

(h, -«. h2) & (h2 - i h3) (h, - i h3).

i" здесь от слова "implication" - импликация.

Кроме этого, -м не является (полным) порядком, поскольку возможны несравнимые, с точки зрения - І, гипотезы. Например, если гипотезу hi подтверждают десять фактов, а опровергает один факт, а гипотезу h2 подтверждают шесть фактов, но не опровергает ни один факт, то ни hi не і-лучше, чем h2, ни h2 не і-лучше, чем hi.

Другая формализация понятия "лучшей" гипотезы наряду с фактами, относящимися к истинности гипотезы, учитывает и факты, относящиеся к ее значимости. При таком подходе, гипотеза hj не хуже, чем гипотеза h2, если (во-первых) hi і-лучше, чем h2, и (во-вторых) количество фактов, снижающих значимость hi, не больше, чем количество фактов, снижающих значимость h2, а количество фактов, косвенно повышающих значимость hi, не меньше, чем количество фактов, косвенно повышающих значимость h2.

Определение 3.3.

Будем говорить, что гипотеза hi a-лучше2, чем h2, если h2 i hi, sig+(hi) sig+(h2) и sig (hi) sig (h2).

Если hi а-лучше, чем h2, будем писать h2 - hi. Таким образом, h2 h (h2 ih)&(sig+(h1) sig+(h2))&(sig(h1) sig(h2)) 2 "а" здесь от слова "association" - ассоциация. Отношение - будем называть отношением ассоциативной привлекательности.

В названии отношения -« слово "ассоциативный" присутствует неслучайно. Рассмотрим две гипотезы. Пусть hi = Pi(x) z Qi(x), a h2 = P2(x) ID Qi(x). Обозначим через hi гипотезу Qi(x) з Pi(x), а через h2 - гипотезу Q2(x) z P2(x). Несложно показать, что если t hb то выполняются также и h2 а hi . Это следует из того, что pro(hi) = pro(hi ), con(hi) = sig (hi ), sig+(hi) = sig+(h] ) и sig"(h,) = con(hi ) (см. Определения 2.1., 2.2.3-2.2.5 и 2.3.3). Таким образом, тот факт, что импликативная гипотеза (Pi(x) z Qi(x)) а-лучше, чем (Р2(х) ZD Q2(X)), гарантирует, что соответствующая ассоциативная гипотеза (Р,(х) = Q,(x)) не хуже, чем (Р2(х) = Q2(x)).

Теперь рассмотрим понятие количественного критерия фальсификации гипотез, а также посмотрим какие из этих критериев можно считать "разумными" с точки зрения отношений -V и - .- .

Восстановление анкетных данных в социологических исследованиях

Основанная на количественном JSM-методе, система восстановления номинальных данных "СВ-2" была разработана в 1998 году на кафедре логико-математических основ гуманитарного знания Российского государственного гуманитарного университета.

Система "СВ-2" позволяет восстанавливать пропущенные значения в таблицах номинальных данных. Строки в таких таблицах соответствуют объектам, столбцы - номинальным параметрам этих объектов. Мы называем параметр номинальным, если множество его допустимых значений не упорядоченно по семантической близости, то есть, любые три значения параметра в одинаковой степени попарно различны. Отметим, что любой бинарный параметр, то есть параметр, допускающий всего два значения, является номинальным. Примеры номинальных параметров:

пол (бинарный параметр, допустимые значения суть "мужской" и "женский")

семейное положение; (допустимые значения суть "женат(замужем)/живем вместе без регистрации брака", "вдовец(вдова)", "разведен (разведена)", "живем порознь, но не разведены", "холост(не замужем), "никогда не была в браке").

Примером неноминального параметра является возраст, указанный в годах. Действительно, значения "51 год" и "52 года" семантически ближе друг к другу, чем "51 год" и "25 лет".

Система "СВ-2" поддерживает два режима обучения: режим полного обучения и режим ускоренного обучения.

Режим полного обучения рассчитан на сравнительно небольшое количество объектов, то есть, этот режим следует применять для таблиц с небольшим количеством строк. В зависимости от ширины таблицы и разнообразия значений ее параметров, максимальное количество строк, допустимое для работы в этом режиме, колеблется от 20 до 100. В худшем случае, работа в режиме полного обучения занимает экспоненциальное время относительно количества строк в таблице. Это означает, что при добавлении одной строки в таблицу время обучения возрастает приблизительно в два раза. Преимущество работы в режиме полного обучения состоит в том, что системой этом случае порождаются и проверяются все возможные причины.

Режим ускоренного обучения позволяет восстанавливать данные в таблицах с достаточно большим числом строк -приблизительно до 2500. Работа в режиме ускоренного обучения занимает квадратичное время относительно количества строк в таблице. Это означает, что при увеличении количества строк в таблице в два раза, время обучения возрастает приблизительно в четыре раза. При ускоренном обучении порождаются и проверяются не все причины, а только так называемые устойчивые причины, то есть те причины, которые проявляют себя достаточно часто.

Ниже приводятся результаты тестирования системы "СВ-2" на материале опроса общественного мнения, проведенного Всероссийским центром изучения общественного мнения (ВЦИОМ) в 1997 году. Результаты опроса представлены в виде таблицы, каждой строке которой соответствует конкретная заполненная анкета, а каждому столбцу - вопрос в анкете.

Тестирование производилось на кафедре Логико-математических основ гуманитарного знания Российского государственного гуманитарного университета. Цель тестирования - определить точность и полноту восстановления данных с помощью системы "СВ-2". Под точностью мы понимаем отношение числа правильно восстановленных значений к общему числу восстановленных значений.

Под полнотой - число восстановленных значений (правильно или не правильно) к числу изначально отсутствующих значений. Например, пусть до восстановления данных в таблице отсутствовало 100 значений, то есть, сто клеток были пусты. И пусть система восстановила 80 значений, причем 60 - правильно, а 20 — неправильно. То есть, в восьмидесяти из ста клеток появились значения, причем двадцать из этих значений не соответствовали действительности. Тогда точность восстановления есть 60/80, то есть 0.75, или 75%. Полнота же восстановления данных в этом случае составляет - 80/100, то есть 0.8, или 80%

Для того чтобы определить точность и полноту восстановления данных, мы выбрали десять вопросов (формулировки некоторых из них приводятся на Рис. 7). Для каждого из этих вопросов мы провели серию из трех однотипных испытаний, которые состояли в следующем:

(1) В исходной таблице случайным образом выбрали п% строк. Для первого испытания это составило 10%, для второго - 50%, для третьего - 90%.

(2) После этого, во всех остальных строках значения выбранного вопроса удалили.

(3) Предоставили системе для обучения выбранные п% строк.

(4) После обучения, предоставили системе для восстановления оставшиеся (100-п)% строк.

(5) Сравнили полученные результаты с исходной таблицей

Полнота распознавания составила от 38% до 70% при среднем -52% и моде - 65%. Точность распознавания составила от 68% до 96% при среднем - 84% и моде - 85%.

При сравнении эффективности применения "СВ-2" и других систем ИАД эксперты ВЦИОМ прежде всего отметили высокую точность восстановления данных при помощи "СВ-2". К существенным недостаткам системы была отнесена сравнительно низкая полнота восстановления. В настоящее время автором в сотрудничестве с представителями ВЦИОМ ведется разработка новой версии системы, основанной на правилах с умолчаниями, а также фальсификации JSM-гипотез второго рода по схеме "победитель забирает все". Цель этой модификации - максимально повысить полноту восстановления данных.

Похожие диссертации на Методы интеллектуального анализа данных в предметных областях с частично детерминированными свойствами объектов