Исследование методов установления значений синтаксических единиц естественных языков на основе интеллектуального анализа данных Смирнов Иван Валентинович

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Смирнов Иван Валентинович. Исследование методов установления значений синтаксических единиц естественных языков на основе интеллектуального анализа данных : диссертация ... кандидата физико-математических наук : 05.13.01 / Смирнов Иван Валентинович; [Место защиты: Ин-т систем. анализа РАН].- Москва, 2008.- 177 с.: ил. РГБ ОД, 61 09-1/69

Содержание к диссертации

Введение

Глава 1. Биометрические методы и системы контроля физиологических параметров . 13

1.1. Современная аппаратура регистрации ПЭС и методы биометрии 13

1.2. Современные методы математической обработки биометрической информации 30

1.3. Анализ современных проблем биометрии 42

1.4. Выводы по главе 43

Глава 2. Разработка методики диагностики состояния человека с применением водных датчиков 46

2.1. Эффект регистрации НИБ 46

2.2. Разработка и исследование водноэлектрического датчика 48

2.3. Макет исследовательской установки 66

2.4. Природа воздействия биологического объекта на воду 68

2.5. Регистрация изменения функционального состояния посредством

водных датчиков 89

2.6. Выводы по главе 95

Глава 3. Исследование и разработка диагностической системы 97'

3.1. Разработка и исследование аппаратурной части канала «НИБ» 98

3.2. Разработка схемы канала «НИБ» 99

3.3. Канал «КГР». Разработка принципиальной схемы 107

3.4. Канал тремора. Разработка принципиальной схемы 111

3.5. Плата сбора данных. Цепь питания 115

3.6. Выводы по главе 116

Глава 4. Математическая обработка параметров системы 118

4.1. Многомерная обработка выходных параметров измерительной системы

4.2. Эксперименты по предъявлению обследуемому неожиданного стимула 137

4.3. Эксперименты по воздействию на обследуемого умственной нагрузки. 156

4.4. Оценка надежности принятых решений 165

4.5. Выводы по главе 174

Заключение

Современные методы математической обработки биометрической информации
Макет исследовательской установки
Канал «КГР». Разработка принципиальной схемы
Эксперименты по предъявлению обследуемому неожиданного стимула

Введение к работе

Актуальность темы

Принятие решений по управлению сложными системами должно основываться на информации, отражающей текущее состояние систем. Эта информация может быть получена в результате предварительного поиска «сырых» данных и их последующего анализа. Методы обработки структурированной (числовой, или фактографической) информации, достаточно развиты и дают хорошие результаты. Иначе обстоит дело с обработкой полуструктурированной информации - поиском и извлечением данных из текстов. Методы извлечения информации из текстов в настоящее время исследованы недостаточно и дают приемлемые результаты только для узких предметных областей. Методы поиска информации также оставляют желать лучшего. Известно, что традиционные поисковые системы обладают низкой релевантностью и большим шумом. Это связано с тем, что традиционный подход к поиску основывается только на статистических характеристиках слов, при этом игнорируется лингвистическая составляющая текстов, а слово рассматривается просто как цепочка символов. Не учитывается смысл, передаваемый текстом на естественном языке.

Преодоление указанных трудностей состоит в применении методов семантического анализа текстов, когда каждое предложение текста рассматривается как осмысленное высказывание, состоящее из синтаксических единиц, каждая из которых несет элементарный смысл. Семантика всего высказывания при этом складывается из комбинации смыслов этих синтаксических единиц. Применение методов семантического анализа в поиске текстов является весьма актуальным, т.к. позволяет находить документы, близкие запросу по смыслу, тем самым существенно повышая точность поиска.

Методы, реализующие семантический анализ текстов, должны опираться на лингвистические теории, описывающие механизмы передачи смысла (семантики) языковыми средствами, однако эти механизмы, как правило, не отражены в грамматиках языков. Настоящая работа посвящена исследованию и применению методов интеллектуального анализа данных для выявления механизмов передачи семантики применительно к задачам семантического поиска и извлечения фактографической информации из текстов на примере русского языка.

Цель работы

Целью диссертационной работы является повышение точности автоматического семантического анализа текстов на естественных языках. Для достижения поставленной цели в работе решаются следующие задачи:

Применение методов теории коммуникативной грамматики русского языка для построения реляционно-ситуационной модели текста.

Разработка индуктивного метода порождения правил установления значений синтаксических единиц текста (синтаксем).

Разработка метода снятия семантической многозначности (полисемии) синтаксем на основе полученных правил.

Разработка программных средств порождения правил установления значений и снятия полисемии синтаксем.

Экспериментальная проверка разработанных методов.

Методы исследования

В диссертационной работе использованы методы интеллектуального анализа данных, методы теории множеств, методы представления знаний, в частности, неоднородные семантические сети, теория коммуникативной грамматики русского языка.

7 Новизна

Научная новизна работы заключается в следующем:

Для представления семантики высказываний применены теория неоднородных семантических сетей и теория коммуникативной грамматики русского языка.

Предложена модификация ДСМ-метода порождения гипотез, расширяющая область его применимости, в частности, позволяющая оперировать лингвистическими объектами, имеющими сложную логическую структуру.

Предложен индуктивный метод автоматического получения правил установления значений синтаксических единиц естественных языков.

Предложен метод использования полученных правил для снятия семантической многозначности синтаксических единиц естественных языков, позволяющий значительно повысить точность семантического анализа текстов.

Практическая значимость работы

Предложенная в работе модификация ДСМ-метода порождения гипотез может применяться в решении задач интеллектуального анализа данных.

Полученные правила установления значений синтаксических единиц текста могут использоваться в любых приложениях в области компьютерной лингвистики, имеющих дело с семантическим анализом текста, в частности в семантических поисковых машинах.

Методы, правила, и алгоритмы реализованы в виде независимых программных модулей и используются в следующих проектах: Программа фундаментальных исследований отделения информационных технологий и вычислительных систем РАН (ОИТВС РАН) "Фундаментальные основы информационных технологий и систем", проект № 2.9. «Разработка программных средств смыслового поиска и анализа материалов научных исследований в области наук о жизни, опубликованных на естественных языках в научной печати и в Интернете» шифр ИТ-13.5/001, выполняемого в рамках федеральной целевой научно-технической программы «Исследования и разработки по приоритетным направлениям развития науки и техники». «Исследование и разработка параллельных алгоритмов анализа больших объемов текстовой информации из глобальной сети и алгоритмов принятия решений на основе когнитивных методов» научно-технической программы Союзного государства «Развитие и внедрение в государствах-участниках Союзного государства наукоёмких компьютерных технологий на базе мультипроцессорных вычислительных систем» (шифр «ТРИАДА»).

Апробация работы

Основные положения работы докладывались и обсуждались на следующих научных конференциях:

Научная конференция «25 лет исследований по ДСМ-методу: логика, анализ данных, интеллектуальные системы (ДСМ-2006)», декабрь 2006, ВИНИТИ РАН, г. Москва.

7-я Международная конференция «Научно-техническая информация -

2007» («НТИ-2007»), октябрь 2007, ВИНИТИ РАН, г. Москва.

Вторая Международная конференция «Системный анализ и информационные технологии» САИТ-2007, сентябрь 2007, г. Обнинск. XLI, XLII, XLIII всероссийские конференции по проблемам математики, информатики, физики и химии в секции «Программные системы», 2005-2007 года, РУДН, г.Москва.

Основные результаты, полученные по теме диссертационной работы, опубликованы в 5 печатных работах (в том числе 1 публикация в ведущем рецензируемом научном издании, рекомендованном ВАК, 2 публикации в трудах научных конференций).

Структура и объем работы

Диссертация состоит из введения, пяти глав, заключения, списка литературы и приложений. Работа изложена на 177 стр. машинописного текста, содержит 7 таблиц, 12 рисунков, 3 приложения, библиография включает 71 наименование.

1. Работы в области семантического анализа текста.

Работы в области семантического анализа текста ведутся достаточно давно как отечественными, так и зарубежными специалистами. Первые исследования сводились, в основном, к лексической семантике, предметом которой являются толкования отдельных слов, их лексические значения, структура значения слова. На данном этапе делались попытки выделить универсальные признаки, описывающие толкования слов, установить иерархию на этих признаках. Затем предметом исследований явились семантика предложения и текста, законы построения осмысленного текста на естественном языке, механизмы понимания текста, отличия семантически связных текстов от семантически не связных. В связи с этим возникла потребность в формальных языках и других средствах для записи семантической информации, передаваемой предложением.

Рассмотрим далее некоторые направления исследований в области семантики естественных языков в той мере, в которой каждое из них касается разработки формальных методов представления семантики, позволяющих использовать их в задачах автоматического семантического анализа текстов.

1.1. Работы Кембриджского лингвистического кружка.

Первая попытка разработать язык представления семантики языка была предпринята Кембриджским лингвистическим кружком. Описание результатов исследований кембриджского кружка приведем по работе [Апресян 1974]. Предложенный участниками кружка язык-посредник должен отождествлять семантическую информацию независимо от того, на каком языке и какими средствами она выражена. Разработанный язык-посредник состоит из классификаторов - имен элементарных смыслов, и правил построения формул из них. Классификаторы объединены в шаблоны, каждый из которых содержит по три классификатора и представляет класс элементарных ситуаций.

В ходе семантического анализа текст разбивается на фрагменты, каждый их которых записывается формулой языка-посредника, затем происходит поиск шаблонов во фрагментах. В конце выполняется выбор наиболее вероятной последовательности шаблонов, т.е. происходит снятие многозначности. Семантическое тождество текстов может проверяться совпадением соответствующих им шаблонов.

Недостатком предложенного языка-посредника является общность ситуаций, описываемых шаблонами, его лексическая и семантическая бедность.

1.2. Трансформационная грамматика Хомского.

Изначально трансформационная грамматика Хомского [Хомский, 1962] [Хомский, 2000] представляла собой механизм, порождающий все грамматически правильные предложения языка. Целью такой грамматики является способность отличать грамматически правильные предложения от грамматически неправильных, причем под грамматической правильностью не подразумевалась «осмысленность» или «значимость» в каком бы то ни было семантическом смысле.

Трансформационная грамматика состоит из трёх частей:

1. Уровень непосредственно составляющих представляет собой последовательность правил X —> Y, каждое из которых означает «вместо X подставить Y» например: Sentence -+NP+VP NP^T + N VP -> Verb + NP T->the N-+ man, ball и т.д. Verb —> hit, took и т.д.

2. Трансформационный уровень состоит из следующих правил:

12 ТУ. Если Si и S₂ - грамматически правильные предложения и Si отличается от S2 только тем, что Yпоявляется в S₂ там, где ^появляется в Si, причем Хи Y - суть составляющие одного типа, то S* - результат подстановки X and Y в Si вместо Х- есть предложение.

Т2: Если S — грамматически правильное предложение вида NP₁-Aux-V-NP₂, то цепочка вида NP₂-Aux + be + en - V- by-NPj является также грамматически правильным предложением. ТЗ: (I) С —> S в контексте NP_sing- С —> 0 в контексте NPpi-

С —> past (II) Пусть Af есть любой из аффиксов past, S, 0, en, ing. Обозначим через v любой из элементов М, V, have, be (т.е. любой неаффикс в группе Verb).Тогда Af+ v -> v + Af#, где символ # означает границу слова. (III) Подставить # вместо + во всех случаях, за исключением контекста v — Af. Вставить # в начале и в конце цепочки.

3. Морфофонемный уровень устанавливает фонемную структуру морфем и состоит из правил следующего вида: Q)walk-+[wdk] (II) take + past —* [tuk] past ->M take —> fteykj u т.д.

Построение предложения начинается с Sentence. Применяются правила уровня непосредственных составляющих, строится терминальная цепочка, которая представляет собой последовательность морфем, расположенных не обязательно в правильном порядке. Затем применяется последовательность

13 трансформаций, которые могут добавить морфемы и изменить их порядок. Затем применяются морфофонемные правила, обращающие цепочку слов в последовательность фонем.

Дальнейшее развитие теории трансформационной грамматики привело к учету дополнительной семантической информации о словах, что позволило, в частности, решать следующие дополнительные задачи: запись с помощью семантических компонентов значения порождаемых предложений; обнаружение семантических аномалий; установление отношения равнозначности между предложениями. Главным недостатком трансформационной грамматики является то, что по своей природе она порождающая, т.е. подходит больше для синтеза предложений и текстов, и менее применима при решении обратной задачи -автоматического семантического анализа текстов на естественных языках.

1.3. Формальная семантика Монтегю.

Формальная семантика является результатом синтеза математической логики и лингвистики. Её главный основатель Ричард Монтегю (Richard Montague) ([Montague 1974], [Partee и Борщев, 2003]) исходил из предположения, что формальные и естественные языки существенным образом не различаются с теоретической точки зрения, поэтому он предпринял попытку разработки формального логического языка, который, по его мнению, может рассматриваться как фрагмент обычного английского языка.

За основу формальной семантики Монтегю взято исчисление предикатов, расширенное интенсиональной логикой, включающей: лямбда исчисление; расширенную структуру типов; типы функций, играющие важную роль в интенсиональной логике; структуры возможных миров и моментов времени.

14 Синтаксис интенсиональной логики

Синтаксическими категориями выражений интенсиональной логики служат типы. Базовые типы: е (сущности); t (истинностные значения). Функциональные типы:

Если а, Ъ типы, то <а,Ь> тоже тип (тип функций из множества элементов типа а в множество элементов типа Ь.

Интенсиональные типы:

Если а тип, то тоже тип (тип функций из множества возможных миров в множество элементов типа а).

Непосредственно сам синтаксис интенсиональной логики представляет собой правила задания множества МЕ_а «осмысленных выражений типа а» (meaningful expressions of type a):

1: Всякая константа типа а принадлежит МЕ_а.

2: Всякая переменная типа а принадлежит МЕ_а.

3: Если а є МЕ_а и и переменная типа Ь, то . МЕ<^_а>.

4: Если а є МЕ^^ и р є МЕ_а, то а((3) є ME_b.

5: Если а, Р є МЕ_а, то (а = р) є ME_f.

6: Если ф,\|/ є ME,, и и переменная некоторого типа, то —іф, (ф&\|/), (9v\|/), (ф->\|/), (ф -о- \\f), Зиф, Vmp, Пф є ME, ( Пф означает «необходимо, что ф»).

7: Если а є МЕ_Я, то [^Ла] є ME.

8: Если а є МЕ<^_а>, то [^vcc] є МЕ_а.

Семантика интенсиональной логики

Модель в интенсиональной логике представляет собой тройку , где D - множество сущностей, W - множество возможных миров, I -интерпретирующая функция, которая придаёт семантические значения всем

15 константам. Выражения типа а получают значения в множестве D_a. Такие множества задаются рекурсивно следующим образом: D_e= D D,= {0,1}

Неотъемлемой частью системы ЭТАП является комбинаторный словарь русского языка, который содержит всю лингвистическую информацию о лексемах, включая лексические функции и их значения.

Приведем в качестве примера фрагменты статей русского комбинаторного словаря, содержащие описание лексических функций и их значений для слов контроль, надежда, и просьба.

КОНТРОЛЬ ANTI: бесконтрольность V0: контролировать MAGN: строгий / надежный / неослабный / особый / жесткий ANTIMAGN: слабый OPER1: осуществлять

INCEPOPER1: устанавливать <над> / устанавливать <за2> / налаживать <за2> FINOPER1: утрачивать / терять LIQUOPER1: лишать OPER2: быть <под2> / находиться <под2> / подвергаться

INCEPOPER2: попадать <под1> / оказываться <под2> FINOPER2: выходить <из-под> LIQUOPER2: освобождать <от> / выводитьЗ <из-под> LABOR1-2: держать <под2>

INCEP LABOR1-2: брать <под2> / ставить <под2> FINLABOR1-2: выпускать <из-под> LIQUFUNC2: отменять <над>

НАДЕЖДА SYN1: упование, чаяние ANTI: отчаяние / безнадежность FIGUR: луч / проблеск / искра [ср. луч надежды] V0: надеяться

25 S2: надежда2 [ср. Он—моя единственная надежда] MAGN: твердый [ср. Он подал мне твердую надежду, что ...] ANTIMAGN: небольшая / слабая / шаткая / робкая BON: радужная VER: обоснованная ANTIVER: напрасная / тщетная / несбыточная OPER1: питать / лелеять / тешиться OPER1-NS: возлагать INCEPOPER1: обретать FINOPER1: терять / оставлять FINFUNCO: испаряться / улетучиваться / угасать / развеиваться LIQUFUNCO: развеивать

INCEPFUNC1: появляться <у> / рождаться <у> / возникать <у> FINFUNCl: покидать / испаряться <у> / улетучиваться <у> / угасать <у> CAUSFUNC1: вселять <в1> / внушать FACT0-M: сбываться / оправдываться ANTIFACTO-M: разбиваться / лопаться / развеиваться LIQUFACTO-M: развеивать

ПРОСЬБА ANTI: требование V0: просить SYN1: прошение / ходатайство / мольба MAGN: большая / огромная MAGN-NS1: убедительная MAGN-NS2: настойчивая ANTIMAGN: небольшая / маленькая / скромная VER: разумная ANTIVER: неразумная LABOR1-3: обращаться <сЗ>

26 CAUS0PER3: обременять FUNC2: заключаться <в2> / состоять <в2> REAL3-M: выполнять ANTIREAL3-M: отклонять / отказывать <в2>

1.6. Выводы.

Представленный обзор подходов к представлению семантики естественных языков показывает, что лишь немногие из них разрабатывались с учётом возможности реализации в компьютерных программах, некоторые, напротив - слишком формализованы или не дают возможности достаточно полно описать семантику языка.

Из всех рассмотренных работ в области представления семантики языка и семантического анализа текстов наиболее перспективной с точки зрения простоты представления семантики и использования в автоматическом семантическом анализе текстов являются семантические падежи Филлмора. Это подтверждается, в частности, и тем, что подавляющее большинство зарубежных работ в области семантического анализа текстов основывается именно на этой модели.

На представлении о семантических падежах основываются многие современные лингвистические теории, в частности, теория коммуникативной грамматики, которая лежит в основе лингвистической составляющей настоящей работы.

2. Установление значений синтаксических единиц текста с помощью методов анализа данных.

Задача автоматического семантического анализа текстов, как было сказано в предыдущей главе, заключается в установлении семантических значений (ролей) синтаксических единиц языка - слов и словосочетаний.

Для автоматического установления смысловых значений синтаксических единиц текста необходимо создать эвристики, позволяющие определять семантические значения на основании характеристик контекста синтаксических единиц. Поскольку данные эвристики невозможно получить из грамматик естественных языков, приходится использовать методы анализа данных для автоматического получения указанных эвристик из размеченных корпусов текстов.

В данной главе будут кратко описаны типичные методы анализа данных, а также рассмотрены конкретные работы по применению методов анализа данных в решении задачи построения эвристик установления значений синтаксических единиц текста.

2.1. Методы анализа данных.

Методы анализа данных предназначены для выявления скрытых закономерностей в данных. Эта задача может быть поставлена и как задача обнаружения причинно-следственных эмпирических зависимостей в данных, как выявление причин наличия свойств у объектов, как задача построения описаний некоторых классов сущностей (концептов). Обнаружение зависимостей необходимо для решения задач прогнозирования или диагностики, когда выявленная закономерность используется для определения причин некоторого явления или предсказания его последствий. Разновидностью этих задач является задача классификации, а в традиционной терминологии дисциплины «Искусственный интеллект» этой

28 задаче соответствует задача машинного обучения или обучения по прецедентам.

Устоявшийся термин «интеллектуальный анализ данных» (Data Mining) означает процесс обнаружения в сырых данных ранее неизвестных, нетривиальных, практически полезных, доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности.

Методы анализа данных можно классифицировать с разных точек зрения. По способам обработки данных их можно разделить на статистические, символьные, эволюционные методы. По типу предоставляемых данных, методы анализа данных разделяются на методы обучения «с учителем», когда обучающие примеры помечены, и «без учителя», когда обучающие примеры не помечены. Нас будут интересовать только методы обучения с учителем.

Общая схема работы методов анализа данных состоит из следующих шагов:

1. Предоставление множества обучающих примеров или прецедентов.

Каждый пример имеет метку, обозначающую класс, которому он принадлежит, или свойство, которым он обладает.

2. Выполнение алгоритма обучения. На основании обучающих примеров в зависимости от метода строятся или правила классификации в случае логических методов, или находятся распределения, веса, в случае статистических методов.

3. Оценивание предсказательной силы выявленных закономерностей.

Выясняется, насколько верно построенная закономерность срабатывает на новых данных. Перед обучением некоторая часть обучающих примеров (тестовое множество) оставляется для проверки предсказательной точности и полноты. Точность предсказания является отношением числа правильно классифицированных примеров к сумме правильно и неправильно классифицированных примеров. Полнота классификации является отношением правильно классифицированных примеров ко всем примерам в тестовом множестве. Если точность или полнота не удовлетворяют заданным порогам, возможно повторение шага обучения с другими параметрами.

4. Применение результатов обучения к новым данным.

Объекты предметной области обычно представляются набором признаков и их значений.

Далее приводится описание наиболее представительных для своего типа методов анализа данных, применяемых в решении задачи установления значений синтаксических единиц текста.

2.1.1. Статистические методы анализа данных.

Статистические методы анализа данных обычно опираются на вероятностные подходы к анализу информации и часто оперируют данными, представленными в числовом виде. Результатом выполнения статистических методов являются распределения, наборы чисел, весов, которые являются или статистиками, или расстояниями, или коэффициентами в уравнениях, описывающих разделяющие гиперплоскости.

Статистические методы действенны при больших выборках обучающих примеров, а результаты статистических методов трудно интерпретируемы человеком, что является их недостатком.

Наивный Байесовский классификатор

Пусть задано множество объектов X и конечное множество имён классов (меток) Y. Каждый объект х е X описывается вектором признаков х = (xj, х_2> ...x,J. Предположим, что признаки являются независимыми случайными величинами, тогда вероятность того, что объект х принадлежит классу у, вычисляется по формуле, вытекающей из теоремы Байеса: P(y)-flP(x_k\y)

Р(у\х) = *± (2.1)

Априорная вероятность Р(у) вычисляется как отношение числа обучающих примеров с меткой у к общему числу обучающих примеров, а условная вероятность Р(х_к \ у) вычисляется как отношение количества примеров с признаком х^ имеющих метку у к общему количеству примеров с меткой у.

Решающее правило относит объект к классу, для которого вероятность Р(у | х) имеет наибольшее значение.

Выделим основные преимущества байесовского подхода: байесовское решающее правило оптимально, выписывается в явном аналитическом виде, легко реализуется программно; байесовское решающее правило удобно использовать в качестве эталона при тестировании алгоритмов классификации на модельных данных.

К недостаткам подхода можно отнести следующие: вероятности Р(х_к | у) оцениваются (восстанавливаются) приближённо по конечным выборкам данных; предположение о независимости признаков Хк является очень сильным, в действительности это не так.

Во многих практических задачах байесовский подход проявил свою работоспособность, например, в задачах классификации текстов, в частности в системах фильтрации «спама». В разных вариациях байесовский подход используется в решении задачи установления семантических значений синтаксических единиц текста.

31 Метод опорных векторов

Цель метода опорных векторов - найти оптимальную гиперплоскость, разделяющую множества объектов, принадлежащих разным классам (обычно двум). Опорными векторами называются объекты множества, лежащие на границах областей. Две параллельных гиперплоскости строятся по обеим сторонам гиперплоскости, разделяющей классы. Разделяющей гиперплоскостью будет гиперплоскость, максимизирующая расстояние до двух параллельных гиперплоскостей. Алгоритм работает в предположении, что чем больше разница или расстояние между этими параллельными гиперплоскостями, тем меньше будет средняя ошибка классификатора.

Положим, что объекты из обучающего множества имеют вид: {(х_ь сі), (х₂, с₂),...,(х_п, с„)}, где с і принимает значение 1 или — 1, в зависимости от того, какому классу принадлежит объект х_;. Каждый х,- это jo-мерный вещественный вектор, обычно нормализованный значениями [0,1] или [-1,1]. Для создания классификатора строится разделяющая гиперплоскость, которая имеет вид: w х - Ъ = 0. (2.2)

Вектор w - перпендикуляр к разделяющей гиперплоскости. Параметр Ъ зависит от кратчайшего расстояния гиперплоскости до начала координат.

Так как необходимо найти оптимальное разделение, то рассматриваются опорные вектора и гиперплоскости, параллельные оптимальной и ближайшие к опорным векторам двух классов. Можно показать, что эти параллельные гиперплоскости могут быть описаны следующими уравнениям (с точностью до нормировки): wx-Z>= 1, и (2.3) wx-b = -l. - (2.4)

Если обучающее множество линейно разделимо, то можно выбрать гиперплоскости таким образом, чтобы между ними не лежала ни одна точка обучающего множества и затем максимизировать расстояние между гиперплоскостями. Ширину полосы между ними можно найти из

2 соображений геометрии, она равна , таким образом, задача сводится к минимизации ||w||. Чтобы исключить все точки из полосы, необходимо для всех і, чтобы wXi-b>l, (2.5) w-Xi-b<-l. (2.6)

Это может быть также записано в виде: c,(wx₍-6)>l, \

Таким образом, необходимо решить оптимизационную задачу: wll²—»min (2 8) _kc,(w Jt, -6) >1,1v ' ^J

Эта задача сводится к задаче поиска седловой точки функции Лагранжа и решается численными методами.

Достоинство метода опорных векторов состоит в том, что для обучения, в отличие от большинства других статистических методов, достаточно небольшого набора данных. Среди недостатков можно отметить вычислительную сложность.

Метод к ближайших соседей

Метод ближайшего соседа (nearest neighbor, NN) является самым простым методом классификации. Он относит классифицируемый объект х к тому классу у, которому принадлежит ближайший обучающий объект. Обучение в методе NN сводится к элементарному запоминанию обучающей выборки. Близость объектов определяется метрикой р(х, х^л).

Метод к ближайших соседей (к nearest neighbors, kNN) является обобщением метода ближайшего соседа. Даже если характеристики объектов обучающей выборки измерены абсолютно точно, остаются погрешности, связанные с недостаточной адекватностью метрики р(х, х*), которая, являясь лишь некоторой моделью сходства объектов, не может быть идеальной. Идея усреднения погрешностей путём голосования приводит к правилу к ближайших соседей. Каждый из к ближайших по метрике р(х, х^) соседей

33 голосует за отнесение объекта х к классу у, к которому он сам относится. В результате объект х относится к тому классу, которому принадлежит большинство из к ближайших к нему объектов обучающей выборки. Алгоритм имеет параметр к, который либо задаётся априори, либо оптимизируется по критерию скользящего контроля. В задачах с двумя классами число соседей берут нечётным, чтобы не возникало ситуаций неоднозначности, когда одинаковое число соседей принадлежат разным классам, если число классов больше двух, то применяется взвешивание соседей.

Сложной проблемой является выбор метрики. Если объекты описываются числовыми векторами, часто берут евклидову метрику. При этом необходимо помнить, что все признаки должны быть измерены «в одном масштабе», а лучше всего — отнормированы. В противном случае признак с наибольшими числовыми значениями будет доминировать в метрике, остальные признаки, фактически, учитываться не будут.

Если пространство признаков имеет большую размерность, то получается, что все объекты примерно одинаково далеки друг от друга и выбор к ближайших соседей становится практически произвольным. Эта проблема решается путём снижения размерности, а именно отбором относительно небольшого числа наиболее информативных признаков.

Очевидными достоинствами методов ближайших соседей являются: простота реализации и возможность введения различных модификаций; возможность интерпретировать классификацию объекта путём предъявления пользователю ближайшего объекта или нескольких.

При этом методам присущи следующие недостатки: - приходится хранить обучающую выборку целиком. Это приводит к неэффективному расходу памяти и чрезмерному усложнению решающего правила; - поиск ближайшего соседа требует сравнения классифицируемого объекта со всеми объектами выборки, что может быть вычислительно долго.

2.1.2. Логические методы анализа данных.

Логические методы анализа данных выполняют обобщение или специализацию данных, которые часто представлены в виде логических структур. Составляющие таких структур обычно записываются символами или цепочками символов, поэтому данные методы называют иногда символьными методами. Индуктивная сущность обобщения и специализации характеристик обучающих примеров является показателем имитации разумной деятельности человека, поэтому логические методы называют также «интеллектуальными». Результатами логических методов обычно являются легко интерпретируемые человеком правила, что является их большим преимуществом.

Метод построения деревьев решений

Сущность этого метода очень проста: множество всех обучающих примеров разбивается на подмножества, которые проще обрабатывать [Michalski et al., 1996]. В логике атрибутов и объектов-примеров, такое разбиение выполняется по значению атрибута, так что все примеры в каждом подмножестве^меютодинаковое значение данного^атрибута.

Таблица 2.1. Положительные и отрицательные примеры.

Рисунок 2.1. Дерево решений для обучающих примеров из таблицы 2.1.

Этот принцип описывает популярный алгоритм построения деревьев решений, известный под названием TDIDT (Тор-Down Induction of Decision Trees (построение деревьев сверху-вниз)) или ID3. Алгоритм TDIDT, описанный ниже, построит дерево решений, представленное на рисунке 2.1 из примеров, представленных в таблице 2.1. Классификация по дереву решений происходит так: экземпляр el имеет значение at2=x, что отправляет процедуру классификации вниз вдоль по самой левой ветви, до прямоугольника с меткой (+). Пример еЗ имеет значение at2=y, поэтому процедура классификации переходит вниз по средней ветке, достигая проверки атрибута at3; значение at3=n продвигает процедуру классификации по правой ветке, оканчивающейся меткой (-).

Построенное дерево можно переписать с помощью следующих логических выражений: (+): (at2 =х) V [(at2 =у) ^А (at3 =m)] (-): (at2 =z) V [(at2 =y) ^A (at3 =n)]

Любой другой пример будет классифицирован в соответствии с этими двумя формулами или деревом решений. Алгоритм TDIDT Пусть S - множество примеров.

1. Найти «наилучший» атрибут at.

Разбить множество S на подмножества Si, S₂, ..., так, чтобы все примеры из подмножества Sj имели at=Vj. Каждое подмножество представляет узел в дереве решений.

Для каждого S;: если все примеры из S; принадлежат одному классу ((+) или (-)), тогда создать лист дерева решений, и присвоить ему метку соответствующего класса. Иначе, проделать эту же процедуру (начиная с шага 1) при S = Sj.

Алгоритм прекращает выполняться, когда все подмножества помечены, или не осталось атрибутов для разбиения (в этом случае, некоторые листья дерева будут покрывать примеры обоих классов). Возникает вопрос, как находить «наилучший» атрибут на первом шаге?

Пусть два класса ((+) и (-)) примеров описываются значениями атрибутов. Задача состоит в нахождении наилучшего атрибута для шага 1 из описанного алгоритма ЮЗ. Подходящий критерий основан на числе (+)-ов и (-)-ов в каждом из подмножеств, сгенерированных различными значениями атрибута. Необходима функция, удовлетворяющая следующим требованиям:

Функция достигает своего максимума, когда все подмножества однородны, т.е. все примеры из Sj или положительные (+) или отрицательны (-). В этом случае, информации о значении атрибута достаточно-длярешения^положителенили отрицателен пример"

Функция достигает минимума, когда 50% примеров в каждом подмножестве положительно, а 50% отрицательно.

Функция должна быть быстро монотонной в окрестности экстремумов (100% положительных примеров и 0% отрицательных, или наоборот) и медленно монотонной в области 50%/50%.

Известны методы оценивания информативности, основанные на понятии энтропии. Энтропия определяет проявление случайности, «не структурированности» и хаоса в данных. В данном случае, энтропия подмножества Sj может быть подсчитана по следующей формуле: H(S.) = - Pi⁺log_Pi⁺ - pflogpf. (2.9)

Где pi - вероятность того, что случайно взятый пример из Si положителен (+), и может быть оценена по относительной частоте pj⁺ =Пі⁺/(пі⁺+Пі"); аналогично, р;~ - это вероятность того, что случайно выбранный пример из S, отрицателен, и может быть рассчитана по формуле pi" =Пі7(пі⁺+П;"). Здесь П;⁺ -

ЧИСЛО (+)-ОВ В S;, а П;" - число (-)-ОВ В S;.

Пусть значения атрибута at разбивают множество S примеров на подмножества S\, і = 1,...К. Тогда энтропия системы подмножеств Sj будет равна: H(S; at) =Zi=i^KP(Si)*H(Si) (2.10) где H(Sj) - энтропия подмножества S;; P(S0 - вероятность того, что пример принадлежит Sj, которая может быть подсчитана по относительному размеру подмножества Sj в S: P(S0=|Si|/|S|. (2.11)

Увеличение информации за счет разбиения по атрибуту at измеряется с помощью формулы:

I(S; at) =H(S) - H(S; at) (2.12) где H(S) - априорная энтропия S (до разбиения), a H(S; at) - энтропия системы подмножеств, сгенерированных значениями атрибута at. Таким образом, «лучшим» считается атрибут, разбиение по которому даёт наибольший прирост информации.

Для снятия проблемы переобучения применяют отсечение ветвей деревьев.

Метод AQ поиска покрытия примеров AQ обучение основано на идее покрытия обучающих данных последовательным порождением деревьев решений [Michalski et al., 1996]. Сущность этого подхода заключается в поиске набора правил (конъюнкций пар атрибут-значение, или, в общем случае, произвольных предикатов), которые покрывают все положительные примеры и ни одного отрицательного. Вместо разбиения множества примеров, AQ алгоритм обобщает шаг за шагом выбранные положительные примеры, называемым

38 опорными примерами (seeds). Это позволяет правилам логически пересекаться, когда это желательно.

Основной принцип метода AQ

Цель метода - найти минимальный набор правил решений, характеризующих некоторый класс объектов. Правила решений имеют форму: если Ai и А₂ и ... и А„ тогда С где С - это класс, а условия А_; могут принимать обычную форму атрибут-значение atj = V, или более общую форму ati = vl V v2 V v3 ..., где атрибут может принимать одно из нескольких значений (связанных дизъюнкцией). AQ алгоритм (упрощенная версия)

Современные методы математической обработки биометрической информации

Биометрическая информация представляет собой совокупность показателей функционирования сложной системы (биологического организма), измеренных в определенное время или за определенный промежуток времени. С математической точки зрения такая информация является статистической, и для ее анализа могут подойти любые современные методы обработки статистических данных. При этом обрабатывать данные можно как по индивидуальной схеме (каждый параметр рассматривается как самостоятельная единица), так и в их общей совокупности (параметры, полученные за сеанс измерения рассматриваются как координаты вектора) [23]. В первом случае анализ проводится с целью выявления закона распределения вероятности для параметра, оценок статистических моментов, расчета доверительных интервалов и оценок других величин. Во втором случае в задачи анализа входит выявление взаимосвязи между параметрами, разделение их на группы, выявление соответствия между группами, статистическая идентификация групп и ряд других задач [24].

Индивидуальная обработка параметров в настоящий момент довольно хорошо развита и является в определенном смысле универсальной для всех типов статистических данных [23]. В целях диагностики функционального состояния человека наиболее интересной является групповая обработка данных, ввиду того, что только она может позволить разработать и сформулировать критерии идентификации состояний обследуемого. Несмотря на наличие общей иерархической структуры методов данной диагностики, определяющими звеньями в выборе алгоритмов обработки на каждом этапе, являются тип и природа параметров, их взаимные корреляционные и ковариационные функции, а также другие факторы. Это означает, что групповой обработке параметров не присуще свойство универсальности и выбор алгоритмов обработки является специфическим для каждой конкретной задачи. Кратко рассмотрим основные стадии групповой обработки данных.

Групповая обработка данных. Основной целью групповой обработка данных, полученных в результате сеанса диагностики состояния обследуемого, является определение состояния последнего. Решение задач такого определения распадается на 2 направления: использование нейросетевых технологий и применение алгоритмов математической обработки

Нейросетевые технологии используются при наличии большого числа входных параметров, большого числа их сочетаний, а также большого количества идентифицируемых состояний (образов). Алгоритмы математической обработки при таких условиях не способны дать удовлетворительных результатов. Однако в некоторых случаях, например при малом количестве идентифицируемых состояний, применение математических алгоритмов дает более адекватные результаты при наименьших затратах временных и трудовых ресурсов.

Алгоритмическая математическая обработка представляет собой последовательное использование трех аппаратов анализа: факторный анализ, кластерный анализ и дискриминантный анализ. На стадии факторного анализа осуществляется выделение переменных и пересчет их значений, с целью вьгавления минимального числа независимых факторов. Далее в математической обработке принимают участие не переменные, полученные в результате диагностики, а независимые факторные переменные. На стадии кластерного анализа все исследуемые объекты разделяются на группы (классифицируются) на основе значений переменных. Так же на данной стадии формулируются критерии принадлежности к группам (критерии идентификации). Последняя стадия - дискриминантный анализ необходима для принятия решения о принадлежности нового объекта к той или иной группе. Важно отметить, что последний аппарат в ряде случаев так же позволяет осуществить выделение групп и сформулировать критерии.

Факторный анализ. В факторном анализе предполагается, что наблюдаемые переменные являются линейной комбинацией некоторых латентных (гипотетических или ненаблюдаемых) факторов. Данные факторы слабо связаны между собой (в идеале -ортогональны), а каждая из реальных переменных взаимосвязана с одним или несколькими факторами. Выделение факторных переменных в современном анализе распадается на 2 этапа: непосредственное выделение переменных и вращение осей, позволяющее уменьшить количество параметров соответствующих каждому из факторов.

На первом этапе существует множество методов обработки, однако все они используют общий принцип. Сначала рассчитывается корреляционная либо ковариационная матрица (в некоторых случаях различными алгебраическими методами данная матрица трансформируется) исходных параметров. Далее осуществляется расчет собственных чисел и векторов этой матрицы, по которым находят направление главных осей, определяющих факторы. Подробное рассмотрение всех алгоритмов выходит за рамки данной работы, в этой связи перечислим основные из них и рассмотрим лишь важные моменты. Среди методов факторного анализа следует выделить: метод главных факторов; метод наименьших квадратов; метод обобщенного среднего; метод максимального правдоподобия; метод разложения главной оси; альфа-факторный анализ; анализ образов.

Метод главных факторов является исторически самым первым, он наиболее трудоемок и требует больших вычислительных затрат. Однако высокая степень адекватности результатов, полученных им, объясняет популярность этого метода и по сей день. Алгоритмы следующих 5-й методов схожи с первым методом, разница заключается лишь в используемой исходной матрице и математическом аппарате выделения главных осей. При этом преимуществом метода максимального правдоподобия является оперирование критерием, позволяющем судить об адекватности данной факторной модели и реальной совокупностью параметров. Отличительной чертой же альфа-факторного анализа является то, что используемые переменные считаются выборкой из некоторой совокупности переменных, не являющейся генеральной, в других методах это не так.

Метод анализа образов коренным образом отличается от других методов факторного анализа. Отличие заключается в определении общей и характерной части переменной. Под общей частью переменной подразумевается та ее составляющая, которая выражается через линейную комбинацию других переменных. Эта доля переменной называется «образ-переменной». Вторая составляющая, независимая от остальных, называется «антиобразом».

Макет исследовательской установки

Приведем краткое описание работы макета. Сигнал с генератора пилообразных импульсов (ГПИ) подается на водный датчик (ВД). При этом применяемый ГПИ имеет высокую стабильность выходного напряжения по амплитуде. Пилообразный сигнал на выходе водного датчика изменяется по величине в соответствии с изменением проводимости воды. С целью выделения информации из амплитуды и устранении случайных флуктуационных составляющих после прохождения первой системы фильтров и буферных каскадов (БК) сигнал подается на вход пикового детектора (ПД). Напряжение на выходе ПД математическими формулами связано со значением проводимости водного датчика в конкретный момент. Далее после прохождения второй системы фильтров и БК сигнал поступает на плату сбора данных и в ЭВМ для обработки. В ЭВМ средствами математической среды MathCAD осуществляется пересчет значения напряжения в значение проводимости датчика с учетом всех преобразований. Кроме этого в этой же среде рассчитываются параметры (2.1) и (2.2) . Одновременно с изменением проводимости происходит измерение температуры воды. Для этих целей используется обычный делитель напряжения, в котором в качестве одного из сопротивлений используется термочувствительный резистивный элемент, вмонтированный в ВД. Сигнал с выходы делителя также поступает на вход платы сбора данных и в ЭВМ, где с учетом калибровочной характеристики терморезистора пересчитывается в реальные значения температуры.

Макеты ГПИ, ПД, систем фильтров и БК собраны по стандартным схемам [32]. В качестве платы сбора данных использовались устройства PCL-818HG фирмы Advantech и Реальные формулы исходя из особенностей измерения и расчетов имеют несколько иной вид при сохранении их физической сущности. LA-20USB фирмы ADC. Схема ВД представлена на рис.2.3., а его модель и эквивалентная электрическая схема на рис.2.4.

Изучение природы воздействия биологического объекта на воду можно разделить на два этапа: установление природы фактора, воздействующего на воду, и установление і механизма реагирования воды.

Исследование природы фактора, воздействующего на воду. Исходя из концепции современной научной картины мира, выбор физической природы фактора, воздействующего на воду, ограничен тремя вариантами: акустическое излучение, электромагнитное излучение, химический фактор.

В рамках настоящих исследований были проведены эксперименты по воздействию биологического объекта на воду, помещенную в герметичном датчике. В ряде случаев был зафиксирован факт воздействия, что дает основания для исключения химического фактора, как возможной причины увеличения проводимости воды.

Параметры акустического и электромагнитного излучения человека в настоящее время достаточно хорошо изучены, и применяются для целей медицинской диагностики. Слабо исследованным остается диапазон электромагнитных излучений с длиной волны от нескольких единиц до нескольких сотен микрометров. Исследование в этом диапазоне, в частности исследование спектрального состава излучения, затруднено в связи с трудной доступностью чувствительной селективной регистрирующей аппаратуры, особенно в области 10-ЗООмкм.

Из [13] следует, что покровы человека очень хорошо экранируют акустические волны, порождаемые человеческим организмом. В этой связи человек практически не излучает звуковые и ультразвуковые волны за исключением областей хорошо согласованных (с точки зрения акустических импедансов) с окружающим пространством (уши, рот). В рамках диссертационных исследований был проведен ряд экспериментов по воздействию на воду звуковых и ультразвуковых волн различных част, при этом нагреватель воздействовал на воду постоянно, а в определенные моменты осуществлялось воздействие акустическими источниками (исследовались различные частоты и интенсивности). По результатам экспериментов вычислялись значения параметра «В» (2.2) и анализировались экспериментальные графики. Ни в одном случае дополнительного прироста проводимости зафиксировано не было. Опираясь на накопленные мировые научные данные и результаты проведенных исследований можно заключить: акустическая. модель изучаемого излучения маловероятна, не адекватна существующим научным данным и должна быть исключена, как не выдержавшая конкуренцию с другими более адекватными моделями.

Гипотеза об электромагнитной природе исследуемого излучения в настоящий момент является наиболее обстоятельной. При этом наличие слабоизученной спектральной области дает основания для научных исследовании в данном направлении. Описанные ниже эксперименты были проведены с целью получения дополнительных данных и подтверждения гипотезы об электромагнитной природе излучения.

Измерения проводились с помощью установки, схема которой показана на рис.2.12. Она состоит из двух укрепленных на подставке (1) металлических (посеребренных изнутри) или диэлектрических волноводов (2) сечением 15x35 мм (стандартный размер, применяемый в СВЧ аппаратуре). Внутри волноводов с помощью микрометрических винтов (3) перемещаются водоэлектрические датчики (4). Датчики изготовлены из тонкого (0.4мм) диэлектрического материала, электроды из платиновой фольги шириной 2мм расположены в верхней части датчика параллельно плоскости основания. Для измерения температуры воды применяется терморезистор марки ТРА-2, который расположен в центре датчика.

В процессе измерений один из датчиков оставался неподвижным и служил в качестве контрольного. Показания второго датчика (параметр "В"), регистрируемые при его перемещении относились к показаниям неподвижного датчика, чем исключалась возможная ошибка, связанная с изменением интенсивности излучения человека, которое может существенно меняться в течение многочасовых измерений [35].

Методика измерений состояла в следующем. В оба датчика заливалась дистиллированная вода (удельная электропроводность 3-4 Ом см"1) в объеме около 0.7см3. Затем осуществлялся нагрев воды электрическим нагревателем, имеющим температуру поверхности около 40С, в течение 150 секунд. Нагреватель размещался над датчиками (на срезе волновода), на расстоянии около 5мм от поверхности воды в контрольном датчике. После этого нагреватель убирался, а на его место помещалась ладонь экспериментатора. В течение всего процесса регистрировалась электропроводность воды. Измерение электропроводности производилось на частоте около 800Гц, запись показаний с помощью аналого-цифрового преобразователя выполнялась с частотой опроса 2Гц.

Канал «КГР». Разработка принципиальной схемы

Существуют два метода регистрации КГР: по Тарханову - пассивный (регистрация электрических потенциалов кожи) и по Фере - активный (регистрация сопротивления с использованием внешнего источника электрического поля). Оба метода дают идентичные результаты, однако латентный период изменения сопротивления кожи несколько выше, чем при изменении потенциалов. К достоинствам первого метода следует отнести слабое возмущающее воздействие на объект исследования, однако он не даёт информации об уровне абсолютного сопротивления кожи (АСК). Второй метод обладает лучшей помехоустойчивостью, но при этом помимо самого кожного сопротивления регистрируется также контактное сопротивление электродов. Обычно КГР регистрируется на кончиках пальцев или на ладони, где концентрация потовых желез наибольшая, а АСК - наименьшее.

Причина колебаний КГР заключается в усилении нервной активности человека, что сопровождается повышением секреции пота и возникновением электрического тока на поверхности кожи. Положительная фаза КГР связана с активностью потовых желез, а отрицательная с выделением адреналина симпатическими окончаниями в коже, при этом колебания имеют скрытый период, обычно 1-5 сек. Оба этих фактора определяют величину исходного сопротивления кожи. В настоящее время доказано, что в норме АСК человека в состоянии релаксации растет, а в состоянии активации уменьшается. Соответственно противоположные показатели являются патологией. ЭАК оценивается целым рядом таких показателей как: уровень сопротивления и потенциала кожи, реакция сопротивления и потенциала кожи, спонтанная реакция сопротивления и потенциала кожи [11]. Здесь под термином "уровень" понимается длительное изменение показателя, "реакция" - быстрое, ситуативное изменение показателя, "спонтанная реакция" -краткосрочные изменения, не имеющие очевидной связи с внешними факторами.

Как известно, человеку практически недоступен сознательный контроль вегетативных функций и состояния симпатической нервной системы. Это значит, что возможно создание аппаратуры для объективной диагностики эмоционального и функционального состояния человека и их динамики с помощью регистрации КГР.

Рассмотрим основные необходимые элементы такой системы. Для перехода от объекта измерения (человека) к измерительному прибору, используются электроды, преобразующие ионный ток, протекающий в коже, в электрический ток измерительной цепи. К таким электродам предъявляется ряд требований, обусловленных размерами, материалом, условиями эксплуатации и т.д. Ввиду того, что живой ткани присуща реакция на любое инородное тело, с которым она соприкасается, то материал электрода должен быть биологически инертным. Размеры электродов должны быть минимальными, но при этом обеспечивать высокую электропроводность.

Сигнал, снимаемый с электродов, далее необходимо усилить в достаточно узкой полосе частот (0,1-3) Гц, отсекая все более высокочастотные помехи. Затем сигнал оцифровывается и записывается в память компьютера, осуществляющего программную обработку полученных данных. При обработке следует учесть, что наиболее интересной информацией представляется информация об энергетике кожно-резистивных колебаний, напрямую связанная с эмоциональным состоянием, о спектральном распределении этих колебаний, а также об общей динамике изменения АСК. Параметрами, несущими в себе данную информацию, являются следующие [31]: интегральный коэффициент /, пропорциональный мощности колебаний п сигнала КГР, I = SP, , где SP, - гармоники модуля спектра сигнала КГР от 0 до максимальной частоты, п - число гармоник; YdSP, скрытая частота колебаний Fe, вычисляемая по формуле Fe = — , где к-1 dSPt - гармоники модуля спектра производной сигнала КГР по времени, к -коэффициент, зависящий от длительности записанного сигнала [3]. Rk — абсолютное сопротивление кожи; Dk — коэффициент, несущий информацию об изменении сопротивления кожи. Важно отметить, что какой-либо специальной подготовки обследуемого к измерению КГР не требуется. Необходимо, лишь обеспечить не загрязненность поверхности его рук.

На схеме приняты следующие обозначения ИП - источник питания, ФНЧ - фильтр нижних частот, ФВЧ - фильтр верхних частот, БК - буфферный (развязывающий) каскад. ФНЧ1 осуществляет фильтрацию паразитных ВЧ составляющих, наведеннных внешними ЭМП на теле человека и проникающих в тракт канала. Под паразитными в данном случае понимаются сигналы радиовещания, сотовой связи и т.п. В этой связи ФНЧ1 должен осуществлять подавление сигналов выше нескольких МГц. Ввиду того, что информативная часть спектра сигнала КГР лежит в диапазоне до 3-х Гц, то необходимо использование нескольких фильтрующих звеньев для выделения полезного сигнала. Здесь следует отметить, что информацию о ПЭС человека можно получать как из переменной составляющей сигнала, так и из постоянной. С учетом этого в схеме предусмотрено два выхода U= и U= для переменной и постоянной составляющих соответственно. Из сказанного становится ясно, что ФНЧ2 осуществляет выделение сигнала в полосе от 0 до 3-х Гц (как следует из [49] добротность данного фильтра может быть низкой, так как помехи до нескольких десятков Гц, которые могут иметь место, при обработке сигнала не слишком существенны), ФВЧ же отсекает постоянную составляющую. Схемная реализация канала КГР представлена на рис.3.15. В качестве БК здесь использован повторитель собранный на ОУ КР544УД2. Ввиду отсутствия жестких требований к добротностям фильтров [49], то в качестве них, как и в случае канала «НИБ» будем использовать фильтры Баттерворта первого порядка. Так ФНЧ1 будет состоять из одного конденсатора включенного параллельно электродам (простейшая фильрация ВЧ помех [56]), а ФНЧ2 и ФВЧ будут являться RC цепочками (рис.3.8).

Эксперименты по предъявлению обследуемому неожиданного стимула

Для полноценного испытания разработанной системы с целью экспериментального подтверждения ее возможностей, а именно регистрации конкретного функционального состояния человека, а также его изменения, необходимо осуществить сеанс обследования человека в заданном состоянии; после этого перевести его в другое состояние и еще раз провести диагностический сеанс. Данная процедура сопряжена с рядом трудностей, сводящихся в основном к тому, что априорные объективные оценки состояний обследуемого требует привлечения дорогостоящей медицинской аппаратуры и специалистов соответствующего профиля. В рамках данных исследований это было сделать невозможно. В этой связи задача испытания была несколько упрощена и сведена к исследованию возможностей системы по регистрации изменения состояния человека. Как следует из [4] такие факторы как испуг, нагрузка, алкоголь, никотин и некоторые другие в большинстве случаев приводят к изменению функционального состояния человека не зависимо от того, в каком состоянии он находился до этого. Из выше сказанного следует то, что проведение экспериментов по схеме «измерение — воздействующий фактор -измерение» позволит оценить способность системы фиксировать изменение состояния обследуемого.

В рамках первой серии экспериментов в результате воздействующего фактора был выбран пугающий фактор. Его преимущество заключается в том, что он способен довольно быстро привести к изменению состояния человека. В данном случае сеанс измерения для одного человека заключался в следующем. Обследуемый (все обследуемые являлись студентами МАИ, при этом участие в экспериментах проходило на добровольной основе) проходил психологическое тестирование по тестам MMPI и Кэттела . После этого осуществлялось одновременное измерение параметров каналов «НИБ», «КГР» и «Тремор». При этом сигнал с канала «НИБ» измерялся в результате воздействия правой руки на датчик, а сигналы с каналов «КГР» и «Тремор» - левой. Затем посредствам компьютерной программы осуществлялся испуг обследуемых. Важно отметить, что у большинства студентов наблюдались естественные реакции организма на пугающий фактор (подергивания, возгласы и т.п.). Заключительным этапом исследований являлось повторное измерение параметров каналов после испуга. В рамках исследований было проведено 97 сеансов измерения с разными студентами. Приведем описание характеристик сигналов и выбор значимых параметров для обработки.

Канал «НИБ». Характерный сигнал на выходе канала представлен на рис.4.1а. Далее осуществляется пересчет регистрируемого напряжения в значения проводимости воды (рис.4.16). Как видно из графика в сигнале присутствует шум от генератора, пикового детектора и случайные наводки. Для его устранения применяется оконное преобразование с окном в 300 точек измерения, при этом сдвиг окна осуществляется на 5 точек (параметры окна выбраны экспериментально из соображений наилучших показателей обработки) [54]. В результате такой обработки получается гладкая кривая.

2 Тестирование проводилось с целью получения информации о психологических особенностях личности.

Далее по формуле (2.2) осуществляется расчет параметра В. Для устранения роли флуктуационной составляющей излучения человека, помех и получения усредненного параметра В за сеанс измерения расчет параметра будем проводить на небольших участках полученной гладкой кривой (окна в 200 точек со сдвигом на 10 точек), а далее путем усреднения вычислять результирующее значение В[. Кроме этого введем параметр В; вычисляемый как величина стандартной девиации (функция stdev в MathCAD) параметра для вычисленного массива В и имеющего смысл разброса значений В за время измерения.

Канал «КГР». Типичный сигнал на выходе канала представлен на рис.4.2. при этом на диаграмме а представлен сигнал напряжения, б - модуль этого сигнала, в -сопротивление кожи за сеанс измерения.

Обработку сигнала КГР и расчет параметров осуществим следующим образом [73]: диапазон изменения сигнала ±100мВ разбивается на 20 диапазонов (число выбрано экспериментально на основе многочисленных результатов измерения) и определяется число «попаданий» значения напряжения дискретных точек измерения в каждый диапазон. В результате чего строится гистограмма, типичный вид которой представлена на рис.4.3. В качестве параметров КГР выбирается максимальное значение гистограммы hi, ее ширина h2 (стандартная девиация), среднее значение сигнала h3, среднее значение модуля сигнала П4 и величина разброса значений сигнала (стандартная девиация) hj.

Кроме этих параметров, связанных с напряжением КГР, для диагностики информативными являются и другие параметры, связанные с сопротивлением кожного покрова [73]: Г] - среднее значение сопротивления кожи за сеанс измерения, г2 - разброс значений кожного сопротивления, г3 - относительный динамический диапазон изменения сопротивления за сеанс измерения (из максимального значения сопротивления вычитается минимальное и разность нормируется на максимальное).

Канал тремора. Для диагностики функционального состояния человека интерес представляют спектральные характеристики сигнала тремора [74]. С целью получения этих характеристик на первом этапе обработки вычисляется модуль сигнала и производится его Фурье-преобразование. Типичный вид спектра сигнала тремора представлен на рис.4.4а. Из диаграммы видно, что спектр имеет два выраженных максимума (в некоторых случаях максимумы выражены не так сильно). После проведения многочисленных экспериментов с последующей обработкой сигналов было установлено, что спектр сигнала тремора руки в большинстве случаев очень хорошо аппроксимируется функцией (функция genfit в среде MathCAD проводит оптимальную аппроксимацию и расчет коэффициентов), где/чр - частота тремора, ао - as -коэффициенты аппроксимации. При этом коэффициенты ai и а3 имеют смысл частот максимумов спектра. Вид аппроксимирующей функции представлен на рис 4.46.

В качестве параметров тремора были выбраны коэффициенты аппроксимирующей функции, среднее значение сигнала тремора А и энергетический параметр тремора А1 равный произведению амплитуды спектральной компоненты на квадрат времени.

В результате обработки сигналов всех каналов получается 18 параметров. Для удобства все они сведены в табл.4.1. В таблице указаны также нормировочные коэффициенты введенные для удобства визуального восприятия. Важно отметить, что при дальнейшей математической обработке (в частности факторным анализом) данные коэффициенты ошибок не вносят и на результат не влияют.

Исследование методов установления значений синтаксических единиц естественных языков на основе интеллектуального анализа данных Смирнов Иван Валентинович

Современные методы математической обработки биометрической информации

Макет исследовательской установки

Канал «КГР». Разработка принципиальной схемы

Эксперименты по предъявлению обследуемому неожиданного стимула

Похожие диссертации на Исследование методов установления значений синтаксических единиц естественных языков на основе интеллектуального анализа данных