Структурирование и обучение нейронных сетей с применениями к задачам физической химии и медицины Филимонов Андрей Викторович

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Филимонов Андрей Викторович. Структурирование и обучение нейронных сетей с применениями к задачам физической химии и медицины : Дис. ... канд. физ.-мат. наук : 05.13.18 : Иваново, 2004 80 c. РГБ ОД, 61:04-1/1245

Содержание к диссертации

Введение

ГЛАВА 1. Нейронные сети. основные понятия. особенности применения нейронных сетей в медицине 7

Формальный нейрон 7

Виды функций активации. Ограничение модели нейрона 10

Многослойный персептрон 11

Выбор количества нейронов и слоев 12

Подготовка входных и выходных данных 13

Методы обучения 14

Обучение однослойного персептрона 17

Расписание обучения 18

Персептронная представляемость 19

Обучение многослойного персептрона 22

Паралич сети 30

Локальные минимумы 32

Обучение без учителя 33

Алгоритмы классификации. 35

Сеть Кохонена 36

Обучение слоя Кохонена. 39

Метод выпуклой комбинации. 40

Сеть встречного распространения. Слой Гроссберга 41

Обучение сети встречного распространения 42

Применение нейронных сетей в медицине 43

ГЛАВА 2. Динамическая оптимизация структуры персептронов 45

Постановка задачи 45

Понижение размерности входного вектора 48

Оптимизация структуры сетей 54

Выводы 62

ГЛАВА 3. Применение нейронных сетей для моделирования процесса сжатия тонких органических пленок на поверхности раздела фаз вода-воздух 64

Выявление областей фазовых переходов 65

Интерполяция данных 68

Выводы 71

Общие выводы 73

Заключение 74

Библиографический список.

Выбор количества нейронов и слоев
Локальные минимумы
Понижение размерности входного вектора
Интерполяция данных

Введение к работе

Актуальность темы

В силу того, что искусственные нейронные сети (ИНС) широко используются в ряде областей научных и прикладных исследований, проблема выбора оптимальной структуры сетей и алгоритмов их обучения является актуальной научной задачей. Несмотря на то, что существующие методики выбора конфигурации сетей, такие например, как генетические алгоритмы, дают хорошие результаты, их применение на практике осложняется значительными затратами времени на функционирование алгоритмов, что не всегда приемлемо с точки зрения конечного пользователя. Поэтому возникает естественный интерес к поиску более быстрых алгоритмов оптимизации и обучения ИНС, «работающих» в какой-нибудь конкретной прикладной области, например, в медицине. Дело в том, что медицинские данные характеризуются большим числом входных показателей, пропущенных и аномальных данных при ограниченном объеме статистического материала. При работе с такими данными выбор оптимальной структуры сети особенно важен. Для экономии машинного времени при обучении нейронных сетей целесообразно также сжимать входные данные. Однако существующие методики, например метод главных компонент, по ряду причин неприменимы для обработки медицинских данных.

В этой связи поиск новых алгоритмов, проведенный в данной работе, применительно к задачам обучения и структурирования нейронных сетей, а также предобработки данных, является исключительно актуальным.

Цель работы

Целью работы является выбор типа и оптимизация структуры нейронных сетей, а также разработка новых алгоритмов их обучения, предобработки данных и создание соответствующего программного

обеспечения для решения двух важных прикладных задач:

Создание медицинских экспертных систем (пульмонология и психология).
Построение математической модели процесса сжатия тонких пленок органических соединений на поверхности воды и разработка программ, реализующих обработку данных.

Научная новизна

Предложен новый подход для создания самоконфигурируемой нейронной сети;

Па базе сравнительного исследования методов сжатия медицинских данных показано, что метод главных компонент нельзя применять для сжатия, вместо него предложен альтернативный метод сжатия данных с помощью рециркуляционных нейронных сетей;

В физико-химической задаче создания тонких пленок предложен новый алгоритм для выявления фазовых переходов; построена и исследована математическая модель процесса сжатия тонких пленок органических соединений на поверхности воды.

Практическая ценность

Разработанные методы и программы успешно применяются в практике пульмонологического отделения 7-й Ивановской больницы и Многопрофильной клиники ИвГМА, а также в лаборатории молекулярной физики ИвГУ.

Полученные в работе результаты могут быть использованы: 1. При создании медицинских или иных экспертных систем на основе искусственных нейронных сетей в условиях малого объема статистического материала;

2. В молекулярной физике для изучения поведения пленок органических соединений на поверхности воды.

На защиту автор выносит следующие положения:

Разработан комплексный метод динамической оптимизации структуры нейронных сетей типа многослойных персептронов, позволяющий сократить размерность входных данных и оптимизировать структуру персептрона в ходе его обучения;
Разработка на этой базе экспертных систем, внедренных для реальной эксплуатации в медицинских учреждениях г. Иваново: (1) программа для дифференциальной диагностики пневмонии и прогнозирования ее исходов (7-ая городская больница г. Иваново), (2) программа для определения показателей интроверсии -экстраверсии на основе физиологических и антропометрических показателей (многопрофильная клиника ИвГМА г. Кохма);
Разработка алгоритмов и соответствующих программ для моделирования процесса сжатия тонких пленок в молекулярной физике на основе применения нейронных сетей;
Разработан новый способ выявления фазовых переходов в этом процессе.

Апробация

Наиболее значимые результаты, полученные в ходе работы над диссертацией, доложены на международных конференциях: ФРЭМЭ-2000 (Владимир) и 2-й Российской конференции молодых ученых России (Москва, 2001), в рамках международной летней школы ОИЯИ «Физические методы в медицинских исследованиях» (Ратмино - Дубна, 2001), а также на научном семинаре Лаборатории Информационных Технологий ОИЯИ.

Основные результаты диссертации опубликованы в девяти работах, полный список приведен на стр. 17 автореферата.

Структура диссертации

Выбор количества нейронов и слоев

Итак, метод обратного распространения - способ быстрого расчета градиента функции ошибки. Расчет производится от выходного слоя к входному по рекуррентным формулам и не требует перерасчета выходов нейронов.

Обратное распространение ошибки позволяет в несколько раз сократить вычислительные затраты на расчет градиента по сравнению с расчетом по определению градиента. Зная градиент, можно применить множество методов теории оптимизации, использующих первую производную. Применимы также квазиньютоновские методы, в которых строится матрица вторых производных Н (гессиан) на основе нескольких последовательных значений градиента.

Обычно рассчитывают градиент ошибки для одного образа, а не всего обучающего множества. После расчета градиента можно либо сразу внести поправки в веса и пороги по одному предъявленному образу, либо усреднить поправки по всем образам обучающего множества (пакетная коррекция). Нужно помнить, что усреднение требует запоминания одного вещественного числа на каждый параметр сети для хранения усредняемой коррекции, что существенно увеличивает объем памяти, занимаемый сетью.

Как и в однослойном персептроне, можно использовать расписание обучения, e=e(t) , где t - время обучения. Это повышает скорость и точность сходимости во многих случаях.

В 1987 году Паркером был предложен вариант алгоритма с производными второго порядка, дающий быструю сходимость, когда функция зависимости ошибки от параметров сети близка к квадратичной. Было также доказано, что использование производных высших порядков не дает выигрыша в обучении.

В 1987 году Сторнетта и Хьюберман показали, что симметричный диапазон (например, от -1 до 1) изменения весов и сигналов в сети дает прирост скорости обучения на 30-50 %. Функция активации, конечно, должна быть симметричной, подходит, например, гиперболический тангенс. Сигмоида может использоваться после симметрирования: a = --+a(NET) 2 (33) Было предложено множество ускоренных видов обратного распространения, но практическое применение получили в основном алгоритмы Quick Propagation и Resilient Propagation.

Одной из современных вариаций данного метода является алгоритм Resilient Propagation [31, 59]. Коротко суть этого метода заключается в том, что в нем при подсчете поправок к шагам по параметрам учитываются не сами производные функции ошибок, как в Back Propagation, а только их знаки. Для определения величины коррекции весов используется следующее правило: Д("„ = ЯЕ-О) ЯР4 "1 . А(,.„ дЕ(,) Ж"-" . dw dw (34) О rf 1 7+

Если на текущем шаге частная производная по соответствующему весу поменяла свой знак, то это говорит о том, что последнее изменение было большим, и алгоритм проскочил локальный минимум, и, следовательно, величину изменения необходимо уменьшить на г)" и вернуть предыдущее значение весового коэффициента. Если знак частной производной не изменился, то нужно увеличить величину коррекции на х\ для достижения более быстрой сходимости. Начальные значения для всех Ду устанавливаются равными 0.1.

Для вычисления значения коррекции весов используется следующее правило: Ди-9 = « -л(,) + д 0 (35) О,—= 0 Если производная положительна, т.е. ошибка возрастает, то весовой коэффициент уменьшается на величину коррекции, в противном случае -увеличивается.

Если производная положительна, т.е. ошибка возрастает, то весовой коэффициент уменьшается на величину коррекции, в противном случае -увеличивается. Затем подстраиваются веса: w tl =w ,+Aw ) (36) В итоге алгоритм Resilient Propagation состоит из следующих шагов: 1. Проинициализировать величину коррекции. 2. Предъявить все примеры из выборки и вычислить частные производные. 3. Подсчитать величину коррекции. 4. Скорректировать веса. 5. Если условие останова не выполнено, то перейти к 2.

Существуют также более экзотические подходы к увеличению скорости обучения. Сюда относится, например, метод весовой экстраполяции [9]. Он основан на том наблюдении, что поверхность целевой функции изменяется монотонно, а, следовательно, появляется возможность для экстраполяции.

Стратегия весовой экстраполяции заключается в следующем. При обучении сети методом обратного распространения ошибки оценивалось поведение каждого веса индивидуально. Результатом данного исследования было утверждение, что функция w(k)=a-be ck способна предсказать значение веса w на k-й эпохе. Здесь Ы 0, с 0 и а - произвольная константа.

Локальные минимумы

Предлагается объединить усечение и метод динамического добавления нейронов, т.е. предпринята попытка создания самоконфигурируемой сети. Суть метода в следующем. Инициализация сети производится случайным образом, т.е. число нейронов в слоях определяется произвольным образом. Как будет показано ниже, это хорошо работает на простых задачах, в случае же более сложных задач количество нейронов выбирается близким к оптимальному варианту. Затем, сеть начинает обучаться. Если нейронов в сети недостаточно, то относительная скорость изменения ошибки становится меньше критической величины и нужно добавить нейрон. Если сеть имеет только один скрытый слой, то нейрон добавляется именно в него. В случае нескольких скрытых слоев использовалось понятие среднего веса нейрона в слое, который определялся следующим образом.

Пусть мы имеем некоторый скрытый слой - X. Тогда суммируем абсолютные значения всех нейронов следующего слоя У и делим на количество нейронов слоя X. Это и будет средним весом нейронов слоя X.

Подобным образом определяются средние веса для нейронов всех скрытых слоев сети и выбирается слой с наибольшим весом. Именно туда и добавляется нейрон. Это делается потому, что нейроны этого слоя наиболее близки к насыщению, т.е. наблюдается нехватка нейронов в этом слое.

Теперь допустим, что мы сумели обучить сеть до нужной погрешности. Но это можно сделать и при избыточном количестве нейронов. Поэтому предполагается, что в сети избыточное количество нейронов и можно выкинуть самый малозначимый нейрон из сети. Чтобы определить его, вводится понятие удельного веса нейрона.

Удельный вес нейрона в сети определяется следующим образом. Пусть имеется какой-то скрытый слой - X, а в нем нейрон - х. Тогда следующий за ним слой обозначим через У. Просуммируем абсолютные значения весов тех синапсов, принадлежащих нейронам слоя У, которые взаимодействуют с аксоном нейрона х. Полученную сумму разделим на количество нейронов в слое У. Это, и будет удельный вес нейрона х. Нейрон с наименьшим удельным весом в сети удаляется.

Чтобы было понятнее, представим себе крайнюю ситуацию, когда удельный вес нейрона равен нулю. Что это означает? Это означает, что нейрон с таким весом участвует в вычислениях, т.е. занимает ресурсы машины, а его вклад в состояние нейронов следующего слоя нулевой. Поэтому от такого нейрона надо избавиться. В реальной ситуации удельный вес редко равен нулю, поэтому удаление нейрона, пусть даже и с наименьшим удельным весом, обязательно отзовется на состояниях нейронов следующего слоя. Вот почему происходит увеличение ошибки (см. рис. 19). Если продолжить обучение сети, то можно компенсировать удаление нейрона, однако, если повторить процедуру удаления, то удаляемый нейрон будет иметь больший удельный вес, а, следовательно, погрешность возрастет. Таким образом, можно заметить, что если использовать для оптимизации структуры сети только динамическое удаление нейронов, то это приведет к вырождению структуры и сеть не сможет обучиться. Вот почему необходимо скомпенсировать вырождение динамическим добавлением нейронов.

Однако выяснилось, что сеть все равно имеет тенденцию к вырождению, хотя это и проявляется значительно медленнее. Это связано с тем, что в ходе обучения часть нейронов переходит в насыщенное состояние и сеть слабо реагирует на введение дополнительных нейронов.

Чтобы избежать вырождения структуры, было предложено удалять насыщенные нейроны и, одновременно, добавлять новые.

Как выявить насыщенный нейрон? Для его выявления введено понятие стрессового порога. Он определяется эмпирически. В данной задаче он равен 0,9999. Если в ходе работы выход нейрона станет больше этой величины, то будем считать, что он «пережил» стресс и должен погибнуть. Эта стратегия прекрасно работает на тривиальных задачах, типа проблемы Исключающего ИЛИ, но на более сложных задачах, вроде обработки медицинской информации она не работает: сеть просто не успевает обучиться до необходимого уровня.

После того как, конфигурация сети начнет колебаться около какого -либо значения, это значение можно считать оптимальной конфигурацией сети. После достижения оптимума следует остановить алгоритм, т.к. сеть имеет тенденцию к вырождению. Таблица 3.

После сжатия 15/22/1 5 352 Если посмотреть на результаты, представленные в таблице 4, то видно, что предложенный комплексный метод оптимизации структуры ИНС, а именно: динамическое сжатие входных данных, используя нейронные сети, и динамический выбор конфигурации сети, позволяет сократить время обучения сети в 7 раз, что доказывает эффективность данного метода.

Второй медицинской задачей, на которой проводилась апробация предложенного метода для оптимизации структуры нейросетей, была задача определения показателей интроверсии - экстраверсии.

Было предложено рассматривать показатель экстраверсии Е, как нелинейную функцию от физиологических показателей: уровня кортизола в крови, уровня иммуноглобулинов, времени зрительно-моторной реакции и т.д. (всего 12 показателей): Е=Е(Х1, Х2,...,Х12), где XI, Х2,...,Х12 -численные значения показателей.

На основании результатов проверки гипотезы о нормальности распределения физ. показателей (таблица 5) можно утверждать, что данные не удовлетворяют условиям применимости метода главных компонент, поэтому для их сжатия целесообразнее использовать рециркуляционную нейронную сеть.

Понижение размерности входного вектора

Предлагается объединить усечение и метод динамического добавления нейронов, т.е. предпринята попытка создания самоконфигурируемой сети.

Суть метода в следующем.

Инициализация сети производится случайным образом, т.е. число нейронов в слоях определяется произвольным образом. Как будет показано ниже, это хорошо работает на простых задачах, в случае же более сложных задач количество нейронов выбирается близким к оптимальному варианту. Затем, сеть начинает обучаться. Если нейронов в сети недостаточно, то относительная скорость изменения ошибки становится меньше критической величины и нужно добавить нейрон. Если сеть имеет только один скрытый слой, то нейрон добавляется именно в него. В случае нескольких скрытых слоев использовалось понятие среднего веса нейрона в слое, который определялся следующим образом.

Размерность входного вектора удалось понизить с 12 до 9. Критерием остановки при этом явилось достижение средней ошибки на обучающем множестве значения 0,01.

Аналогичный результат получился при сжатии входного вектора с помощью метода главных компонент. При этом вклад главных компонент составил 90% от общей дисперсии системы.

Для аппроксимации функции E=E(Y1, Y2,...,Y9), где Yl, Y2 и т.д. -компоненты нового входного вектора Y, полученного в результате сжатия исходного вектора X, использовался трехслойный персептрон, обучаемый по методу Resilient Propagation. Обучающее множество составили данные 101 пациента. Данные оставшихся 60 пациентов были зарезервированы для тестирования.

Интерполяция данных

Графики зависимостей 7t=f(A ), построенные по экспериментальным и смоделированным сетью данным, и график зависимости величины погрешности от величины 1/А (начальная поверхностная концентрация N0 = 6,1-107, моль-м"2).

Для того, чтобы определить, какие именно пики на рисунке являются фазовыми переходами необходим критерий отбора. В качестве такого критерия предложено использовать пороговое значение погрешности распознавания. Если значение погрешности распознавания больше порогового значения, то данная точка принадлежит к области фазового перехода. Порог определяется эмпирически исходя из следующих соображений. Во время эксперимента замеры площади А делаются через одинаковые интервалы. При таких условиях число экспериментальных точек, принадлежащих нелинейным участкам зависимостей 7t=f(A" ) и 7tA=g(7i), составляет в среднем 15-20 % от общего числа точек. Таким образом, для порогового значения задается условие: выше порога должно находиться не более 15-20% экспериментальных точек.

В таблице 8 представлены результаты поиска областей фазовых переходов (%i-it2) и Amoi с помощью нейросетей и без них для разных значений No (в данном случае сравнение продемонстрировано на областях, соответствующих однофазным состояниям слоя - линейные участки на графиках тсА - %).

Используются табличные данные из [20]. Как следует из таблицы среднее расхождение значений Атоь полученных с помощью нейросетей, и непосредственно при анализе по графикам зависимости яА - я, построенных по экспериментальным данным, проведенном с помощью метода наименьших квадратов составляет 4 %. Среднее расхождение значений Е составляет 10.85 %. Таким образом, несмотря на некоторое расхождение в определении областей фазовых переходов, что определяется, по-видимому, несовершенством критерия отбора пороговых точек, подход с использованием нейросетей позволяет получить хорошие результаты оценки основных параметров слоя.

Интерполяция данных В данной работе предлагается представить Е и Ат0 как функции от начальной поверхностной концентрации молекул в слое, величины обратной к площади, приходящейся на одну молекулу, и поверхностного давления. E = E(N0,A-\JO (64) Amol = A(N0, тсА, л) (65) Одновременно с задачей нахождения Е и Amoi необходимо определить те значения ті, которые соответствуют линейным участкам на графиках зависимостей 7i=f(A"1) и 7tA=g(Tt), поскольку Е и Amoi определены только для этих участков.

Предлагается моделировать зависимость я=я(А, N0). При этом имитируются условия эксперимента, когда величина А изменяется равномерно. Используя две дополнительные нейросети, обученные на моделирование зависимостей 64 и 65.

При фиксированном значении начальной концентрации на вход сети поочередно подаются смоделированные значения я и А. На выходе сети, в зависимости от того, на что эта сеть была обучена, получаются Е или Amoi. Если построить графики зависимости Е = Е(А" , я) и Ато = А(яА, я), то те значения я, которые соответствуют линейным участкам на графиках зависимостей 7r=f(A" ) и яА=(я), образуют горизонтальные плато. А..,, нм Для того чтобы определить Amo и Е, а также диапазон изменения я для каждого линейного участка, достаточно прогистограммировать Ат0 и Е по всем точкам. На точки областей фазовых переходов, которым соответствуют нелинейные участки зависимостей я=ґ(А" ) и яА=ґ(я), в среднем приходится менее 15 % экспериментальных точек. Поэтому при гистограммировании бины с наибольшим количеством попавших внутрь этого бина точек соответствуют линейным участкам (рисунок 22). Границы бина определяют начало и конец участка. Середина бина соответствует значению Amoi и Е в данном фазовом состоянии. Гистограмма, построенная для No=0.910 Моль м"2 (рисунок 22) демонстрирует наличие одного линейного участка на кривой зависимости лА=і"(я), что соответствует фазовому состоянию слоя с Amoi = 2.6 нм2. Рис. 22. Гистограммирование величины Amoi при начальной поверхностной концентрации No=0.9 107 мольм"2.

В таблицах 9 и 10 сравниваются величины Amoi и Е, полученные с помощью интерполяции, с результатами, приведенными в работе [20]. Таблица 9. Интерполяция Ато1. Метод обучения: Resilient Propagation. Конфигурация сети: 2 нейрона в входном слое, 17 нейронов в первом скрытом слое, 9 - во втором скрытом слое, 1 - в выходном слое. Опорные точки: N0 = 0,9; 1,1; 2; 3; 6.1; 8.8 107 Мольм"2.

В среднем, расхождение между результатами, полученными экспериментальным путем и с помощью интерполяции, составляет 11,4 %, т.е. нейронная сеть интерполирует значение Amoi почти с 90% точностью. Это вполне приемлемый результат. Таким образом, нейронная сеть способна аппроксимировать зависимость 5 при любых значениях начальной поверхностной концентрации, как для малых, так и для средних значений поверхностного давления. Исключение составляют большие давления (п мН/м). используемый тип НС: персептроны. Метод обучения: Resilient Propagation. Конфигурация сети: 2 нейрона во входном слое, 14 нейронов в первом скрытом слое, 10 - во втором скрытом слое, 1 - в выходном слое. Опорные точки: N0 = 0,9; 1,1; 3; 6.1 107 мольм"2.

В среднем, расхождение между результатами, полученными экспериментальным путем и с помощью интерполяции, составляет 30 %, т.е. нейронная сеть интерполирует значение Е с 70 % точностью. Это означает, что при интерполяции Е следует учитывать какие - то иные входные параметры.

Структурирование и обучение нейронных сетей с применениями к задачам физической химии и медицины Филимонов Андрей Викторович

Выбор количества нейронов и слоев

Локальные минимумы

Понижение размерности входного вектора

Интерполяция данных

Похожие диссертации на Структурирование и обучение нейронных сетей с применениями к задачам физической химии и медицины