Моделирование и разработка численных методов обучения нейронных сетей суперпозиционной линейно-нелинейной структуры Сараев Павел Викторович

Данный автореферат диссертации должен поступить в библиотеки в ближайшее время
Уведомить о поступлении

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - 240 руб., доставка 1-3 часа, с 10-19 (Московское время), кроме воскресенья

Сараев Павел Викторович. Моделирование и разработка численных методов обучения нейронных сетей суперпозиционной линейно-нелинейной структуры : диссертация ... кандидата технических наук : 05.13.18.- Липецк, 2003.- 151 с.: ил. РГБ ОД, 61 03-5/2895-5

Содержание к диссертации

Введение

1 Исследование процесса неиросетевого моделирования и численных методов обучения нейронных сетей прямого распространения 10

1.1 Структура нейронных сетей прямого распространения 11

1.2 Исследование процесса неиросетевого моделирования 20

1.3 Численные методы обучения нейронных сетей и их связь с методами оптимизации

1.3.1 Постановка задачи обучения 28

1.3.2 Численные методы обучения на основе методов безусловной оптимизации 31

1.3.3 Численные методы обучения на основе методов решения нелинейных задач о наименьших квадратах 35

1.3.4 Процедура обратного распространения ошибки 38

Постановка задач диссертационного исследования 40

2 Разработка численных методов обучения неиросетевых моде лей, учитывающих их суперпозиционную линейно-нелинейную структуру 41

2.1 Применение блочных рекуррентно-итерационных процедур в задачах обучения нейронных сетей 42

2.1.1 Использование блочных рекуррентно-итерационных процедур в обучении нейронных сетей 42

2.1.2 Применение блочных процедур для последовательного наращивания структуры 47

2.2 Использование базового линейно-нелинейного соотношения в процессе обучения

2.3 Разработка численного метода обучения нейронных сетей на основе базового линейно-нелинейного соотношения 54

2.3.1 Разработка метода обучения нейронных сетей стандартной структуры 56

2.3.2 Распространение метода на многослойные многовыходные нейронные сети с нелинейной функцией активации в выходном слое 66

Выводы 73

Сравнительный анализ алгоритмических реализаций численных методов обучения 74

3.1 Разработка методики проведения вычислительных экспериментов по сравнению эффективности алгоритмов обучения 74

3.2 Структура программного комплекса для сравнительного исследования эффективности численных методов обучения

3.2.1 Алгоритмизация процесса исследования эффективности алгоритмов обучения 79

3.2.2 Структура программного комплекса исследователя 83

3.3 Результаты сравнительного анализа эффективности алгорит мов обучения 93

Выводы 103

Управление ценовой политикой на основе использования ней росетевых моделей 104

4.1 Разработка алгоритма принятия решений по управлению ценовой политикой предприятий 104

4.2 Структура программного комплекса нейросетевого моделирования для решения практических задач

4.2.1 Алгоритмизация процесса практического использования нейронных сетей ПО

4.2.2 Структура программного комплекса нейросетевого моделирования 116

4.3 Моделирование спроса и оптимизация тарифной политики ОАО «Липецкэлектросвязь» на основе использования ней ронных сетей 121

4.3.1 Построение нейросетевой модели спроса населения на услуги междугородной связи 121

4.3.2 Оптимизация тарифной политики ОАО «Липецкэлектросвязь» 129

Выводы 136

Заключение 137

Библиографический список

Численные методы обучения нейронных сетей и их связь с методами оптимизации
Использование блочных рекуррентно-итерационных процедур в обучении нейронных сетей
Структура программного комплекса для сравнительного исследования эффективности численных методов обучения
Структура программного комплекса нейросетевого моделирования для решения практических задач

Численные методы обучения нейронных сетей и их связь с методами оптимизации

Области определения всех рассмотренных функций активации ограничены. Для того, чтобы на выходе получать произвольные действительные значения, в некоторых нейронах активационная функция отсутствует—в этом случае говорят, что применяется единичная функция, то есть a (net) = net.

Совокупность нейронов, связанных друг с другом системой связей, образует НС [56,57,79]. Выходы части нейронов, называемых скрытыми, передаются по связям на входы других нейронов. Каждой связи сопоставляется вес (соответствующий вес нейрона, на который подается сигнал), и совокупность весов всех нейронов образует вектор весовых коэффициентов сети. Выделяется группа нейронов, выходы которых не передаются другим, а считаются результатом работы сети. Такие нейроны называются выходными.

Наиболее распространенным классом НС являются сети прямого распространения (НС ПР) [6,27,35,48,52,75,79,80]. В НС ПР (рис. 1.7) нейроны разделяются на несколько групп, называемых слоями. Нейроны, составляющие слой, не связаны друг с другом; на их входы подаются выходные значения нейронов предыдущего слоя. Входы НС ПР выделяют в отдельный слой — входной. Элементы входного слоя не являются нейронами, так как не преобразуют информацию, а лишь распределяют ее. В связи с этим, при подсчете количества слоев НС входной слой обычно (за исключением ряда работ) не учитывают. Слой, выходы нейронов которого не передаются на входы других нейронов, называется выходным — эти выходы образуют выходы всей НС. Все остальные слои называются скрытыми или промежуточными. Таким образом, m-слойная НС ПР состоит из одного входного слоя, т—1 скрытых слоев и одного выходного, m-го, слоя. Вычисление результатов производится сетью последовательно, от входного слоя к выходному. X, s ч ? Входы Слой і Слой т-1 Слой т Рис. 1.7. т-слойная нейронная сеть прямого распространения Пусть НС ПР состоит из т слоев, в Z-ом слое которой находится щ,1 = 1, ...,т нейронов. Пусть w1-1 — j-й вес г-го нейрона /-го слоя [2]. Функционирование нейрона определяется формулой где У-1 0 = 1, I = 1,...,га — фиктивные единичные входы; у0 -7 = я.,-, j = 1,... , n — реальные входы сети. Наличие верхнего индекса 1 г отражает то обстоятельство, что активационные функции нейронов могут отличаться друг от друга. Несмотря на это, функции активации всех нейронов скрытых слоев обычно берутся одинаковыми (сигмоидными логистическими). Нейроны выходного слоя в подавляющем большинстве случаев содержат единичную функцию активации, чтобы сеть могла выдавать произвольные результаты, а не только ограниченные областью значений функции.

Выходы нейронов 1-го слоя могут быть представлены в виде вектор-столбца у1, а веса нейронов слоя — в виде матрицы W1 є Knix(n -i+1)) в которой г-я строка состоит из весов нейрона (/,г). Матрица W1 представляет блочную матрицу Wl = [wl0 \ W[], где wl0 Є МП( — веса нейронов, соответствующие единичным входам; W{ є Rre xn -i — матрица весов связей между нейронами (I — 1)-го и /-го слоев. На основе введенных обозначений работу 1-го слоя НС ПР в векторно-матричной форме можно записать в виде у1 = a1 {wl0 + W[y1-1) , где fl — векторная функция векторного аргумента, соответствующая применению функций активации нейронов 1-го слоя. На основе данного соотношения функционирование всей НС в целом представляется в форме у = ут = ат (w + Wam-1 (. ..{wl + W2ox [w\ + W\x)) ...)), где x M.n — входной вектор сети, у є W — вектор выходов НС. В случае наличия единичной функции активации в выходных нейронах преобразование, выполняемое НС, имеет вид: у = w + W a171 1 (...(w% + W2al (wl0 + W\x)) ..). Формула показывает, что НС ПР реализует сложную нелинейную функцию. Данная функция имеет суперпозиционный характер, лежащий в основе многих алгоритмов эффективного использования НС ПР. Важным обстоятельством является возможность дифференцирования выходов сети по весовым коэффициентам и входным переменным НС.

Следует заметить, что многослойные сети не приводят к увеличению вычислительной мощности по сравнению с однослойной сетью в том случае, если нейроны скрытых слоев обладают единичными активационными функциями [79]. Действительно, в этом случае вычисление выхода слоя будет заключается в умножении входного вектора на первую весовую матрицу с последующим умножением результирующего вектора на вторую весовую матрицу и т.д.: у = w + W (... (wl + W2 (wl + Wlx)) ...)=w0 + Wx.

Это показывает, что любая многослойная линейная сеть может быть заменена эквивалентной однослойной сетью. Одновыходной стандартной НС ПР (а также полутораслойным предиктором [59]) называется двухслойная НС с единичной функцией активации у единственного нейрона выходного слоя. Работа сети данной структуры описывается формулой Я / п \ q / п \ г=1 V j=l J =1 \j=0 J где q — количество нейронов единственного скрытого слоя; a Wij,j = 1,...,п, — веса г-го нейрона скрытого слоя, Wio — веса фиктивных единичных входов, Wi — вес нейрона выходного слоя, соответствующий г -му нейрону скрытого слоя. Стандартная сеть с несколькими выходными нейронами называется многовыходной стандартной НС ПР.

Использование блочных рекуррентно-итерационных процедур в обучении нейронных сетей

В [14] БРИП получили дальнейшее развитие — они были применены к задачам пошаговой регрессии, связанным с добавлением новых параметров в регрессионную модель ф(ги,х). При этом добавление новых параметров w производилось на основе суперпозиционного расширения исходной модели до 6(w,w,x) в смысле 0(w, w, х) = ф(ги, ф(ги, х)).

Рассмотрим применение блочных процедур к последовательному наращиванию структуры одновыходной НС ПР [19,20]. Можно выделить два способа такого наращивания: 1) добавление нейрона в последний скрытый слой (рис. 2.2); 2) добавление нового слоя, состоящего из одного нейрона, перед выходным слоем (рис. 2.3). Рассмотрим первый вариант. Новый нейрон приводит к появлению аддитивной добавки Пт-2 y{w, W] X) = W+1f{ Y 0,g+l + Щ,д+іУт 2 г)і г=1 где w є Rn-2+2 — вектор, составленный из весов добавленного нейрона и веса от добавленного к выходному нейрону; ут 2 г — выход г-го нейрона т — 2-го слоя. Здесь добавленная функция будет зависеть от части вектора весов w предыдущей сети — весов нейронов скрытых слоев, находящихся с 1-го по (т — 2)-й слои. Получившаяся сеть реализует функцию ynew(w,w;x) = y(w;x)+y(w,w;x). Благодаря тому, что вводится аддитивная добавка, корректировка весов может быть представлена в следующей форме: Aw = L(y-ynew(wt,wt)) = L(y-y(wt) - y{wt)), Рис. 2.2. Добавление нейрона в последний скрытый слой Рис. 2.3. Добавление слоя с одним нейроном перед выходным слоем Aw = (Vlynew) (I - V%ynewL) (у- ynew). В связи с тем, что V ynew = V + Vwy и Vijyneuj = 4%у, получаем следу ющее: Aw = {Vly + VTwy)+ {y-y -y-WlyAw). Данная формула показывает, как зависит пересчет вектора весов w в зависимости от весов добавленного нейрона. Если нейрон добавляется в НС ПР стандартной структуры (га = 2), то уш-2,г __ х, _ ВХОд5 а добавка y(w,w;x) = y(w;x), то есть не зависит от вектора w. Аналогично [14] получаем, что V ynew = V y А = (Vy)+ {У-У-У- V A ) = (Aw)y - (Vly)+ (у + VlyAw), где {Aw) — приращение, полученное для первоначальной сети y(w,x), обозначенное так для отличия его от Aw в новой сети. Это соотношение показывает связь приращения вектора полученной НС в зависимости от приращения этого вектора в старой сети и приращения весов добавленного нейрона. Матрицы Якоби V y и V y, а в случае многослойной сети и V y, получаются на основе процедуры, аналогичной ОРО.

Перейдем к рассмотрению случая, когда добавляется новый слой из одного нейрона. Такой способ наращивания структуры сети реализуется суперпозицией функций ynew{w, w; х) = wf(y{w, х)). Заметим, что Vlynew = wDkV y, где Dk = diag {ҐУІ{УІ)}І=1 — диагональная матрица порядка к, составленная из производных функций активации по своему аргументу на обучающем множестве, a V ynew = Ф- Поэтому Aw = (wDkX7ly)+ (I - ФЬ) (у- ynew) = (Vly)+ Я+Й+ {у-у-у- Aw) Здесь w+ — скаляр (w = 0 выполняется лишь в вырожденных случаях), а матрица D = diag \_Ї УІ{УІ)\ \ также легко определяется.

Данные способы добавление новых весовых коэффициентов в нейро-сетевую модель могут использоваться в алгоритме последовательного наращивания структуры НС, приведенном на рис. 2.4. Ошибка обобщения, используемая в данном алгоритме, представляет собой оценку адекватности построенной модели. Обычно в ее качестве берется ошибка работы Ввод максимального количества скрытых слоев пл и нейронов в слое к Текущее количество скрытых слоев i:=0 Текущее количество нейронов в последнем скрытом слое j:=0 Обучение и расчет ошибки обобщения е; нет j:=j+1 Обучение и расчет ошибки обобщения е1 Ж Сохранение вектора весов w1 X i:=i+1; j:=1 Сохранение вектора весов w нет Восстановление структуры и вектора весов w Обучение и расчет ошибки обобщения е2 Обучение и расчет ошибки обобщения е Восстановление структуры и вектора весов w1

НС на тестовом множестве, хотя могут использоваться и другие оценки. Предлагаемый алгоритм производит наращивание структуры до тех пор, пока уменьшается ошибка обобщения. При этом задается максимальное количество слоев НС и максимальное количество нейронов в слое, ограничивающие рост структуры. В алгоритме определяется лучший способ наращивания структуры: добавление нейрона в последний скрытый слой или формирование нового скрытого слоя перед выходным, состоящего из одного нейрона.

На базе БРИП могут быть реализованы процедуры адаптивного обучения нейросетевой модели при поступлении новых данных [13,19]. Задача адаптации модели на новых данных в некотором смысле двоиствена задаче последовательного наращивания структуры НС. Действительно, в первом случае формируемая матрица Якоби пополняется новыми строками (соответствует появлению новых строк), а во втором — новыми столбцами (соответствует появление новых параметров, подлежащих оптимизации).

Структура программного комплекса для сравнительного исследования эффективности численных методов обучения

Как видно, структура соответствует линейно-нелинейной по параметрам модели. Таким образом, численный метод обучения одновыходных стандартных сетей, основанный на БЛНС, распространяется практически без изменений на область многослойных сетей. Матрица Ф(г ) образуется на массиве обучающих данных из выходов y l(v,x). Изменения касаются только процесса нахождения матрицы Якоби для Ф(г ) (и, соответственно, Фт(г )) по вектору весов г .Для этого применяется способ, аналогичный процедуре ОРО и связанный с учетом суперпозиционного характера НС ПР. Требующая вычисления производная dy /dwj , і = 1,... ,тгт_і, h = l,...,ra — 2, к = 1,...,п/г, где Wj — j -й вес к-то нейрона /г-го слоя, на основании формулы расчета для производной сложной функции определяется как (h,k) dyf-1 _ ду-1 dyj dnet3 ЦМО dyhk QnetW dwfM „та-1 nh+i Q,,m-1 я„Л+1 nh+1 Л..А+1 M) диг1 yi дуг дуГ у м.„+1.пдуГ h_m_2 1 Начальное условие получается следующим образом: s(i,m l,l) = дУ? _ ОуШ-1 1, і= з . . _ , %, J — 1, . . . , 7lm_ і. О, іфз С теоретической точки зрения, в случае обучения многослойных сетей метод, основанный на БЛНС, не является столь эффективным, как в случае стандартных. Связано это с тем, что доля линейно входящих весов в многослойных сетях обычно невелика по сравнению с количеством весов скрытых слоев, и поэтому степень снижения размерности пространства оптимизируемых весов ниже, чем при обучении НС стандартной структуры.

Перейдем к рассмотрению ситуации с несколькими выходами НС ПР (это соответствует понятию многооткликовой регрессии в статистическом анализе). В этом случае выход сети представляет собой вектор у є Rr, г 1. Специфика обучения таких НС обычно не анализируется, так как задача, решаемая одной r-выходной сетью может быть решена с использованием г одновыходных сетей. Однако, существуют причины, по которым использование совокупности одновыходных сетей нецелесообразно или просто невозможно [50,69]: - для обучения нескольких сетей необходимы затраты огромных временных ресурсов, что в условиях практической деятельности зачастую бывает невозможным; - выходы сети не являются независимыми в связи с характером моделируемого процесса; - некоторые задачи явно требуют наличие лишь одной сети со многими выходами.

При обучении многослойных НС вместо функционала (1.4) минимизации подлежит функционал (1.3). Как и обучение сетей с одним выходом, обучение многовыходных НС может производиться с использованием общих и специально ориентированных методов оптимизации. Общие методы оптимизации, используемые для обучения сетей (см. раздел 1.3), основанные на вычислении градиента ошибки при помощи процедуры ОРО, не требуют каких-либо изменений в алгоритмах.

Способ распространения специальных методов, включая метод, основанный на БЛНС, основывается на представлении матрицы невязок работы выходов сети на обучающем множестве в виде одного вектора. Действительно, вместо матрицы невязок R(w) — n(w) r2(w) ... rr(w) Пі Гі2 ... Гіг Г21 Г22 ... Г2г yu{w)-yn yi2(w)-№ y2l(w)-y2l /220)-у22 Пі rk2 . Viriw) - ylr y2r(w) - y2r kr fcxr Vkl(w) - yki yk2(w) Ук2 Vkr(w) - Укг T kr r[ (w) r2 (w) ... rr (w) можно использовать вектор vecR(w) -Здесь vec — операция «вытягивания» матрицы в вектор, ri(w) — yi(w) — yi — вектор невязок г-го выхода на обучающем множестве, yi(w) яуі — векторы значений г-го выхода, і — 1,...,г, на обучающем множестве и указания учителя для г-выхода соответственно. Минимизация функционала j(w) = \\R(w)fF = J2J2rl (2-30 где \\R\\F — норма Фробениуса матрицы, являющегося другим способом записи (1.3), эквивалентна минимизации квадратичного функционала J(w) = vec R(w)\\2 — (vec R(w))T vec R(w). В этом случае специальные методы решения НЗНК переносятся без изменений. Недостатком данного подхода является рост сложности задачи обучения, связанный с фактическим увеличением объема обучающего множества (пропорциональным количеству выходов г). Матрица Якоби для vecR строится как блочная матрица (vec Я) = yi{w) У2М yr{w) ikrxn

Способ распространения численного метода обучения, основанного на БЛНС, на многослойные НС ПР аналогичен. Обозначим через U є Rqxr веса нейронов выходного слоя (щ — веса г-го выходного нейрона). Тогда матрица выходов НС Y є Жкхг, сформированная на обучающем множестве, может быть вычислена на основе формулы Y = ty(v)U, поэтому (2.30) перепишем в виде

Структура программного комплекса нейросетевого моделирования для решения практических задач

Четвертая глава диссертации содержит информацию о применении нейросетевых технологий увеличения эффективности ценовой политики коммерческих предприятий. Предложена методика применения НС для решения указанных задач, ориентированных на увеличение объема сбыта или максимизацию дохода предприятия. Приведены преимущества такого подхода перед другими методами ценообразования.

Приводится информация о разработанном ПК, реализующем предлагаемую методику, его структура, функциональное наполнение и алгоритмические особенности.

Предлагаемая методика использована для анализа текущей политики ОАО «Липецкэлектросвязь» в сфере предоставления услуг междугородной телефонной связи. Указаны причины необходимости данного исследования. Разработана модель зависимости объема спроса населения и прибыли от предоставления услуг связи. Произведена оптимизация тарифов и спрогнозировано их влияние на объем трафика и уровень доходов. Результаты работы приняты к внедрению в ОАО «Липецкэлектросвязь».

Эффективная ценовая политика, безусловно, является важнейшим элементом успешного функционирования предприятия [6,9,76,78]. Сложность оптимального управления ценовой политикой заключается в невозможности точного описания спроса потребителей на данный вид услуг (вместо услуги может пониматься и некоторый вид товара). Действительно, на спрос влияет огромное множество факторов, среди которых многие не поддаются формальному описанию (психологические особенности людей) или измерению (родственники и географическая населенность потенциальных потребителей). Перед предприятием может стоять одна из двух основных задач: 1) увеличение объема предоставляемых услуг; 2) увеличение прибыли от реализации услуг. Хотя эти цели не являются взаимоисключающими, они являются конкурирующими; одновременное их преследование крайне редко. Данное обстоятельство связано с тем, что достижение обеих целей возможно, в принципе, только при предоставлении предприятием новой услуги (новой продукции). В противном случае предприятию необходимо определиться с выбором цели.

Необходимость моделирования процесса ценообразования и определение влияние изменения цен на достижение цели определяется сложностью и многообразием влияющих на спрос факторов. В связи с этим нельзя просто определить, повышение или снижение цены приведет к желаемому результату.

Можно выделить следующие основные методы ценообразования, используемые фирмами в ходе своей деятельности [76]: - с ориентацией на затраты; - с ориентацией на полезность продукции; - с ориентацией на спрос; - с ориентацией на конкуренцию; - на основе равновесия между затратами, спросом и конкуренцией.

Данные способы по-разному подходят к формированию цены услуги, имеют свои преимущества и недостатки. Однако, все эти методы имеют один общий, довольно большой, минус: каждый метод опирается на субъективные и труднообоснованные предположения или предпочтения о желаемой величине прибыли. Например, формирование цен на основе полных (постоянных в сумме с переменными) затрат производится на основе формулы где р —- цена, с — величина полных затрат на единицу продукции, dc — рентабельность (%) продукции. Задаваемая при определении цены величина рентабельности dc не имеет объективных обоснований, что не позволяет рассматривать данный метод как метод, приводящий к поставленной цели предприятия об увеличении объема сбыта или прибыли. Аналогично другие методы в той или иной форме включают в себя определенные суммы желаемой прибыли.

Подход, заключающийся в разработке и исследовании математической модели для формирования цен, позволяет основываться на объективных данных, имевших место в прошлом. Данный подход позволяет отыскивать закономерности рынка, автоматически определяя возможности потребителей. Модель, позволяющая принимать оптимальные решения по управлению ценовой политикой, может быть построена на основе НС ПР. Основные этапы оптимизации ценовой политики приведены на рис. 4.1 [70,71].

Для построения качественной модели, прежде всего, должны быть правильно отобраны значения для их подачи на входы ХІ, і = 1,... ,п, и выходы г/j, j = 1,..., т, сети. Выбор, естественно, должен опираться на область моделирования, но в первую очередь, необходимо учесть следующие факторы, влияющие на спрос, характерные для всех услуг: - стоимость услуги; - параметры, характеризующие качество предоставляемых услуг; - платежеспособность населения; - предоставление взаимозаменяемых и взаимодополняемых услуг, что отражается в необходимости управления ценообразованием всего спектра взаимозависимых услуг. Все факторы, определяющие спрос, разбиваются на две большие группы: - внешние, например, платежеспособность населения;

Моделирование и разработка численных методов обучения нейронных сетей суперпозиционной линейно-нелинейной структуры Сараев Павел Викторович

Численные методы обучения нейронных сетей и их связь с методами оптимизации

Использование блочных рекуррентно-итерационных процедур в обучении нейронных сетей

Структура программного комплекса для сравнительного исследования эффективности численных методов обучения

Структура программного комплекса нейросетевого моделирования для решения практических задач

Похожие диссертации на Моделирование и разработка численных методов обучения нейронных сетей суперпозиционной линейно-нелинейной структуры