Разработка инструментария нейросетевого разведочного анализа и поддержки принятия решений по развитию экономических систем Шиболденков Владимир Александрович

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Шиболденков Владимир Александрович. Разработка инструментария нейросетевого разведочного анализа и поддержки принятия решений по развитию экономических систем: диссертация ... кандидата Экономических наук: 08.00.13 / Шиболденков Владимир Александрович;[Место защиты: ФГБОУ ВО «Московский государственный технический университет имени Н.Э. Баумана (национальный исследовательский университет)»], 2019.- 208 с.

Содержание к диссертации

Введение

Глава 1. Анализ специфики информационно-аналитической и управленческой деятельности в условиях цифровизации экономики 13

1.1 Анализ процессов цифровой трансформации экономических систем и развития инфраструктуры производства знаний 13

1.2 Анализ существующих подходов и методов использования технологий искусственного интеллекта в экономике 24

1.3 Идентификация перспективных направлений использования технологий искусственного интеллекта и нейросетевого моделирования при выработке управленческих решений по развитию экономических систем 38

1.4 Постановка научной задачи исследования 50

Выводы по главе 1 53

Глава 2. Проектирование инструментария нейросетевого разведочного анализа экономических данных на основе самоорганизующихся карт 55

2.1 Подход к применению математического аппарата самоорганизующихся карт к разведочному анализу экономических данных 55

2.2 Разработка алгоритма конфигурирования параметров разведочной нейросетевой карты 64

2.3 Разработка алгоритма настройки разрешающей способности разведочной нейросетевой карты 76

2.4 Разработка алгоритма визуализации экономических данных на разведочной нейросетевой карте 86

Выводы по главе 2 98

Глава 3. Реализация инструментария нейросетевого разведочного анализа данных для поддержки принятия управленческих решений по развитию экономических систем 100

3.1 Программная реализация прототипа инструментария нейросетевого разведочного анализа с использованием Deep Learning Toolbox для MATLAB 100

3.2 Апробация инструментария нейросетевого разведочного анализа для исследования макроэкономических систем 107

3.3 Апробация инструментария нейросетевого разведочного анализа для исследования микроэкономических систем 124

3.4 Рекомендации по использованию инструментария нейросетевого разведочного анализа для поддержки принятия решений 140

Выводы по главе 3 155

Заключение 157

Список сокращений и условных обозначений 159

Список литературы 162

Приложение А. Исходный код для программной реализации инструментария в MATLAB 175

Приложение Б. Исходные данные для исследования макроэкономических систем 195

Приложение В. Исходные данные для исследования микроэкономических систем 199

Анализ существующих подходов и методов использования технологий искусственного интеллекта в экономике
Подход к применению математического аппарата самоорганизующихся карт к разведочному анализу экономических данных
Разработка алгоритма визуализации экономических данных на разведочной нейросетевой карте
Рекомендации по использованию инструментария нейросетевого разведочного анализа для поддержки принятия решений

Анализ существующих подходов и методов использования технологий искусственного интеллекта в экономике

Современное понятие технологии искусственного интеллекта объединяет ряд достижений в области алгоритмизации обработки информации и кибернетики. Как и любая другая сложная технология, она обладает продолжительной историей развития и рядом эпох повышения и снижения заинтересованности в ней. Первые шаги по формализации мыслительной деятельности человека выполнены в фундаментальных исследованиях Маккалока У., Питтса У., Хебба Д., Минского М. [9-17] в середине XX века. Что в результате дало математическую модель функционирования искусственных нейронных сетей. Далее развитие замедлилось на несколько десятилетий из-за недостаточности технологической и аппаратной базы для компьютерной имитации нейронных сетей. В 1986 году после разработки концепции глубокого обучения, представленной в трудах Дехтера Р., Фукусимы К., Хинтона Д., Хопфилда Д. и др. [11-16], началась новая волна заинтересованности в технологиях искусственного интеллекта, которая была вызвана широким развитием информационно-коммуникационных технологий. Эта заинтересованность вызвала новый виток разработок в области нейросетевого моделирования. Появились работы С. Элце, Т. Кохонена, Г. Дебока, Т. Хонкела, С. Рассела, С. Бишопа, С. Хайкина, С. Осовского, М. Полла [21-23,24-32]. Среди отечественных ученых, занимавшихся проблемами информационных систем интеллектуального анализа данных, следует выделить А.А. Барсегяна, А.Е. Бром, А.Г. Броневича, Ю Ву, А.И. Гав-рилова, Н.Г. Загоруйко, А.Ю. Зиновьева, А.П. Ковалева, Е.В. Луценко, А.И. Орлова, Е.П. Попова, А.С. Птускина, К.А. Пупкова, В.В. Солодовникова [18-36].

Архитектура, технические характеристики, системы связи, базы данных существенно шагнули вперед в XXI веке и стимулировали колоссальный рост технологического пакета ИЦТ, в который вошли: алгоритмы обучения (1986-1989 гг.), интеллектуальный анализ данных (1990 г.), большие данные (1998 г.), сеть знаний (2000 г.), машинное обучение (2001 г.), социальные сети (2005 г.), распознавание лиц (2012 г.), персонализация (2013 г.) социальные сервисы (2015 г.), предиктивная бизнес-аналитика (2016 г.), качественная обработка естественного языка (2017 г.), цифровизация бизнес-процессов (2017 г.) и т.д.

Таким образом, в данной области исследований был сформирован научный задел, разработан и апробирован научно-методический аппарат, представленный работами [40–78]. Теоретические проблемы разведочного анализа экономической информации подробно рассмотрены в работах [40-63], включая проблемы применения искусственных нейронных сетей для анализа экономических процессов [60-63]. Прикладные вопросы разработки инструментария разведочного анализа экономических процессов изложены в публикациях [32-70]. Специфика применения нейросетевых технологий для анализа социально-экономических систем раскрыта в работах [33-34]. Имеющийся в данных работах научный задел использован для постановки научной задачи и проведения дальнейших исследований.

Развитие когнитивных и нейроморфных наук [8] в сочетании с прикладными возможностями подробной персональной аналитики (доступные большие данные, дешевые сенсорные массивы) обусловили появление целого ряда новых направлений междисциплинарных исследований, объединяющих отрасли медицинских, социально-психологических, информационно-телекоммуникационных и экономических знаний. Среди наиболее динамично развивающихся из них можно выделить:

– анализ влияния нейробиологии и нейрохимических процессов на принятие решений и способы управления ими;

– анализ, симуляцию и управление когнитивно-поведенческими механизмами;

– формализацию физиологических и психологических основ концепций памяти, эмоций, выбора, воли, мотивации, стимула, вознаграждения и т.п.

– нейроаналитику и прикладные нейроисследования, основывающиеся на экспериментальном анализе процесса принятия решений и потребительского поведения;

– нейроэкономические исследования, заключающиеся в разработке на основе обобщения исследований нейронаук прагматических механизмов для понимания процесса принятия решения конкретного экономического субъекта и управления его поведением.

В современных научных публикациях показано, что при рассмотрении традиционного устройства компьютера обнаруживается проблема неоптимальности принципа его работы: при выполнении вычислений компьютер занимается непрерывным манипулированием данными, так как ему приходится бесконечно перемещать их на протяжении всего цикла работы между элементами памяти и элементами вычислений. Очевидно, что это неэффективно как со стороны времени – приходится делать «лишние» процедуры извлечения, транспортировки, хранения, записи и т.д.; так и со стороны организации – операциям приходится выстраиваться в цепь событий из-за занятости каких-либо элементов системы (процессора, памяти, или соединяющей их шины) [35].

В свою очередь, биологическая память в мозге организована значительно рациональнее и эффективнее. В живой системе используется принцип ассоциации, т.е. знания сохраняются в определенном смысловом порядке, с пространственной близостью по групповым свойствам. Проще говоря, мозгу не нужно иметь дополнительную картотечную информацию (как индексация адресов в компьютере), потому что все нужные сведения объединены функциональной ассоциацией. Понятно, что данного рода архитектура существенно экономит как ресурсы, так и время для поиска фактов, ведь операции обработки конкретного элемента данных происходят сразу же в нейронах, содержащих его [35]. Причем широкие обобщающие способности по укрупнению ассоциаций и конструированию многообразных, иерархически вложенных подгрупп позволяют производить колоссальную экономию по объему хранимых в голове фактов. Поэтому идеи биоморфного и нейроморфного подхода (т.е. реализациях механизмов целых живых организмов или их мозговых структур в технических системах) находят широкое применение у специалистов из разных областей знания.

Перспективными технологиями аналитической обработки больших массивов экономических данных и построения специальных визуальных карт представляются искусственные нейронные сети – программные и аппаратные реализации математических моделей организации и функционирования биологических сетей нервных клеток живого организма. Идея искусственной нейронной сети берет за основу механизмы работы человеческого мозга: между его нервными клетками установлены гибкие, хорошо регулируемые связи, называемые синапсами. Если описывать работу нейрона в инженерных терминах, то это своего рода процессор, объединенный в полносвязную, пластичную модель с такими же элементами многожильными кабелями (аксонами) с неординарной системой регуляции связей за счет электрохимических вентилей (синапсов). При функционировании клетка активируется не сразу, а ожидает некоторого порогового сигнала возбуждения [9]. Причем работа нейрона по передаче сигнала может управляться по различным правилам. Каждая клетка регулируется частотно-импульсными законами: может оцениваться не только количественный уровень электрического сигнала, но также его временные параметры (продолжительность, периодичность) и его структура (распределение входного сигнала, группировка сигналов от нескольких клеток сразу и пр.). Это позволяет отфильтровывать случайные элементы, адекватно реагировать на разного рода воздействия и формировать очень сложные законы деятельности ансамблей клеток.

Связи постоянно адаптируются под выполняемую задачу, перестраиваются, изменяют свою интенсивность и даже разрываются при необходимости глубокого преобразования. За многолетнюю историю разработки искусственных нейронов накопилось множество модификаций классического представления и его трактовок, поэтому требуется указать, что в работе считается элементарным нейроном.

В практическом плане элементарный искусственный нейрон представляет собой простой взвешивающий сумматор с некой передаточной функцией активации, формирующей желаемый вид функционирования нейрона [9]. Таких стандартных функций всего три: это возрастающий бинарный или биполярный скачок (т.е. простая пороговая функция), гистерезис и сигмоида (а также разные их вариации), которые формируют нужный механизм возбуждения [13,14].

Подход к применению математического аппарата самоорганизующихся карт к разведочному анализу экономических данных

Подход к применению математического аппарата самоорганизующихся карт для разведочного анализа экономических данных состоит в представлении изучаемой экономической системы в виде множества объектов экономических данных, например, предприятий – для микроэкономики, национальных инновационных систем – для макроэкономики. Каждый объект, в свою очередь, характеризуется множеством атрибутов. В основу подхода положена технология проецирования множества объектов экономических данных в специализированную разведочную нейросетевую карту (РНСК), на которой они визуализируются и упорядочиваются по мерам схожести, отражающим их семантические связи друг с другом.

Для разработки подхода использовались элементы общих и прикладных методов научного познания, ключевую роль среди которых составили: систематизация, классификация, формализация принципов принятия решений, представление знаний, онтологическое моделирование, нейросетевое и когнитивное моделирование, разведочный анализ и визуализация данных.

В качестве исходных образцов экономических данных используются статистические и аналитические отчеты, доклады и обзоры международных и национальных организаций, институтов, агентств за 2013-2018 года; среди которых особо стоит выделить:

– базы данных по результатам национальной научно-технической активности «US National Science Foundation», «World Intellectual Property Organization», «United Nations Educational», «Scientific, and Cultural Organization, United Nations Development Programme», «INSEAD», «The World Bank»; – базы корпоративных аналитических исследований «World Values Survey», «Globe Project», «Schwartz Value Survey», «Social Axioms Survey»;

– государственные статистические базы Федеральной службы государственной статистики, Федеральной налоговой службы, Министерства финансов Российской Федерации,

– базы раскрытия корпоративной информации «СКРИН», «e-disclosure.ru».

Для задач поддержки принятия экономических решений используются технологии разведочного анализа данных в комплексе с инструментальными средствами машинного обучения, позволяющие сформировать самостоятельно обучающиеся алгоритмы, работающие с информацией без предварительных гипотез с целью автоматического поиска коммерциализируемых закономерностей и особенностей исходной выборки сведений.

К тому же, необходимо учесть специфику предметной области: принятия решений в условиях многофакторной, многомерной, разнородной и сложной структуры данных, описывающих процессы трансформации и развития экономических систем. Данная проблема требует особого подхода при разработке стратегий развития экономических систем всех уровней.

Нейросетевой разведочный анализ (НРА) представляет собой анализ основных свойств данных посредством их визуализации на самоорганизующихся картах, выявления закономерностей и аномалий, построение начальных гипотез для дальнейших исследований. НРА реализует предварительную, углубленную и интеллектуальную проработку предпосылок для последующего принятия управленческих решений. Задачи НРА включают:

– глубокое понимание исходной выборки данных;

– обнаружение и осмысление структур и закономерностей;

– идентификация нарушений, отклонений, аномалий, контрпримеров и т.п.;

– формирование предположений, построение гипотез и проектирование моделей. Предварительное рассмотрение данных является важным этапов экономико-математического моделирования, так как направлено на уточнение особенностей и усиление недоработанных гипотез для последующего развития, и проверки в разрабатываемой модели.

Рисунок 2.1 иллюстрирует основные элементы предложенного подхода к применению математического аппарата самоорганизующихся карт для разведочного анализа экономических данных.

Таблица 7 содержит понятийный аппарат, разработанный с использованием объектно-ориентированной онтологии и элементов теории множеств для решения поставленной научной задачи.

Для задач разведочного анализа априорно неизвестны ожидаемые закономерности в данных, и поэтому применяются методы гибкой аппроксимации, когда никакие предварительные параметры не вводятся в модель.

Подготовка данных – это важный и сложный начальный этап работы при использовании нейросетей. Выборка данных должна отображать настоящее положение в предметной области и при этом не ухудшать качество работы сети за счёт противоречий. Также недопустимо подавать совсем «зашумлённые» данные, так как значительный случайный шум внесет серьезные нарушения в истинность представления данных и в конечном счёте в правильность работы нейросети. В начале работы надо проанализировать представляемость данных, т.е. способность сети выполнить предлагаемую работу. Ещё важной особенностью является верное представление данных, как входных, так и выходных.

При вводе данных в нейросетевую карту желательно нормировать значения на единицу, или просто разделить на максимальное по модулю в ряду, что обусловлено требованием нейросетей к их структуре, в особенности к выбранным активационным функциям. Нормирование помогает при работе с параметрами разных порядков, так как в отсутствие нормировки будет перекос влияния в сторону параметров с большими значениями, что нарушит истинную картину.

Нормализация данных приводит среднее значение по всем данным к нулю, что облегчает использование статистических оценок и наглядность визуального представление больших наборов данных. Рекомендуется выполнение двух условий: некоррелированность данных Е(Х, У) = Е(Х) E(Y), что на деле означает их несвязанность, и их ковариация желательно должна быть схожей cov(X, У) = Е(Х — E(X)(Y — Е(У))) -» 0, это и помогает избавиться от неверного представления данных (Е - математическое ожидание, X и У - переменные).

Выборка реальных данных обычно не распределена равномерно и поэтому для практического удобства необходимо провести процедуру смещения среднего простым прибавлением (или вычитанием) нужной константы, которое переместит выборку в нужную область.

Процедуру декорреляции описывают специальным разностным уравнением для каждого конкретного случайного распределения, в котором учитывают меры влияния между друг другом. В практическом плане более удобно добавление некоторого небольшого шума в выборку.

Рисунок 2.2 показывает структуру общего алгоритма нейросетевого разведочного анализа данных. Общий алгоритм функционирования НСК соответствует принципу обучения без учителя, используемого в аппарате искусственных нейронных сетей. Начало процесса обучения происходит со случайной инициализации всех весовых коэффициентов узлов. Далее начинается цикл обучения, который будет выполняться итерационно пока не будет достигнуто условие прекращения обучения. Для единичных нейронов сетки (кортежей входных сигналов нейронов, весовых коэффициентов узлов, нейронов-победителей) рассчитывается локальное рассогласование между входными и выходными сигналами. Затем при помощи алгоритма обратного распространения ошибки моделируется рассогласование узлового, слоевого и глобального уровней. Далее выполняется коррекция весовых коэффициентов по всей сети и проверяется условие прекращения обучения. Предлагаемый алгоритм предназначен для формирования специализированных разведочных нейросетевых карт (РНСК) и обеспечивают когнитивно-моделирующую визуализацию экономических данных (ЭД) для лиц, принимающих решения.

Для самоорганизующейся карты находят набор дискретных данных, олицетворяющих узлы, которые представлены своими векторами, составленными из переменных геометрического положения и весовых коэффициентов связей между нейронами. Такая «цепная» конструкция из дискретных, но связанных между ячеек, эффективнее, с более плавным движением, так как когда узел перемещается, он тянет за собой именно соседние узлы, и как уже писалось выше, на каждой итерации «подтяжка» соседей будет происходить на все меньшее и меньшее расстояние.

Цепная модель позволяет избавиться от части топологических проблем традиционных методов, таких как зигзаги, петли, и прочие спутанности непрерывных кривых [22]. Для формализации описанного процесса используют меру соседства, некую монотонно убывающую от времени функцию, выражающую влияние на соседей.

Разработка алгоритма визуализации экономических данных на разведочной нейросетевой карте

В диссертации разведочной нейросетевой картой (РНСК) будем называть такую нейронную сеть, в которой количество элементарных нейронов существенно больше количества предъявляемой ей образцов. В работах [25, 28, 29] можно увидеть масштабные карты размерами в тысячи клеток, но на практике для продуктивных результатов даже без модификации планарной топологии карты достаточно преобладания в 2-3 раза.

Под системными свойствами понимают возникновение у сложной системы из простых элементов особых структурных свойств, которыми сами базовые блоки не обладают.

Тогда, полученный таким образом результат деятельности нейронной карты (узор, паттерн), сам по себе может обладать значительной научной ценностью [25]: чрезвычайно детальное разбиение анализируемой выборки дает возможность замечать новые подмножества в известных классах и неизвестные, скрытые особенности модели, а также отчетливо наблюдать закономерности межгрупповой и внутригрупповой иерархии [28].

Алгоритм визуализации экономических данных на РНСК (A3) предназначен для интуитивно понятного формализованного представления исследуемой предметной области. Он обеспечивает когнитивно-моделирующую визуализацию результатов разведочного анализа процессов развития экономических систем с использованием комбинации специализированных статичных и градиентных цветовых палитр. Алгоритм (A3) состоит из следующих блоков (см. Рисунок 2.5):

– ввода рабочей конфигурации (A3.1), подобранной на предыдущем этапе конфигурации параметров НСК с наилучшим значением разрешающей способности карты;

– конфигурирования параметров визуализации (A3.2) и формирования цветовой палитры (A3.3), преобразующих числовые значения ЭД в диапазоны специально подобранных и когнитивно понятных для цветовых палитр величин. Когнитивно-моделирующая визуализация при помощи РНСК представляет собой графическую модель функционирования экономической системы, учитывающая причинно-следственные связи между компонентами её структуры;

– цветового кодирования ЭД (A3.4) и отображения условных обозначений (A3.5), графически отражающих ЭД при помощи вариации интенсивности окрашивания элемента и пиктографических образов. Механизм когнитивного визуального кодирования представлен следующей формальной моделью с учетом аддитивной цветовой модели когнитивно-моделирующих фильтров, отражающих компонентные и групповые свойства, относительные характеристики, топологические особенности выборки данных; – вывода РНСК с визуальными фильтрами (A3.6).

Рисунок 2.5 содержит алгоритм визуализации экономической информации на разведочной нейросетевой карте и разработанные инструменты цветовой палитры. На рисунке продемонстрированы принципы разработанных визуальных фильтров:

- визуализация автоматической группировки всех исследуемых экземпляров на заданное количество кластеров с использованием статической цветовой палитры;

- визуализация закономерностей и аномалий по одному из признаков с использованием градиентной цветовой палитры; - визуализация меры схожести всех исследуемых экземпляров относительно базового по одному из признаков с использованием градиентной цветовой палитры;

- визуализация меры схожести всех исследуемых экземпляров относительно базового по совокупности всех признаков с использованием градиентной цветовой палитры.

В процессе обучения нейронной сети аналитику доступно гораздо больше информации, чем простое знание о геометрическом положении примеров. Например, ему доступно исследование разных особенностей пространства данных, среди которых разнообразные виды расстояний. Самым распространенным отображением является локальное расстояние до ближайших соседей - такое визуальное средство называют U-matrix (карта расстояний до соседних нейронных ячеек):

Расстояние между соседями является самым простым и доступным сведением, и в общем его реализация очевидна: обычно рассчитывают евклидово расстояние в ближней окрестности, если нужно значение сглаживают посредством усреднения, и отображают по определенному правилу. На деле применяют 2 способа - «традиционная» топографическая карта, где каждая точка карты изображает среднее расстояние, и местная топографическая карта, где указаны связи между нейронами и детально отражено расстояние до каждого соседа. В итоге формируется своеобразный ландшафт, где высокие «горные» гряды иллюстрируют границы между кластерами, низкие «долины» представляют собой центры множеств, а если в наборе данных были аномальные образцы, то они будут смотреться как узкие воронки «кратеров» [61,68]. Сама U-матрица воспроизводится либо в виде карты уровней, либо в виде объемной карты. В некоторых комбинациях расположения кластеров данных в пространстве предложенный метод расстояний не удобен, так как визуализация некоего специфического разрозненного паттерна данных может быть ошибочной из-за того, что она отображает лишь пространственные соотношения между точками данных.

В таком случае можно учитывать плотность информации на карте. Тогда такой механизм называют P-matrix или карта плотности данных. В такого рода инструменте параметром становится плотность информации, которую вычисляют, как количество образцов рядом с анализируемой точкой. Для практического учета этой близости выбирают окрестность в виде гиперсферы некоторого радиуса, который дополнительно варьируют от случая к случаю для более наглядного изображения. Таким образом у нас появляются сведения о «скученности» данных в пространстве

Применяя данную методику, формируемый ландшафт уже будет интерпретироваться так: аномальные выбросы опять же будут в кратерах, границы между кластерами будут отображать каньоны (или канавы), а вот сами кластеры станут еще отчетливее и разнообразнее. Гористая область свидетельствует о зоне с большой концентрацией образцов, низменная - указывает на кластеры-островки (элементы-одиночки), а равнинная область - на зону с более-менее равномерным соотношением точек в пространстве.

Понятно, что самое высокое качество будет у некоторого совокупного метода, где учтены и межклассовые и внутриклассовые различия. Такое средство называют U -matrix или усиленная U-матрица. Очевидно, что если соединить всю пространственную информацию об элементах (т.е. их плотность + расстояние), то будет доступно улучшенное средство с взаимодополняющими свойствами. Для этого необходимо учесть, что данные особенности противоположны по смыслу: если элементы скученны, то в этой области расстояние до соседей будет низким, т.е. значение элементов P-матрицы растет, а U-матрицы падает.

Значение U -матрицы можно получить разнообразным слиянием матрицы расстояний и матрицы концентраций: к примеру, из значений U, умноженных на специфический масштабный коэффициент, который учитывает концентрацию данных Р. distUl = distUiki + distPik2, (2.17) где distt/j - смешанное пространственное значение, къ к2 - масштабные эмпирические коэффициенты.

Какие еще знания аналитик может получить из геометрического узора? Во-первых, как было сказано выше, можно подметить аномалии, особенные образцы выделяющейся природы, которые при каждом новом запуске процесса формирования карты будут характеризоваться «сильной» миграцией между разными множествами по всей области данных. Рассматривая частотность такого примера, можно оценить качество ненормальности выбранного элемента, и выявить причины отклонений. Если это промежуточный прототип, другими словами его можно отнести сразу к нескольким кластерам, то можно изучить степень его определенности, близость к каждой группе, и если нужно вручную скорректировать его принадлежность и принять решение о модификации математической модели. Если это необычный представитель одного кластера с редкими свойствами даже для своего «родного» множества, то это также возможно оценить.

Рекомендации по использованию инструментария нейросетевого разведочного анализа для поддержки принятия решений

В настоящее время основным подходом к управлению организационными изменениями на всех уровнях экономики является методология управления проектами. Разработанный ИНРА может быть эффективно использован в процессе информационно-аналитической и управленческой деятельности по управлению научно-техническими проектами. Ожидаемые выгоды от проектов коммерческого анализа данных, в первую очередь, заключаются, в сокращении затрат, повышении продаж, персонализации предложений, повышении качества продукции. Проблема практической реализации проектов машинного обучения и интеллектуального анализа больших данных в реальном производстве заключается в уровне готовности и апроби-рованности технологии: это уже не научно-исследовательская работа, которая может не приносить результата даже при серьезных инвестициях, а практическая реализация инновационного научно-технического проекта по использованию инструмента, потенциально гарантирующего выгоду предприятию.

В условиях экономики знаний изменяется методология управления проектами, замещая шаблонные стандартные методы на гибкие принципы с использованием обобщенной базой необходимых всем знаний и индивидуализированных сценариев использования. Поэтому программисты и проектировщики давно склоняются к строгим системным инициативам по формализации и унификации типовых практик, методов, элементов, понятий, концепций архитектуры для выполняемых операций. Причем задачи регламентации системно-инженерной деятельности направлены не только на прикладные предметные аспекты (hard skills), но и очень значительная часть усилий направлена на внепредметные составляющие проектирования (soft skills): организация работ, формирование команды, документирование требований, анализ потребностей, возможностей и целей заинтересованных сторон [118]. Таким образом, подробное руководство по системному проектированию ИТ-систем с широким перечнем стандартных процедур и типовых кейсов становится полезным и для более абстрактных задач моделирования и управления сложными системами [118].

Попытки сформировать единый подробный шаблон архитектуры информационно-технических систем имели место с 1968 года (Дейкстра Э, Парнас Д.) и традиционно основываются на онтологическом представлении, в сущности отражающем прикладное применение общей теории систем. Есть структура, представленная архитектурой технической системы; у неё есть свойства, атрибуты качества системы; цели, выражающие сценарии решения задач; роли, представленные субъектами системы разной специализации, и представлением о системе; общепринятые формальные методы, позволяющие описывать систему в понятной для субъектов нотации.

Большинство известных подходов к описанию архитектуры системы отличаются значительной академичностью, сложностью использования и неприменимы на практике из-за отсутствия конкретных методов и решений [119, 120]. Среди значительных работ стоит указать онтологическую модель Закмана, библиотечный подход описания (TOGAF и GOGAF), инфраструктурную библиотеку (ITIL), задачи управления для технологий (COBIT), систему зрелостей возможностей (CMMI) и пр.

Основной проблемой созданных «библиотек» лучших практик является либо их значительный уровень абстракции, мешающих их непосредственному применению в формате простых сценариев использования, либо, наоборот, существенная утилитарность и зацикленность на отдельной профессиональной области технологий [121, 122]. Рисунок 3.60 содержит системно-инженерный взгляд на управление научно-техническими проектами.

Системно-инженерные инициативы, в свою очередь, направлены на формирование одновременно полноценного руководства, охватывающего весь объем задач управления научно-техническим проектом, и при этом пытаются выразить их в шаблонных инструментах и междисциплинарных практичных рецептах использования. Среди значительных системных методологий стоит выделить ситуационную инженерию методов (SME), которая эволюционирует в методологию инженерии программного обеспечения (SEMAT). Опишем компоненты управления научно-техническим проектом в рамках системно-инженерного мышления.

Концепция SEMAT представляет собой некоторое универсальное ядро, интегрирующее разнообразные подходы и нотации при управлении техническим проектом в формате целостной структуры. Это достигается за счет формирования общих приемов оценки, анализа и контроля состояния проекта, представленных в понятной всем терминологии в компактной форме графического языка схематизации, описывающего единые для всех компоненты проекта (т.н. альфы) и предлагающие наборы четких рабочих операций (т.н. практики и их комплексы, методы), однозначно поясняющих кто и что должен сделать, когда и где, при помощи каких ресурсов и инструментов, зачем и почему и т.п. Стандартные системно-инженерные методы собраны в отраслевые своды знаний (Body of Knowledge). Важным атрибутом системно-инженерного мышления является динамическое моделирование процесса управления проектами, выражаемое 4D-экстентами в форме этапов жизненного цикла проекта. Динамический подход к управлению производством связан с развитием комплекса факторов производства - информационными, интеллектуальными и когнитивными ресурсами. Возможно составить системно-инженерную модель управления научно-техническим проектом, консолидирующую взгляды бизнес-архитектуры предприятия в виде направлений корпоративных политик, аспектов проектирования системы в рамках системной инженерии и процессную методологию жизненного цикла проекта. Таблица 10 содержит стандартные системно-инженерные методы, собранные в отраслевые своды знаний.

Полученная модель отвечает основным атрибутам системы, формализованными объектами и субъектами работ; физическими ограничениям системы, технологиями и инструментами выполнения работ, механизмами управления и оценки эффективности, а также содержит в своем составе функциональные взаимоотношения атрибутов, представленные абстрактными понятиями определения, вовлечения, использования, согласования, воплощения, эксплуатации, контроля, оценки и изменения.

Организация инвестирует в инновационные проекты с одной целью – развитие конкурентного потенциала. Оно может выражаться в достижении разных эффектов получения экономической выгоды, таких как сокращение затрат, повышение продаж, персонализация предложений (повышение среднего чека), повышение качества продукции (повышения лояльности). Для всех описанных корпоративных стратегий существуют общепринятые экономические показатели результативности: ROS, ROI, NPV и т.п. Но технические показатели результативности представлены математическими метриками для матрицы несоответствий бинарного классификатора [35]: непосредственной точности (accuracy), прецизионности (precision), полноты (recall) и специфичности (specificity). Из которых формируют разного рода специализированные показатели:

– ROC (receiver operating characteristics) и AUC (area under the curve of receiver operating characteristics), отражающие баланс между полнотой и специфичностью;

– F-measure, отражающий соотношение точности и полноты;

– Lift, отражающий изменения эффективности при манипуляции с вероятностью правильного предсказания и др.

Экономической проблемой коммуникации при обсуждении контракта на проектные результаты машинного обучения и интеллектуального анализа данных является то, что заказчику, как представителю бизнеса не интересны объективные показатели технической эффективности, ему важно знать экономический эффект и прогнозируемые экономические выгоды для его конкретной организации [123]. А разработчик не может объективно и определенно преобразовать технологические характеристики производительности продукта в строгие экономические категории за счет целого ряда специфических проблем и рисков, вызванных как особенностями самого машинного обучения, так и нешаблонностью инновационного технологического проекта в целом [124]. Таким образом, возникает множество организационных вопросов [125], не имевших значимости на этапах исследования и проектирования, когда машинное обучение выполнялось высокопрофессиональными специалистами. Они представляются традиционными аспектами управления проектами, но со значительными особенностями, вызванными инициативами широкого использования технологий искусственного интеллекта в промышленности.

Проблемы управления проектами машинного обучения, требующие именно методов системного рассмотрения и анализа заключаются в том, что такого рода работа представляет собой нешаблонный проект со сложными задачами, не полностью ясными ожиданиями клиента, и рядом специфических рисков. Присутствует разное понимание результатов качества выполнения проекта. Для разработчика – показатели функциональности и производительности. Для заказчика – повышение стоимости бизнеса. Требуется сильная команда (как для разработки, так и для внедрения) с особыми компетенциями, грамотным распределением ролей и продуманными механизмами мотивации редких, высокопрофессиональных специалистов. Требуется постоянное взаимодействие с заказчиком, юридическое оформление глоссария проектной терминологии, серьезное обсуждение технического задания для формирования оптимального баланса производительности и рентабельности реализуемого проекта. Интеллектуальная собственность на все результаты и продукты проекта по умолчанию будет принадлежать заказчику.

Бизнес-архитектура проектов анализа данных представляет собой системную модель бизнеса [126], описывающую взаимосвязь его целей, протекающих процессов, структуры управления и программно-аппаратных комплексов и систем. Поэтому такого рода проекты можно представить, описав этапы коммерческого анализа данных. Для этого сравним уже существующие стандартные методологии проектов прикладной аналитики, интеллектуального анализа и научного изучения данных.

Рассматривая результаты опросов авторитетных источников в 2004, 2007 и 2014 годах [127], можно заявить, что почти половина (42-43%) разработчиков использует или планирует перейти к кросс-отраслевой методологии. На другие стандартные методологии приходится 16-21%. Собственной организационной или личной проектной стратегией пользуются 24-31%. Прочими концепциями пользуются 8-10% разработчиков. И обходились без использования методологии 5%, которые в настоящее время переходят к внедрению регламентированной стратегии.

Проблема практической реализации проектов машинного обучения и интеллектуального анализа больших данных в реальном производстве заключается в уровне готовности и апробированности технологии: это уже не научно-исследовательская работа, которая может не приносить результата, а практическая реализация инновационного научно-технического проекта по использованию инструмента, потенциально гарантирующего выгоду предприятию [128].