Технология исполнения экстренных композитных приложений на основе гибридных методов планирования Бутаков Николай Алексеевич

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Бутаков Николай Алексеевич. Технология исполнения экстренных композитных приложений на основе гибридных методов планирования : диссертация ... кандидата технических наук: 05.13.11 / Бутаков Николай Алексеевич;[Место защиты: Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования «Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики»].- Санкт-Петербург, 2015.- 167 с.

Содержание к диссертации

Введение

1. Технологии экстренных вычислений 8

1.1. Основные понятия экстренных вычислений 8

1.2. Вычислительная среда исполнения экстренных вычислений 14

1.3. Методы планирования экстренных композитных приложений 19

1.4. Выводы по главе 1 27

2. Методы планирования экстренных композитных приложений в гетерогенных распределенных вычислительных средах 28

2.1. Математическая модель распределенной вычислительной среды 28

2.1.1. Модель распределенной гетерогенной вычислительной среды 28

2.2. Математическая модель композитных приложений 34

2.2.1 Модели производительности задач ЭКП и их расширение 37

2.3. Постановка задачи планирования экстренного композитного приложения . 48

2.2.2 Цели и ограничения задачи планирования 48

2.2.3 Формальная постановка задачи планирования как проблемы комбинаторной оптимизации 48

2.4. Гибридные методы планирования экстренных композитных приложений 51

2.4.1. Планирование с учетом надежности 51

2.4.2. Метод планирования MHGH на основе разделения времени 57

2.4.3. Коэволюционное расширение метода MHGH для повышения эффективности планирования за счет управления инфраструктурой 62

2.4.4. Повышение эффективности планирования за счет применения элементов эволюционной динамической оптимизации 71

2.4.5. Планирование структуры ЭКП для соблюдений ограничений времени выполнения 75

2.5. Выводы по главе 2 83

3. Технология исполнения экстренных композитных приложений 85

3.1. Особенности вычислительной среды исполнения ЭКП и взаимодействие моделей 85

3.1.1. Общая характеристика среды исполнения ЭКП 85

3.2. Общая архитектура вычислительной среды исполнения ЭКП 93

3.3. Организация процесса сбора данных о процессе исполнения. Способы усвоения данных в модели производительности сложных приложений. 102

3.4. Симулятор вычислительной среды 113

3.5. Выводы по главе 3 116

4. Применение экстренных вычислений для задач поддержки принятия решений и оптимизации 117

4.1. Экспериментальное исследование гибридных методов планирования ЭКП 117

4.1.1. Исследование обеспечения надежности исполнения ЭКП за счет использования пула внешних вычислительных ресурсов 117

4.1.2. Планирование с разделением по времени в условиях нарушения процесса исполнения КП. 121

4.1.3. Исследование применения коэволюционного подхода для повышения эффективности планирования 130

4.3. Экспериментальные ЭКП для поддержки принятия решения 144

4.4. Экспериментальное исследование адаптации процесса исполнения в условиях изменчивости вычислительной среды 153

4.5. Выводы по главе 4 155

Заключение 158

Список использованных источников 160

Методы планирования экстренных композитных приложений
Постановка задачи планирования экстренного композитного приложения
Общая архитектура вычислительной среды исполнения ЭКП
Планирование с разделением по времени в условиях нарушения процесса исполнения КП.

Введение к работе

Актуальность темы диссертационной работы обусловлена востребованностью технологий экстренных вычислений (ЭВ) как основы для создания современных систем поддержки принятия решений в критических ситуациях. Назначением технологий ЭВ является обеспечение производительности расчетов в случаях, когда время выработки решения лимитировано, за счет динамического привлечения ресурсов распределенных вычислительных сред коллективного пользования (включая облачные среды и Грид). При этом пользователь не должен вовлекаться в аспекты управления вычислительными ресурсами: оно осуществляется низкоуровневыми средствами ЭВ; после завершения задачи используемые ресурсы освобождаются автоматически. Поскольку в ходе выполнения вычислений нагрузка на ресурсы и среду в целом может изменяться (появляются другие экстренные задачи, варьируют потоки данных, приходят новые запросы от пользователей системы), требуется развитие специальных методов планирования исполнения приложений в распределенных средах. В России данное направление представлено в работах научных школ А.П.Афанасьева, В.П.Иванникова, В.А.Ильина, В.В. Корень-кова и других исследователей.

Проблема планирования в распределенных средах с учетом специфики ЭВ связана с тем, что расчетные задачи часто представляются в форме экстренных композитных приложений (ЭКП) - набора взаимодействующих сервисов распределенной среды с лимитированным временем выполнения расчетов. ЭКП может обладать сложной многосвязной структурой, входящие в него сервисы имеют разное время исполнения, а привлекаемые распределенные ресурсы в общем случае не отличаются надежностью (возможны отказы или неконтролируемое снижение производительности в процессе выполнения задачи). В настоящее время отсутствуют технологические решения в области ЭВ, которые обеспечили бы совокупный учет перечисленных особенностей при планировании и исполнении ЭКП, восполнение этого пробела и составляет суть данного исследования.

Предметом исследования являются методы и алгоритмы планирования вычислений в распределенных средах ЭВ, а также технологии управления и исполнения ЭКП на их основе.

Целью исследования является развитие моделей, методов и технологий управления процессом исполнения ЭКП, включая построение статического плана исполнения приложения и его дальнейшую адаптацию с учетом текущего состояния вычислительной среды для обеспечения проведения вычислений в заданный срок.

Задачи исследования:

выработка и обоснование требований к методам, алгоритмам и технологиям планирования процессов исполнения композитных приложений с учетом специфики организации среды ЭВ;

разработка формальной модели вычислительной среды ЭВ, описывающей процесс изменения ее характеристик с течением времени, а также разви-

тие параметрических моделей производительности ЭКП в различных условиях исполнения;

разработка семейства гибридных методов планирования ЭКП, учитывающих возможности реконфигурации вычислительной среды и структуры ЭКП для обеспечения наилучшего времени выполнения с учетом наложенных ограничений;

разработка технологии исполнения ЭКП с учетом применения гибридных методов планирования, включая механизмы запуска и контроля вычислительных задач, мониторинга, реконфигурирования вычислительной среды ЭВ;

экспериментальное исследование эффективности разработанных методов и технологии при различных условиях эксплуатации среды ЭВ.

Методы исследования включают в себя методы системного анализа, эволюционных вычислений, идентификации моделей, теории графов, имитационного моделирования и инженерии программного обеспечения.

Научная новизна исследования обусловлена тем, что в нем разработано и экспериментально исследовано семейство новых методов статического и динамического планирования ЭКП, совокупно учитывающих связность входящих в ЭКП сервисов, контролируемую надежность их исполнения и возможности управления ресурсами распределенной вычислительной инфраструктуры для получения результата расчетов в заданный срок.

Практическую значимость работы определяет технология (реализованная в виде комплекса программ) управления процессом исполнения ЭКП в условиях ограниченного времени, неоднородности и динамичности структуры распределенной вычислительной среды, функционирующая на основе облачной платформы CLAVIRE.

На защиту выносятся;

семейство гибридных алгоритмов планирования ЭКП на основе разделения времени выполнения, учитывающих возможности реконфигурации вычислительной среды ЭВ и структуры ЭКП в процессе исполнения;

технология планирования и исполнения ЭКП в распределенных гетерогенных средах с иерархической структурой вычислительных ресурсов.

Достоверность научных результатов и выводов обусловлена корректностью формальной постановки задач планирования, использованием параметрических моделей для оценки экспериментальных данных, разнообразием рассмотренных вариантов ЭКП, а также результатами экспериментальных исследований на различных конфигурациях распределенной вычислительной среды ЭВ.

Внедрение результатов работы. Результаты работы использованы при выполнении проектов: «Создание высокотехнологичного производства комплексных решений в области предметно-ориентированных облачных вычислений для нужд науки, промышленности, бизнеса и социальной сферы», шифр 2010-218-01-209 по договору от 07 сентября 2010 г. № 13.G25.31.0029, в рамках конкурса субсидий в соответствии с постановлением Правительства

Российской Федерации № 218; «Распределенные экстренные вычисления для поддержки принятия решений в критических ситуациях», дог. № 11.G34.31.0019 от 02.12.2010 г. с дополнительным соглашением № 02 от 01.03.2013 г.; «Информационная технология обеспечения жизненного цикла систем поддержки принятия решений нового поколения для задач персонифицированной медицины» № 715788 от 31.03.2015 г.; «Суперкомпьютерное моделирование критических явлений в сложных социальных системах», соглашение № 14-21 -00137 от 15.08.2014 г.; «Исследования и разработка быстродействующей кластерной системы хранения и обработки сверхбольших объемов данных», соглашение о предоставлении субсидии от 24 ноября 2014 г. № 14.578.21.0077. В диссертацию включены результаты, полученные при поддержке Министерства образования и науки РФ в рамках договора № 14.Z50.31.0024.

Апробация работы. Полученные результаты обсуждались на международных и всероссийских научных конференциях, семинарах и совещаниях, включая 10-ю Международную конференцию «Soft Computing Models in Industrial and Environmental Applications» (Бильбао, Испания, 2014), 8-ю Международную конференцию «Application of Information and Communication Technologies» (Астана, Казахстан, 2014), 6-ю Международную конференцию «Evolutionary Computation Theory and Applications» (Рим, Италия, 2014), Международную конференцию «International Conference on Computational Science» (Рейкьявик, Исландия, 2015), Международную научно-практическую конференцию молодых ученых и специалистов «Young Scientists Conference on Computer Simulation» (Афины, Греция, 2015), Научно-практический форум "Распределенные информационно-вычислительные системы и обработка данных в XXI веке" (Дубна, 2015).

Публикации. По материалам диссертации опубликовано 6 печатных работ в изданиях, рекомендуемых ВАК и индексируемых системами Scopus и Web of Science. Получено 1 свидетельство о регистрации программы для ЭВМ.

Личный вклад автора в работах, выполненных в соавторстве, заключается в обосновании требований к планированию экстренных композитных приложений; разработке методов гибридизации на основе разделения времени и исследовании их применимости с помощью моделирования нарушений процесса исполнения; разработке коэволюционных методов планирования, разработке методов сокращения времени выполнения метаэвристических алгоритмов для гибридного метода планирования с разделением времени; разработке программного обеспечения планирования и исполнения ЭКП; проведении и интерпретации экспериментальных исследований.

Структура и объем работы. Диссертационная работа состоит из введения, четырех глав, заключения и списка литературы (100 источников). Содержит 167 страниц текста, включая 52 рисунка и 5 таблиц.

Методы планирования экстренных композитных приложений

Основой исполнения ЭКП является вычислительная среда; при этом возможности ее настройки в процессе работы самого приложения являются ключевыми для реализации задач ЭВ. Для организации вычислительной среды для ЭВ используются два основных подхода, которые можно выделить в существующей литературе - использование выделенного пула ресурсов (статический подход) и использование существующих общедоступных вычислительных сред (динамический подход).

Статический подход подразумевает наличие выделенного пула ресурсов, к которому имеется постоянный или к которому в кратчайшие сроки может быть организован монопольный доступ. Сейчас это наиболее распространенный способ организации вычислительной среды для ЭКП. Данный способ применяется, например, в японской СРП о наступлении землетрясений [14], German National Meteorological Service [15], North Carolina Forecast System для предсказания ураганов [9]. Главными недостатками данного подхода являются высокие затраты на содержание и организацию выделенного пула ресурсов, а также уязвимость в случае повреждения инфраструктуры. В случае North Carolina Forecast System выделенный пул ресурсов также используется и для других вычислений в отсутствии ЭКП. При этом система управления выделенным пулом находится под полным контролем, вследствие чего ЭКП быстро получают все необходимые ресурсы. Однако далеко не все потребители могут обеспечить полезное и эффективное использование выделенного пула ресурсов в отсутствие КС и необходимости исполнения ЭКП.

Второй (динамический) подход подразумевает использование публично-доступных ресурсов - Грид-систем [16, 98, 99], суперкомпьютеров [17], кластеров [18-20], облаков [21]. объединенных сетями общего назначения.

Основная проблема использования этих ресурсов для нужд ЭВ - отсутствие гарантий на время предоставление вычислительных ресурсов для ЭКП и не гарантированная производительность самих предоставляемых ресурсов. Так задача может простоять в очереди больше, чем потребуется на ее выполнение[8]. Для решения проблем связанных с предоставлением такого типа ресурсов, была создана, например, система SPRUCE [7]. Данная система включает в себя web-портал, образующий единую точку доступа к системе для пользователей, адаптеры для интеграции различных систем управления вычислительными ресурсами, такими как Torque, Moa, PBS и позволяет организовывать доступ к вычислительным ресурсам для ЭКП за счет следующих механизмов: - повышение приоритета до критического (наивысшего, nexto-run). Это позволяет миновать длительное ожидание в очереди и существенно сокращает время всего процесса исполнения. Однако, ЭКП необходимо дождаться завершения уже запущенных приложений; - приостановка уже запущенных задач других приложений и немедленный запуск ЭКП. При этом приостановленная задача сохраняется в каком либо виде для последующего продолжения исполнения: заложенная в программу функциональность точек сохранения ; выгрузка памяти процесса на диск и т.д. - прерывание задач и немедленный запуск ЭКП. В этом случае все результаты прерванных задач теряются. Кроме того, SPRUCE содержит процедуры для подготовки всех необходимых приложений для ЭКП заранее. SPRUCE предоставляет одного из наиболее успешных решений для экстренных вычислений с использованием нескольких ресурсов TeraGrid [93]. Однако при этом SPRUCE ограничен политиками предоставления вычислительных ресурсов провайдеров ресурсов, поэтому часто прерывание и даже приостановка задач не могут быть использованы. Также SPRUCE не работает с композитными приложениями и не составляет расписание, вследствие чего не может гарантировать время выполнения или надежность исполнения отдельных задач ЭКП.

В работе Trebon [8] была предложена модификация платформы SPRUCE. В ней были предложены набор политик ранжирования приоритетов ресурсов в зависимости от их типа (системы с очередями, облачные ресурсы и т.д.), а также набор статистических методов и эвристик для оценки верхней границы времени исполнения экстренных вычислений для разных стадий процесса(загрузки данных, выделения ресурсов и т.д.) исполнения отдельных вычислительных задач. Таким образом, данный шаг является движением в сторону оценки всего времени выполнения, но при этом не является составлением расписания.

В настоящее время все чаще в качестве динамических сред для исполнения ЭКП рассматриваются облачные ресурсы, предоставляемые, например, Amazon, Google, Microsoft. Leong [93] проводил анализ использования публичных облачных ресурсов в условиях специфики экстренных вычислений. Облачные ресурсы идеальны с точки зрения предоставления машин желаемой конфигурации и следованию концепции предоставление-по-требованию . Однако объемы ресурсов, предоставляемых по требованию, могут быть недостаточны для ЭВ, в том числе, и по техническим возможностям. Так, например, облачные ресурсы оказались недостаточным решением для North Carolina Forecast Center [9], из-за невозможности организовать MPI-кластер достаточного для их нужд размера. Также необходимо учитывать аспекты надежности и устойчивости к отказам для специфики облачных вычислений.

Одним из важных факторов выбора инфраструктуры ЭВ остается поддержка ЭКП с учетом зависимостей между вычислительными задачами. Существуют примеры систем экстренных вычислений, учитывающих такие связи. Например, СРП UrbanFlood [10] поддерживает создание ЭКП в виде композиции сервисов, которые выполняются на облачной инфраструктуре. В основе системы лежит один из самых широко распространенных подходов к построению СРП систем: сервисно-ориентированная архитектура (SOA) со слабо связанными компонентами. В таких системах коммуникационная инфраструктура играет особую важность, т.к. не только обеспечивает передачу данных, необходимых для выполнения расчетов, но и обеспечивает связь между компонентами, координирующими работы всей системы и процесс исполнения отдельных ЭКП. Данная система поддерживает приостановку выполнения менее приоритетных задач за счет того, что все вычислительные задачи связных ЭКП выполняются внутри виртуальных машин, а большинство современных гипервизоров виртуальных машин поддерживают данную операцию.

Еще одним примером системы, основанной на принципах SOA и поддерживающей исполнение ЭКП, является система облачных вычислений второго поколения CLAVIRE [11]. Данная система использовалась для построения СРП для предотвращения наводнений в г. Санкт-Петербурге. Отличительными чертами данной системы являются: - поддержка формализма связных ЭКП и концепции AaaS; - возможность интеграции и использования ресурсов различных типов: индивидуальные машины (как настольные, так и сервера); облачные ресурсы; суперкомпьютеры; Грид-системы. - возможность планирования вычислений с учетом связей между отдельными задачами ЭКП. За счет модульной структуры системы, компонент планирования может быть легко заменен на другой. - наличие специального режима поддержки ЭВ, позволяющего интерпретировать произвольное КП как экстренное. На текущий момент, это повышает приоритет ЭКП до критического и позволяет задачам данного ЭКП миновать всю очередь, ожидающую выполнения. Потенциально это так же позволяет реализовать особый механизм обработки ЭКП процедурой планирования.

Несмотря на наличие большего количества систем и достаточно глубокую проработанность тематики ЭВ, в данной области естественно, имеются определенные моменты, требующие улучшения. Так, некоторые из описанных выше систем не работают с формализмом КП, что было указано ранее, а те что работают используют в основном простейшие методы планирования ЭКП, не имеющие цели произвести оценку времени выполнения всего ЭКП в текущих условиях. Это может негативно сказываться на общей эффективности исполнения ЭКП, поскольку, как уже было отмечено выше, отсутствие планирования не позволяет оценить время выполнения ЭКП и шансы на успешное завершение.

Постановка задачи планирования экстренного композитного приложения

Представленный выше подход можно существенно улучшить за счет гибридного сочетания алгоритмов в том числе и в процессе исполнения ЭКП. Предлагаемый метод планирования MHGH является гибридным и сочетает в себе применение эвристического и мета-эвристического подходов. Целью создания данного алгоритма было разработать процедуру планирования, которая могла бы обеспечивать более высокое качество решения и при этом могла бы оперативно реагировать на изменения, происходящие в вычислительной среде и вычислительной нагрузке самого приложения, т.е. оперативно реагировать на нарушения процесса исполнения ЭКП.

Предложенный подход к гибридному планированию строится на основе параллельного сочетания исполнения (или разделения времени) мета-эвристического и эвристического алгоритмов таким образом, чтобы дополнить их сильные стороны. Основная идея заключается в использовании эвристик в качестве быстрой ответной реакции на изменения в вычислительной среде, обеспечив дальнейший процесс исполнения ЭКП без длительных простоев по времени, затрачиваемых на планирование, и предоставив время мета-эвристике для генерации решения в фоновом режиме (т.е. без прерывания процесса исполнения) более качественного расписания с лучшими целевыми характеристиками и последующей замены текущего расписания этой, более эффективной версией. Схема гибридного алгоритма MHGH приведена на рисунке 2.4.5.

Поэтому, при необходимости генерации нового расписания для изменившейся вычислительной среды, планировщик может сгененрировать новое расписание на лету, заменить им некорректное текущее расписание, возобновить процесс исполнения ЭКП уже по новому расписанию и запустить генерацию улучшенной версии с помощью мета-эвристики, наложив определенные ограничения. Для этого требуется определить необходимый период времени, доступный для мета-эвристики чтобы сгенерировать улучшенное расписание (блок Определить период времени доступный мета-эвристике для выработки решения ( окно ) ). Данный период будем называть окном или фиксированным окном . Длина окна может быть определена различными методами, например, построением модели производительности в зависимости от числа вычислительных ресурсов и задач. Также для этого могут применяться статистические методы и методы машинного обучения, чтобы используя набранную статистику попытаться оценить зависимость потенциального улучшения от длительности окна . Пример исследования влияния длительности окна на результаты планирования можно найти в Главе 4.

Планировщик отмечает задачи ЭКП, которые попадают в окно (т.е. задачи, которые выполняются или начинают свое выполнение в промежуток времени, отведенный под окно ) как недоступные для изменения, поэтому мета-эвристика не может изменять их положение в расписании и рассматривает их как ограничения. Такие задачи играют важную роль, т.к. могут существенно повлиять на составление нового расписания. Окно -интервал времени, начиная от возобновления исполнения ЭКП до точки принятия решения о замене текущего расписания. Обычно такая точка совпадает с окончанием одной из задач, завершающих окно . Когда такая точка достигается, происходит сравнение текущего расписания с наилучшим решением, найденным мета-эвристикой, которое извлекается из хранилища (блок Запрос результатов мета-эвристики из хранилища ).Если оно лучше, то происходит замена.

Процесс перепланирования может быть начат вследствие любого события, связанного с изменением вычислительной среды или вычислительной нагрузки, например возникновение новой задачи или отказу вычислительного ресурса.

На рисунке 2.4.4 проиллюстрирован описанный процесс. Изображены два процесса планирования: (a) запуск исполнение ЭКП в начальном состоянии вычислительной среды; (b) восстановление после нарушение процесса исполнения из-за отказа вычислительного ресурса. Рисунок 2.4.5 – Схема алгоритма MHGH Как указано выше, MHGH включает в себя два основных шага: генерацию временного расписания, используя жадную списковою эвристику (на данный момент, это самый распространенный класс эвристик в области планирования КП), и генерацию улучшенного расписания мета-эвристикой, за счет оставшейся части ЭКП, которая не попала в Окно , параллельно основному процессу исполнения.

Весь алгоритм может быть описан следующим образом. В течении первого шага, когда перепланирование стало необходимо из-за некоторого системного события, например из-за отказа ресурса (блок Оповещение о событии на Рис. 2.4.5), планировщик обновляет информацию о состоянии вычислительной среды (блок Получение информации о состоянии вычислительной среды ). Затем происходит оценка длительности окна , необходимого мета-эвристики на генерацию более эффективного решения. Затем выполняется "быстрая" эвристика, генерирующая временное расписание (блок Запуск эвристики для оперативной выработки решения ) и уже затем планировщик осуществляет запуск мета-эвристики в фоновом режиме, параллельно с исполнением временного расписания. Дополнительно, планировщик может осуществить запуск других эвристик (или даже других мета-эвристик, если позволяет длительность окна ), чтобы сгенерировать начальную популяцию для мета-эвристики, если это возможно (блок Определить инициализатора мета-эвристики ).

Стоит отметить, что упомянутые эвристик должны также принимать во внимание задачи попадающие в окно . Возможны ситуации, когда мета-эвристика не успевает выработать решение к концу окна (блок Полученное решение лучше чем текущее? ), которое было бы достаточно эффективнее текущего решения ( достаточно здесь можно понимать как лучше на заранее определенное количество процентов, чем текущее решение по свертке характеристик). В этом случае новое расписание не принимается, и процедура перепланирования может быть перезапущена снова с пропуском шага генерации временного расписания. Тоже самое произойдет, если в момент выработки решения мета-эвристикой - окна - произойдет изменение вычислительной среды, требующее перепланирования.

Следует отметить, что мета-эвристика периодически сохраняет лучшее найденное решение в хранилище (например, каждую итерацию), чтобы можно было применить данное решение, если мета-эвристика не успела завершить свое выполнение до конца окна (блок Время применить решение мета-эвристики? ), однако ранее найденное решение достаточно эффективнее, чем временное. Также возможна ситуация когда может произойти событие, требующие перепланирования, в течении окна . В этом случае, планировщик останавливает исполнение мета-эвристики и повторяет всю процедуру гибридного перепланирования (блоки Необходимо перепланирование? , Мета-эвристика исполняется в данный момент , Остановка мета-эвристики ).

Общая архитектура вычислительной среды исполнения ЭКП

В данном разделе представлены исследования методов измерения и усвоения данных в гибридные параметрические модели производительности, выполненные с целью адаптации процедуры планирования к динамической изменчивости режимов работы системы.

Методы измерений. Качество оценок времени выполнения, получаемых с помощью параметрических моделей, напрямую зависит от подобранных для этих моделей параметров. Подбор параметров осуществляется с помощью процедур измерения. В области распределенных вычислений применяются прямые и косвенные измерения.

Прямые измерения подразумевают возможность непосредственно получить значение искомой характеристики (физической величины) распределенной вычислительной среды или распределенного приложения путем сравнения с мерой этой величины. В свою очередь, косвенные измерения предполагают наличие некоторой математической модели, позволяющей получить значение искомой характеристики, не прибегая к непосредственным измерениям, на основе некоторой доступной информации. Требуют измерений такие величины в распределенных вычислительных системах, как пропускная способность канала данных, латентность носителей данных или оперативной памяти, частота центрального процессора. Для измерения таких характеристик используются собственные средства операционных систем либо применяются специальные средства (программы-измерители), например sysbench [80], которые не требуют каких-либо вспомогательных измерений или использования математических моделей. Определение величины накладных расходов сервисной части программы (часть программы, которая не относится к реализации самой логики обработки) путем анализа результатов времени выполнения множества запусков программы с использованием математических моделей требует знания определенных связей и математических моделей. В распределенных вычислительных средах косвенные измерения применяются в возникающих задачах идентификации и усвоения данных: - получение параметров модели производительности отдельного вычислительного приложения; - уточнение параметров моделей вследствие изменения состояния системы или внешних условий, в которых функционирует система; - определение характеристик, недоступных прямому измерению вследствие некоторых обстоятельств (которые в иных условиях могли бы быть измерены напрямую): отсутствие (временное) работоспособности средства мониторинга на отдельных узлах или в кластере в целом; увеличение производительности за счет привлечения внешних ресурсов, управление которыми ограниченно (пример -Грид-системы, доступ к которым осуществляется только через очередь задач, таких как Slurm или Torque); желание избежать дополнительных накладных расходов, связанных с измерениями.

Методы измерений в распределенных вычислительных средах. В распределенных вычислительных средах, таких как кластеры, применяются многочисленные программы-измерители (бенчмарки) разных видов, поскольку система состоит из множества отдельных элементов со своими параметрами.

Выше были выделены основные параметры, используемые параметрическими моделями производительности. Параметры, относящиеся непосредственно к вычислительной инфраструктуре и вычислительной среде, можно сгруппировать в следующие основные группы: 1) b – пропускная способность канала; 2) l – задержка передачи данных. Время совершения сервисных операций, таких как установление соединения; 3) q – скорость обращения к единице данных, лежащих на носителе определенного типа; 4) с – характеристика производительности одного ядра центрального процессора; 5) d –размер данных для служебных нужд. Для измерения каждого из этих параметров применяются собственные средства и методы. b, l, q, c зависят от текущего состояния вычислительной инфраструктуры, т.е. от таких факторов, как настройка гипервизоров виртуальных машин на физических машинах, настройка сетевой инфраструктуры, топология каналов передач данных, конфигурация носителей данных на отдельных физических машинах, в том числе текущая вычислительная нагрузка. Как следствие, эти параметры подвержены изменениям с течением времени. Процедура измерения этих величин распадается на две части: 1) измерение текущего значения характеристики; 2) мониторинг, сбор и агрегация измерений характеристики. Измерение текущего значения параметров q и с происходит отдельно на каждом узле хранения и обработки данных. Для измерения b и l необходимо наличие приемника и передатчика информации данных. В зависимости от конфигурации инфраструктуры и возможностей гипервизора измерение нужных параметров может происходить как на самой виртуальной машине, так и с помощью функционала гипервизора. В последнем случае гипервизор поддерживает сбор информации о производительности с помощью виртуализированных счетчиков производительности (performance counters) [81].

Если измерения производятся непосредственно на самом узле обработки данных, не имеет значения, виртуальный он или нет. Кроме счетчиков производительности можно использовать специальные программные средства: бенчмарки, такие как sysbench [80] для измерения производительности процессора, дисковых накопителей и оперативной памяти, для измерения пропускной способности каналов связи можно использовать iperf [82]. Преимущество их использования заключается в возможности всестороннего анализа производительности для различных видов запросов с разными характеристиками, например, размером блока данных или параметрами выборки для чтения.

Стохастичность характеристик предполагает необходимость статистически обрабатывать результаты измерений, а также проводить множество независимых измерений. Большая часть современных программных средств бенчмарков обеспечивает возможность получения хотя бы минимальной статистической обработки результатов в виде среднего, минимума, максимума, доверительного интервала.

Планирование с разделением по времени в условиях нарушения процесса исполнения КП.

Из рисунка 4.2.4 видно, что результаты прогноза (оценки времени выполнения) повторяют форму реальных наблюдений, но имеют некоторое несовпадение с результатами наблюдений. Это следствие отсутствия точной модели производительности отдельных задач Map и Reduce, вернее отдельных ее параметров. Задачи Map и Reduce работают с набором записей. В случае Map-задачи каждая запись обрабатывается отдельно от остальных и может иметь сложную структуру, для которой нужно применять разные виды обработки, как в случае описанной выше задачи. Построить точную модель производительности для каждого варианта (или его типа) входной записи для таких задач, которая бы дала точное время выполнения, или составить таблицу измерений времени выполнения задачи в разных условиях возможно, но нецелесообразно в условиях неоднородности поступающих данных (когда модель производительности непосредственно зависит от характеристик самих данных, оценить которые зачастую нельзя из-за их объема). Стоит отметить, что такая же ситуация может возникнуть вследствие сильной неоднородности инфраструктуры, прямые измерения могут дать усредненный результат, который не отражает целиком ситуации, например, вследствие особенностей алгоритмов планирования (определенная локализация исполнения). В этом случае параметры зависят от самих характеристик данных и их точное значение неизвестно. Затем к модели и полученным наблюдаемым значениям была применена процедура идентификации параметров, описанная выше. Процедура применялась для наиболее значимых в рамках рассмотренной задачи параметров . На рисунке 4.2.4б представлены наблюдаемые и прогнозные значения, полученные с применением скорректированных параметров с помощью косвенных измерений.

На рисунке 4.2.5а приведены результаты прогнозирования без усвоения. Вследствие изменения внешних условий (изменяется производительность процессоров, например, вследствие изменения пула виртуальных ресурсов путем генерации новой конфигурации, где процессорные мощности были отданы другим виртуальным машинам для обработки более срочных задач) производительность узлов падает. Изменение качественного состава данных также приводит к изменению производительности самих подзадач распределенного приложения. На рисунках 4.2.5б–е представлен процесс усвоения параметров, в результате которого модель производительности подстраивается под новый режим работы

Результаты прогнозирования времени выполнения MapReduce приложения: (а) - без усвоения данных, (б)- (е) по мере усвоения данных о новых запусках Корректировка параметров выполняется постепенно с учетом поступления данных о новых расчетах(т.е. новой продолжительности исполнения), которые были сделаны уже после того, как система перешла во второе состояние. Приведенные результаты показывают эффективность применения процедуры усвоения в динамических средах. Одно из главных преимуществ этой процедуры – возможность реагировать на изменения переменных среды, которые недоступны для измерений.

На рисунке 4.2.6 представлена динамика изменения среднеквадратической ошибки прогнозируемого и наблюдаемого значения времени выполнения. Ошибка уменьшается по мере поступления данных о новых расчетах, которые замещают собой наблюдения, оставшиеся от предыдущего состояния системы. Рисунок 4.2.6 – Динамика изменения среднеквадратической ошибки прогнозируемого значения времени выполнения.

ЭКП выработки плана для предотвращения наводнений. Предотвращение наводнений в г. Санкт-Петербург осуществляется с помощью комплекса защитных сооружений (КЗС). Критической ситуацией в данном случае является возникновение угрозы нанесения ущерба г. Санкт-Петербурга, и выработка плана должна произойти в ограниченные сроки: за 8 часов до закрытия - летом, за 12 часов - зимой. В простейшем случае выработка плана занимает 20 минут, в случае прогноза с помощью ансамбля время выработки может значительно увеличиваться. Решение задачи выработки плана маневрирования затворами комплекса защитных сооружений Санкт-Петербурга от наводнений осуществляется с помощью ЭКП, представленного на Рис 4.3.1

ЭКП Расчета плана предотвращения угрозы наводнения С помощью пакетов hirlamprovider, bshprovider, lvlprovider, projectprovider, asmfieldprovider и bsmdatacollector производится получение необходимых данных, в том числе данных прогноза в формате HIRLAM. К полученным данным прогноза ветра и атмосферного давления применяется специальное зашумление (HMGenerator, HirlamMaskImposer), с целью имитировать ситуацию наличия ошибок прогноза (т.е. рассмотреть ситуации, когда реальное состояние будет существенно отличаться от полученного прогноза). Компоненты SWAN и BSM моделируют морское волнение и прогнозируют уровень воды. Затем формируются планы маневрирования КЗС и передаются экспертам для принятия решения (PlanMaker, PlanAnalyzer, EnsembleDistr).

В зависимости от доступного времени данное ЭКП может иметь разные формы, связанные с точностью предоставляемого прогноза и экономическими последствиями плана маневрирования затворами КЗС для Морского порта г. Санкт-Петербурга. Упомянутые формы образуются как от варьирования количества элементов в ансамбле, так и исключения некоторых элементов (SWAN, HirlamImposer). Чтобы иметь возможность генерировать план с учетом качества, необходимо задать модели качества, характеризующие различные варианты исполнения. Для оценки качества для данного ЭКП можно исходить из математического ожидания величины отношения потенциального затопления при исполнении плана маневрирования для КЗС к затоплению без использования без маневрирования в условиях возможного наличия ошибки метеорологического прогноза HIRLAM.

На рис 4.3.2 в качестве иллюстрации изображены различные планы маневрирования затворами КЗС. График со сплошной линий обозначает прогнозируемое изменение уровня воды по данным из оригинального файла данных HIRLAM. Графики с прерывистыми линиями - возможные варианты развития ситуации с учетом ошибки метеопрогноза. Как можно видеть из графиков, в случае значительной ошибки прогноза, и, как следствие, неправильном плане маневрирования воротами КЗС, может сложиться угроза наводнения, связанная со стоком реки Нева. Сплошные зоны A и B на графиках характеризуют потенциальный объем воды от которого может пострадать город. Следует отметить, что чем больше площадь под графиком, тем потенциально больший урон может быть нанесен городу. Слишком раннее закрытие создает негативный финансовый эффект для морского порта города.