Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Разработка средств управления нагрузкой многосерверных систем на основе масштабируемых марковских процессов Хоанг Жанг

Разработка средств управления нагрузкой многосерверных систем на основе масштабируемых марковских процессов
<
Разработка средств управления нагрузкой многосерверных систем на основе масштабируемых марковских процессов Разработка средств управления нагрузкой многосерверных систем на основе масштабируемых марковских процессов Разработка средств управления нагрузкой многосерверных систем на основе масштабируемых марковских процессов Разработка средств управления нагрузкой многосерверных систем на основе масштабируемых марковских процессов Разработка средств управления нагрузкой многосерверных систем на основе масштабируемых марковских процессов Разработка средств управления нагрузкой многосерверных систем на основе масштабируемых марковских процессов Разработка средств управления нагрузкой многосерверных систем на основе масштабируемых марковских процессов Разработка средств управления нагрузкой многосерверных систем на основе масштабируемых марковских процессов Разработка средств управления нагрузкой многосерверных систем на основе масштабируемых марковских процессов Разработка средств управления нагрузкой многосерверных систем на основе масштабируемых марковских процессов Разработка средств управления нагрузкой многосерверных систем на основе масштабируемых марковских процессов Разработка средств управления нагрузкой многосерверных систем на основе масштабируемых марковских процессов Разработка средств управления нагрузкой многосерверных систем на основе масштабируемых марковских процессов Разработка средств управления нагрузкой многосерверных систем на основе масштабируемых марковских процессов Разработка средств управления нагрузкой многосерверных систем на основе масштабируемых марковских процессов
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Хоанг Жанг . Разработка средств управления нагрузкой многосерверных систем на основе масштабируемых марковских процессов: диссертация ... кандидата технических наук: 05.13.11 / Хоанг Жанг ;[Место защиты: Воронежский государственный технический университет].- Воронеж, 2015.- 132 с.

Содержание к диссертации

Введение

1. Проблемы программного управления нагрузкой многосерверных систем и тестирования нагрузки 10

1.1. Особенности математического описания программного управления нагрузкой многосерверных систем как стохастических сетей комбинированного вида 10

1.2. Задачи измерения производительности и выбор тестовых показателей для анализа нагрузок в дата-центрах 12

1.3. Анализ данных и служебных нагрузок дата-центров: 15

1.4. Особенности и необходимость разработки кроссплатформенного веб-приложения для хранения объектной модели произвольной предметной области

1.4.1. Хранилища данных в многосерверных информационных системах 17

1.4.2. Обзор существующих методов описания объектов с изменяющейся структурой 19

1.4.3. Выбор технологии для реализации 22

1.4.4. Схема построения веб-приложения 25

1.5. Постановка задач работы 26

2. Исследование стохастических сетей с узлами конечной емкости и запросами из разных классов при межмодульном взаимодействии компонент дата-центра 28

2.1. Исследование стохастических сетей, состоящих из узлов конечной емкости, на основе масштабируемых Марковских процессов 28

2.1.1. Предварительные замечания 28

2.1.2. Точки равновесия

2.2. Стохастическая модель 31

2.3. Описание эволюции стохастической сети во времени 33

2.4. Точки равновесия стохастических сетей на основе масштабируемых Марковских процессов 2.4.1. Характеристики и существование точек равновесия 38

2.4.2. Пример детерминированных маршрутов 40

2.5. Уникальность точек равновесия 42

2.5.1. Свойство сжатия и его отсутствие 42

2.5.2. Двойственный подход 43

2.5.3. Уникальность точек равновесия 47

2.6. Выводы 50

3. Исследование свойств рабочих нагрузок приложений анализа данных в многосерверных системах в зависимости от особенностей исполняющей платформы 51

3.1. Подходы к измерению производительности и тестовые показатели для анализа нагрузок в дата-центрах 51

3.2. Методология и технология оценки качества рабочих нагрузок

3.2.1. Требования рабочих нагрузок 54

3.2.2. Универсализация использования рабочих нагрузок и численные эксперименты 54

3.2.3. Выбор рабочих нагрузок 56

3.2.4. Аппаратное обеспечение эксперимента и его параметры

3.3. Методология эксперимента и формирование параметров тестовых испытаний 59

3.4. Результаты анализа эффективности

3.4.1. Выполнение инструкций 61

3.4.2. Поведение исполняющей подсистемы 65

3.4.3. Поведение интерфейса 67

3.4.4. Унифицированное поведение кэша и TLB 69

3.4.5. Прогнозы перехода 73

3.5. Выводы 73

4. Исследование и проектирование тестового набора для анализа данных и служебных нагрузок дата-центров 76

4.1. Вычислительная парадигма, ориентированная на пропускную способность дата-центров, и ее особенности 76

4.2. Вычислительная парадигма, ориентированная на пропускную способность рабочих нагрузок 81

4.2.1 Характеристики вычислительной парадигмы 81

4.2.2. Определение отличий высокопроизводительной парадигмы 82

4.2.3. DISC-приложения 84

4.3. Характеристика приложений анализа данных и служебных рабочих нагрузок в дата-центрах 86

4.3.1. Анализ критериев и показателей 87

4.3.2. Результаты анализа систем тестирования рабочих нагрузок 93

4.3.3. Новые задачи по метрикам и эталонным тестам

4.4. Гибкий алгоритм тестирования рабочих нагрузок в многосерверных системах 95

4.5. Выводы 98

5. Специальное программное обеспечение кроссплатформенного веб приложения для хранения объектной модели произвольной предметной области 99

5.1. Структура информационного и программного обеспечения 99

5.2. Общая архитектура приложения 99

5.3. Слой доступа к данным 102

5.3.1 Хранимые классы-сущности разрабатываемой системы...102

5.3.2. Структура базы данных 105

5.3.3. Модель данных для работы с хранимыми классами-сущностями

5.4. Слой бизнес-логики 112

5.5. Слой представления 114

5.6. Алгоритмическое и программное обеспечение обработки входных данных и управления потоками 115

5.7. Выводы 121

Основные результаты работы 123

Список использованных источников

Введение к работе

Актуальность темы

Практическое применение методов управления многосерверными системами приобретает всё большую популярность, их исследованию посвящено большое количество работ. Многообразие методов и способов их описания порождает проблему исследования поведения таких систем и различных рабочих нагрузок, как в части типизации, так и масштаба.

Для исследования поведения систем и рабочих нагрузок могут быть использованы приближенные способы описания, которые ввиду огрубления параметров не позволяют обеспечить нужную степень адекватности. Вследствие этого, актуальной является задача унифицированного описания таких систем, в которых, с одной стороны, каждый узел имеет конечную емкость (т.е. каждый запрос, попадающий в заполненный узел, отклоняется, как в сетях с потерями), а с другой – в которых запросы посещают подмножество узлов в соответствии с некоторым случайным маршрутом, как в сетях Джексона или Келли.

Поскольку объем данных постоянно увеличивается, все больше и больше используются центры обработки данных (дата-центры) для принятия эффективных решений и получения конкурентного преимущества. Для глубоко распределенных многосерверных систем важны три приложения в Интернет-сервисах: поисковые системы, социальные сети и электронная коммерция, согласно широко применимому метрическому показателю - количеству просмотров и посетителей. Приложения анализа данных играют важную роль в центрах обработки данных, и, следовательно, стало более важным понимание их поведения в целях дальнейшего повышения эффективности центра обработки данных и компьютерных систем. Необходим учет архитектуры исполняющих платформ и типизация репрезентативных нагрузок.

Традиционно выделяется три категории нагрузок в высоконагруженных системах: услуги, обработка данных приложений и интерактивные приложения реального времени, причем все связаны с пропускной способностью. Вместе с тем, вопросы интегрированного управления нагрузками центра обработки данных в контексте указанных трех категорий рабочих нагрузок не исследовались. Необходим гибкий алгоритм тестирования рабочих нагрузок в многосерверных системах, позволяющий в процессе тестирования подобрать метрику оценки параметров интегральной нагрузки.

Таким образом, актуальной является задача разработки средств управления нагрузкой многосерверных систем на основе масштабируемых марковских процессов, алгоритмов тестирования и кроссплатформенных инструментов, обеспечивающих гибкие средства хранения объектной модели произвольной предметной области.

Работа выполнена в ФГБОУ ВПО «Воронежский государственный технический университет» в рамках научного направления «Вычислительные ком-

плексы и проблемно-ориентированные системы управления».

Цель работы заключается в разработке средств управления нагрузкой многосерверных систем на основе масштабируемых марковских процессов, алгоритмов тестирования нагрузки и кроссплатформенных инструментов, обеспечивающих гибкие средства хранения объектной модели произвольной предметной области.

Для достижения поставленной цели в диссертационной работе сформулированы следующие задачи:

- провести анализ существующих моделей, алгоритмов и средств управ
ления многосерверными системами высокой нагруженности, применяемых в
распределенных вычислительных системах;

создать математическое описание модифицированных стохастических сетей, совмещающих свойства сетей с потерями и сетей Джексона;

доказать наличие при определенных условиях наличие в высоконагру-женных системах, описываемых масштабируем марковским процессом, стационарной точки;

разработать механизмы тестирования рабочих нагрузок в многосерверных системах, учитывающие тип нагрузки и многообразие метрик оценки параметров нагрузки;

исследовать свойства рабочих нагрузок приложений анализа данных в многосерверных системах в зависимости от особенностей исполняющей платформы;

разработать кроссплатформенные инструменты, обеспечивающие гибкие средства хранения объектной модели произвольной предметной области.

Методы исследования. В качестве теоретической и методологической основы диссертационного исследования использованы методы математического моделирования, оптимизации, теории вероятностей и математической статистики, технологии объектно-ориентированного программирования.

Тематика работы соответствует следующим пунктам паспорта специальности 05.13.11: п.9 «Модели, методы, алгоритмы и программная инфраструктура для организации глобально распределенной обработки данных», п. 10 «Оценка качества, стандартизация и сопровождение программных систем».

Научная новизна. В работе получены следующие результаты, отличающиеся научной новизной:

математическое описание модифицированных стохастических сетей, отличающееся комбинированным рассмотрением узлов сети конечной емкости с отклонением запросов, попадающих в заполненные очереди, и наличием динамического случайного маршрута посещения узлов запросами, обеспечивающее динамическое совмещение характеристик двух важных классов сетей массового обслуживания – сетей с потерями и сетей Джексона;

доказательство сходимости масштабируемого марковского процесса к

детерминированной динамической системе с единственной стационарной точкой, отличающееся использованием метода неподвижной точки и обеспечивающее описание системы со входным потоком и емкостью узлов, масштабируемых стремящимся к бесконечности коэффициентом;

гибкий алгоритм тестирования рабочих нагрузок в многосерверных системах, отличающийся динамической идентификацией типа нагрузки и позволяющий в процессе тестирования подобрать метрику оценки параметров нагрузки;

свойства рабочих нагрузок приложений анализа данных в многосерверных системах, отличающиеся учетом особенностей исполняющей платформы и обеспечивающие кластеризацию программных архитектур для управления нагрузкой типа «анализ данных».

Практическая значимость заключается в создании кроссплатформенного веб-приложения, которое обеспечит пользователей гибким инструментом для хранения объектной модели произвольной предметной области, с целью оперативного формирования средств управления нагрузкой многосерверных систем на основе масштабируемых марковских процессов. На элементы программных средств получено свидетельство о государственной регистрации.

Реализация и внедрение результатов работы. Результаты исследований используются в системе управления информационной системой компании Mott MacDonald (Великобритания, представительство во Вьетнаме) для обеспечения регламентных параметров реакции системы на запросы пользователей и управление транзакциями в распределенной СУБД.

Основные результаты работы внедрены в учебный процесс Воронежского государственного технического университета в рамках дисциплин: «Вычислительные машины, системы и сети», «Информационные сети и телекоммуникационные технологии», при выполнении курсового и дипломного проектирования.

Апробация работы. Основные положения диссертационной работы докладывались и обсуждались на следующих конференциях: XII Международной научно-практической конференции «Современные инструментальные системы, информационные технологии и инновации» (Курск, 2015), Международной научно-практической конференции «Advanced models and technologies in computer networks» (Yelm, WA, USA, 2015),: XX-th Международной открытой научной конференции «Modern informatization problems in economics and safety» (Yelm, WA, USA, January 2015), Международной летней научной школе «Парадигма» (Варна, Болгария, 2015), а также на конференциях профессорско-преподавательского состава Воронежского государственного технического университета (Воронеж, 2014-2015).

Публикации. По теме исследования опубликовано 13 работ, отражающих основных положения исследования, в т.ч. 4 статьи в журналах, рекомендованных ВАК РФ, свидетельство о регистрации программы в ФИПС. В работах, опубликованных в соавторстве и приведенных в конце автореферата, лично со-

искателю принадлежат: в [2, 10] - математическое описание модифицированных стохастических сетей, отличающееся комбинированным рассмотрением узлов сети конечной емкости с отклонением запросов, попадающих в заполненные очереди, и наличием динамического случайного маршрута посещения узлов запросами; в [4] - исследование сходимости масштабируемого марковского процесса к детерминированной динамической системе с единственной стационарной точкой, отличающаяся использованием метода неподвижной точки; в [6, 7] -гибкий алгоритм тестирования рабочих нагрузок в многосерверных системах, отличающийся динамической идентификацией типа нагрузки; в [1, 3, 11, 13] – исследование свойств рабочих нагрузок приложений анализа данных в многосерверных системах, отличающиеся учетом особенностей исполняющей платформы, в [5] -кроссплатформенные инструменты, обеспечивающие гибкие средства хранения объектной модели произвольной предметной области.

Структура и объем работы. Диссертационная работа состоит из введения, пяти глав с заключениями и выводами. Работа содержит 132 страницы основного текста, 12 таблиц, 34 рисунка. Список использованной литературы включает 160 наименований.

Задачи измерения производительности и выбор тестовых показателей для анализа нагрузок в дата-центрах

Рассмотрим вид стохастических сетей, которые динамически совмещают ключевые характеристики двух главных классов сетей массового обслуживания – сетей с потерями и сетей Джексона.

1. Каждый узел сети имеет конечную емкость, таким образом каждый запрос, попадающий в заполненный узел, отклоняется, как в сетях с потерями.

2. Запросы посещают подмножество узлов в соответствии с некоторым (возможным) случайным маршрутом, как в сетях Джексона или Кел-ли.

Введение такого класса сетей можно продемонстрировать на примере мобильной беспроводной сети. Такая сеть представляет собой группу базовых станций, охватывающих некоторое географическое пространство. Область, в пределах которой пользователи мобильных телефонов связываются с базовой станцией, называется как ячейкой (сотой). Базовая станция отвечает за управление полосой пропускания, касающейся мобильных телефонов в своей ячейке (соте).

Новые вызовы инициируются в ячейках и передаются в соседние ячейки, когда мобильные абоненты перемещаются по сети. Новый вызов или вызов передачи обслуживания (передача управления от одной соты к другой при физическом перемещении абонента сотовой сети, чтобы для него не было нарушений связи) принимается, если есть доступная полоса пропускания в соте, в противном случае он отклоняется.

Раньше такие сети моделировались на макроуровне как сети с потерями, характеризуемые скорость потока вызовов, средней длиной вызова, скоростью потока вызовов передачи обслуживания, ограничения емкости количества вызовов в случае экспоненциального времени. Одна из важных характеристик - вероятность блокирования сети. Для анализа этих сетей были использованы различные их аппроксимации.

Предполагая Пуассоновское распределение прибытия вызовов и экспоненциальное время нахождения в каждом узле, временная эволюция такой сети с N узлами может быть представлена как скачкообразный Марковский процесс X(t) со значениями в некотором конечном (но большом) множестве S. Оказывается, что, в отличие от сетей с потерями, Марковский процесс X(t) в общем случае необратим или квазиобратим. Следовательно, в отличие от сетей Джексона (и им подобных) или чистых сетей с потерями, эти сети не имеют стационарного распределения в мультипликативной форме.

В работе анализируется эволюция таких сетей во времени, учитывая большие ограничения по трафику. Интенсивность потока вызовов и емкость узлов пропорциональны некоторой большой величине N. Такое масштабирование было использовано ранее для изучения инвариантных распределений в сетях с потерями. Эволюция во времени сетей с потерями в этих условиях изучена в предшествующих работах, равно как и различное масштабирование.

В классических сетях с потерями инвариантная вероятность имеет представление мультипликативной формы. Однако в условиях большого трафика развитие этих сетей оказывается весьма сложным. В предшествующих работах показано, что для любого x векторное поле F(x), управляющее ограничивающей динамической системой, задано в терминах некоторого отраженного случайного блуждания на Rd+ со скоростью переходов, зависящей от x. В точках x, в которых это случайное блуждание - эр-годическое, F(x) выражается в терминах инвариантного распределения. В точках x, в которых оно кратковременное, F(x) определяет предельную на бесконечности величину. В общем случае неизвестно, всегда ли существует уникальная ограничивающая динамическая система. Ранее рассмотрены некоторые примеры с одним или двумя узлами, где показано, что уникальность имеет место.

Используя терминологию сотовых сетей, можно сказать, что пользователь, вошедший в сеть, соответствует новому запросу на подключение в соте (ячейке). Разные классы клиентов получают доступ к сети; эти классы отличаются интенсивностью поступления вызовов, временем нахождения в узле (то есть количество времени, которое мобильный телефон остается в данной ячейке), продолжительностью вызова и маршрутом перемещения в сети. Во время вызова пользователь перемещается от одной ячейки сети к другим в соответствии с некоторым Марковским процессом, зависящим от класса вызова. Когда пользователь перемещается другую ячейку, в этой ячейке должно быть место для приема пользователя, иначе запрос пользователя отклоняется. Если вызов пользователя не был отклонен при перемещении в сети, вызов завершается по истечении некоторого времени.

Для сетей, анализируемых в данной работе, несложно установить уникальность ограничивающей динамической системы. Основная сложность заключается в сложности системы уравнений, определяющих точки равновесия динамической системы. Так как, по всей видимости, не существует какого-то простого метода решения этих уравнений, вопрос о единственности точек равновесия представляется серьезной проблемой.

Поскольку объем обрабатываемых данных постоянно увеличивается, все больше и больше корпораций используют центры обработки данных (дата-центры) для принятия эффективных решений и получения конкурентного преимущества. Приложения анализа данных играют важную роль в центрах обработки данных, и, следовательно, стало более важным понимание их поведения в целях дальнейшего повышения эффективности центра обработки данных и компьютерных систем.

Исследование рабочих нагрузок показывает, что приложения анализа данных имеют много общих присущих им признаков, из-за которых они помещены в отдельный класс, отличающий их от десктопов (SPEC CPU2006), HPC (HPCC), и служебных рабочих нагрузок, в том числе традиционных серверных нагрузок (SPECweb2005) а также внемасштабных служебных рабочих нагрузок (четыре из шести показателей в CloudSuite)

В контексте цифрового информационного взрыва, все больше и больше фирм анализируют огромный объем данных - так называемые “большие данные” с целью преобразования больших объемов данных до “большого значения”. Нагрузки центра обработки данных могут быть разделены на две категории: услуги и данные анализа рабочих нагрузок. Типичные данные анализа рабочих нагрузок включают бизнес-аналитику, машинное обучение, биоинформатику, и специальный анализ. В работах автора рассмотрена вычислительная парадигма, ориентированная на пропускную способность дата-центров, и ее особенности.

Деловой потенциал приложений анализа данных является движущей силой в разработке инновационных систем дата-центра, включая как аппаратное, так и программное обеспечение. Например, рекомендательная система является типичным примером огромного финансового значения, цель которой рекомендовать правильные продукты нужным покупателям путем интеллектуального анализа поведения пользователя и других параметров. Для анализа данных в дата-центре это относительно новая, но очень важная область применения, в связи с чем существует необходимость понять различные эксплуатационные характеристики рабочих нагрузок, а также осознать, что оптимизация будет способствовать дальнейшему улучшению производительности. Поэтому характеристика анализа данных является значимым фактором для проектировщиков систем и исследователей, стремящихся получить представление об оптимизации компьютерных систем дата-центра.

Стохастическая модель

Таким образом, уравнения (2.9) удовлетворяют x. Итак, получены следующие характеристики точек равновесия. Утверждение 2 (Характеристика точек равновесия). Точки равновесия ограничивающей динамической системы есть элементы xcc такие, что существует некоторое t(0,1]I , удовлетворяющее следующим условиям: Для доказательства существования неподвижной точки будет полезна вторая характеристика точки равновесия: Утверждение 3 (Существование точки равновесия). Точки равновесия динамической системы (1) по утверждению 1 есть неподвижные точки из cc для функции Фc , объявленной следующим образом для xcc :

Доказательство. Напомним, что функция 0С отображает [0,+oo)R в подмножество иє[0,+оо)к : ur с \ и на самом деле Фс(х) принадлежит к хс: ее (і, г)-е координаты равны 0 всегда, когда і g Ir.

Характеристики точек равновесия следуют из утверждения 1, и отмечая, что для иє[0,+оо)к, z 0 и ve[0,+oo)R таких, что ur z, можно сказать, что тождество 0Z (u) = v эквивалентно тому факту, что существует некоторое te(0, 1] такое, что v=tu и либо t =1, либо ur = z. г Тогда существование неподвижной точки является следствием теоремы Брауэра о неподвижной точке, т.к. хс есть выпуклое компактное подмножество IxR и Фс есть непрерывная функция от хс на себе. D

Запросы класса г используют детерминированные маршруты длиной L є \J {+00}, состоящие из очередей Іг = (і 0 р L) со значениями в I такими, что qr(io) = 1, p(r)(ip,ip+1) = 1 для 0 р Ьи p Ci O) = 1, при L +. Отметим, что так как I конечно, случай L=+ обязательно соответствует маршруту г, который в итоге становится периодическим. Точки равновесия, описанные в Утверждении 2, могут быть подробно записаны ис Ґ Л ходя из решения (4) X;r = ocrqr(i) + Pr xjrp(r)(j,i) t; следующим образом:

Приведенные выше вычисления показывают, что точка (х г) имеет в t=(tj) полиномиальное выражение, порядок которого связан с местом, занимаемым узлом і в маршруте - в случае непериодического маршрута, и что (xir) задается степенным рядом от t, когда маршрут г периодический. Кроме того, эти величины должны удовлетворять следующим ограничениям: для ієі, либо ti=l, либо xir = С;. Точное выражение для неподвиж г ных точек в случае детерминированных маршрутов, по всей видимости, получить будет сложно. Как будет показано далее, даже определение единственности - непростая задача.

Сложность точных выражений показана на примере простой сети с двумя узлами, 1={1,2}, и двумя детерминированными непериодическими маршрутами: вызовы первого класса поступают в узел 1, следуют в узел 2 и затем покидают сеть, тогда как вызовы класса 2 делают то же самое, но наоборот. Возьмем ді = д2 = 0 такие, что i = 2 = 1. Тогда легко показать, что:

Несложно убедиться, что эти 4 случая не пересекаются и покрывают все возможные ситуации. Таким образом, уникальность точки равновесия имеет место в данном случае.

Аналогичный подход не представляется возможным для более сложной системы детерминированных маршрутов. Даже доказательство единственности в этом случае является сложной задачей.

В силу утверждения 3, для доказательства уникальности точки равновесия будет достаточно свойства сжатия для Фс. Но можно показать, что в общем случае Фс не обладает свойством сжатия классических норм.

Для доказательства уникальности в общем случае, нужно изменить подход к рассмотрению системы — вместо того, чтобы искать такую точку х є хс, которая является точкой равновесия ограничивающей динамической системы, связанной с заданными вектором с=(сІ5 ІЄІ)Є(0,+ОО): емкостей, задается элемент х, и ищется такой набор векторов с, чтобы данный х являлся точкой равновесия ограничивающей динамической системы. Уникальность точки равновесия для заданного набора с есть эквивалентность такому свойству этого набора, что векторы, ассоциированные с двумя различными значениями х, не пересекаются.

Универсализация использования рабочих нагрузок и численные эксперименты

Характеристики вычислительной парадигмы HVC – основанная на центре обработки данных вычислительная парадигма, ориентированная на пропускную способность рабочих нагрузок. Целью центра обработки данных компьютерной системы, предназначенной для HVC задач, является увеличение объема пропускной способности в плане запросов, или увеличение объема данных, обработанных для максимального числа абонентов одновременно, которые выполняются и поддерживаются в центре обработки данных. В табл. 4.1 HVC характеризуется шестью параметрами: уровни нагрузки, показатели, степень сцепления, объем данных, число рабочих мест или образцы обслуживания. В HVC система определена на уровне центра обработки данных. Выделим три категории нагрузок в HVC: услуги, обработка данных приложений и интерактивных приложений реального времени. Услуги относятся к первой категории HVC-нагрузок. Службы группы приложений сотрудничают для получения пользовательских запросов и возвращения ответов конечным пользователям.

Назовем группу приложений, которые самостоятельно обрабатывают запросы, образцами обслуживания. Для крупных Интернет-сервисов большое количество образцов обслуживания регулируется путем распределения запросов с поддержкой путем балансировки нагрузки. Поскольку каждый запрос является независимым, сервис сам по себе слабо связан. Для обычного веб-сервера Apache параметры ниже, в то время как для поисковых систем, предоставляемых компанией Google, масштаб данных велик. Появляется все больше и больше новых услуг с высокой интенсивностью обмена данными.

Вторая категория HVC-нагрузок - приложения обработки данных. Расмматриваем только слабосвязанные большие объемы данных, например, MapReduce jobs в HVC, за исключением MPI-приложений с большими объемами данных. При работе MapReduce задачи являются независимыми, что существенно отличается от пакетных заданий моделей программирования, как MPI, в которых выполняются задачи и одновременно общаются в процессе их исполнения. Масштаб данных этой категории велик, они также называются приложениями больших данных, и, следовательно, будут выдавать большое количество задач. Будем также включать приложения потока данных заявок в эту категорию HVC-нагрузок. Например, S4 является платформой, которая позволяет программистам легко разрабатывать приложения для обработки неограниченных непрерывных потоков данных.

Третья категория HVC-приложений - интерактивные приложения реального времени. В отличие от обычного веб-сервера, сервер интерактивных приложений реального времени будет поддерживать пользователей сессии длительный период при условии гарантирования качества обслуживания в реальном времени.

Типичные интерактивные приложения реального времени включают потоковые мультимедиа - файлы мультимедиа, которые постоянно доставляются конечному пользователю поставщиком услуг, облачными системами, и голосовыми приложениями. Для этой категории приложений нагрузки слабо связаны по причине независимых запросов или настольных приложений; масштаб данных варьируется от среднего до большого, и количество задач или объем обслуживания велик.

1) Высокопроизводительные вычисления: есть два отличия HVC от высокопроизводительных вычислений (HPC): во-первых, рабочие нагрузки разные. HPC - применяется в основном для научных вычислений и, как правило, в крупных MPI-приложениях, которые тесно связаны между со бой, в то время как HVC - слабосвязанные и обычно состоят из большого объема задач или заданий на обслуживание. Во-вторых, метрические системы разные. Метрика HPC - плавающая точка операций в секунду. Однако, в HVC большинство рабочих нагрузок, например, порождаемых поисковыми системами, не использует такие типы операций.

2) Вычисления с высокой пропускной способностью: потоковые вычисления и т.п. используют среды, которые могут быть средствами доставки большого количества перерабатывающих мощностей в течение весьма длительных периодов времени в качестве высокопроизводительных вычислений. Существует три вида отличий от HVC: во-первых, высокая производительность вычислений определяется на уровне распределенных систем реального времени, а HVC устанавливается на уровне компьютерных систем дата-центров; во-вторых, рабочие нагрузки с высокой пропускной способностью предназначены для научных вычислений, в то время как HVC включает в себя три категории приложений; в-третьих, метрический показатель высокопроизводительных вычислений - плавающая точка/операции за месяц или год.

3) Многоцелевые вычисления: согласно, многоцелевые вычисления отличаются от вычислений с высокой пропускной способностью упором на использование большого количества вычислительных ресурсов в течение короткого периода времени, чтобы решать многие вычислительные задачи, где основные показатели измеряются в секундах (напр. операций с плавающей точкой в секунду, задачи/сек, MB/сек., соотношение ввода-вывода), в отличие от операций в месяц. С точки зрения нагрузок, многоцелевые вычисления означают высокопроизводительные вычисления, включающие множество различных мероприятий, связанных посредством операций файловой системы. Набор задач может быть слабо или тесно связан.

4) Cочетание мощной однопотоковой производительности и высокой степени многоядерных вычислений названо многопоточными высокопроизводительными распределенными вычислениями. Системы, предназначенные для вычислений с высокой пропускной способностью, делают упор на совокупный объем вычислений, выполняемых всеми функциональными подразделениями, потоками ядер, чипами, сопроцессорами и сетевыми картами в системе в течение определенного периода времени, вместо сосредоточения на измерениях скорости, описывающих, как быстро одноядерный или многоцелевой поток выполняют эталонный тест.

В отличие от HVC, высокопроизводительные распределенные вычисления определяются на уровне процессоров, адресности традиционных серверных нагрузок, например, работе с базами данных, TPC-C, SPECint2000, SPECfp2000, в то время как HVC определяется на уровне центра обработки данных. Также отличительной чертой является то, что в HVC выделяется три категории нагрузок. С точки зрения рабочей нагрузки, высокопроизводительные распределенные вычисления в основном, ориентированы на первую категорию HVC-заявок (без учета услуг интенсивной обработки данных, таких как поисковые системы) в дополнение к тестовым системам, основанным на плавающей точке, таким как SPECfp2000.

5) Интенсивные вычисления данных (сокращенно DISC) или вычисления в дата-центрах не дают формального определения того, что такое DISC. Вместо этого, они характеризуют DISC путем сравнения его с облачными вычислениями и высокопроизводительными вычислениями: во-первых, "облачные" вычисления направлены в сторону хостинговых услуг, например, услуги веб-почты, в то время как DISC-приложения связаны с очень большими общими хранилищами данных, обеспечивающих комплексный анализ; во-вторых, с точки зрения модели программирования, HPC-программы реализуются на очень низком уровне, с указанием точного инструмента обработки сообщений, в то время как DISC-приложения написаны с точки зрения высокого уровня операций c данными, и системами управления, планирования и распределения нагрузки во время работы.

Гибкий алгоритм тестирования рабочих нагрузок в многосерверных системах

Поскольку показатель энергоэффективности становится все более и более важным, рейтинг Green500 при ранжировании суперкомпьютеров, используемых для научно-производственной деятельности, в первую оче редь согласно количества энергии, необходимой для выполнения установленного объема работы.

Рейтинг Sun Microsystems также предложил термин “sWaP метрики” (пространство, ватты и производительность) для оценки корпоративных систем с точки зрения перспективы данных ресурсной эффективности и энергопотребления.

Существует и тестовая система JouleSort. Внешняя сортировка из набора эталонных данных была выбрана для контрольных показателей рабочей нагрузки. Метриками являются записи.

SPECpower_ssj2008 является первым стандартным SPEC измерителем, который оценивает силовые и скоростные характеристики объема серверов и многоузловых компьютеров. Первоначальный тест ориентирован только на производительность Java на сервере SPECjbb2005.

Двухфазная фиксация определяется обработкой транзакций и баз данных, цель которой заключается в том, чтобы определить набор функциональных требований, которые могут быть запущены на любой системе обработки транзакций, независимо от аппаратного обеспечения или операционной системы. Большинство TPC тестов устарели, и только три по-прежнему используются: TPC-C, TPC-E и TPC-H. TPC-C тесты используются по всем основным видам деятельности. TPC-E модели – для брокерских фирм с клиентами, которые совершают транзакйии, связанные с торгами, запросами о состоянии счета и исследованиям рынка. В отличие от TPC-C и TPC-E, TPC-H используются для анализа в бизнес-среде, где вычисляются тенденции и с уточненными данными передаются в системы поддержки принятия обоснованных деловых решений. В TPC тестах показатели специфицированы для конкретного приложения. Например, метрикой TPC-C является количество и порядок транзакций, совершаемых в минуту.

В контексте вычислений в центре обработки данных, с помощью HiBench, GridMix2 или GridMix3, WL Suite предлагается оценивать нагрузку рабочей фазы. Рабочая нагрузка - это приложения анализа данных. Метрики - производительность в пересчете на количество задач в минуту, и время выполнения задания, широко используемые в пакетных системах массового обслуживания.

YCSB и расширенный тестовый измеритель -YCSB++ предназначены оценивать NoSQL системы для масштабных услуг по предоставлению данных. Метрики - пропускная способность - общее число операций в секунду, включая чтение и запись, и средняя задержка реакции на запросы.

PARSEC - это набор тестов для исследования мультипроцессоров на одном чипе (CMP). PARSEC включает в себя новые области применения в понимания, извлечения и синтеза, а также системы, которые имитируют масштабные многопотоковые коммерческие программы.

SPEC CPU2006 – компонент, который дает представление о современных научных и инженерных приложениях, включая набор последовательных программ, не предназначенных для исследования параллельных машин. Набор компонентов SPEC CPU2006 включают в себя как CINT2006 -целое число ориентиров, так и CFP2006-ориентиры с плавающей точкой. После того, как тесты запускаются на тестируемой системе, коэффициент для каждого из них рассчитывается с использованием рабочей фазы на тестируемой системе и эталонного времени.

SPEC (консорциум по оценке и стандартизации показателей быстродействия (производительности) вычислительных машин) также предложил ряд исходных данных для Java-приложений. Среди них, SPECjvm2008 (клиент JVM); SPECjbb2005 - это сервер эталонного теста JVM, SPECjEnter-prise2010 –серверное тестовое приложение Java. SPECjms2007 является первым отраслевым стандартом и ориентиром для оценки эффективности деятельности работы межплатформенных серверов доставки сообщений на основе JMS (Java Message Service). SPECweb2009 эмулирует отправляемые пользователями запросы на браузер через широкополосное Интернет-подключение организаций к веб-серверу через HTTP и HTTPS. Он покрывает такие приложения, как банки, электронную коммерцию, и поддержку рабочих нагрузок, наряду с новой мощной рабочей нагрузкой e-commerce. SPEC-sip_Infrastructure2011 предназначен для оценки способности системы выступать в качестве SIP-сервера с поддержкой конкретного SIP приложения. Приложение смоделировано по образцу развертывания VoIP (системы голосовых сообщений). Метрика - одновременное количество поддерживаемых абонентов.