Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Анализ и оценка факторов, влияющих на скорость параллельной обработки информации в ГРИД-системах Дробнов Сергей Евгеньевич

Анализ и оценка факторов, влияющих на скорость параллельной обработки информации в ГРИД-системах
<
Анализ и оценка факторов, влияющих на скорость параллельной обработки информации в ГРИД-системах Анализ и оценка факторов, влияющих на скорость параллельной обработки информации в ГРИД-системах Анализ и оценка факторов, влияющих на скорость параллельной обработки информации в ГРИД-системах Анализ и оценка факторов, влияющих на скорость параллельной обработки информации в ГРИД-системах Анализ и оценка факторов, влияющих на скорость параллельной обработки информации в ГРИД-системах Анализ и оценка факторов, влияющих на скорость параллельной обработки информации в ГРИД-системах Анализ и оценка факторов, влияющих на скорость параллельной обработки информации в ГРИД-системах Анализ и оценка факторов, влияющих на скорость параллельной обработки информации в ГРИД-системах Анализ и оценка факторов, влияющих на скорость параллельной обработки информации в ГРИД-системах Анализ и оценка факторов, влияющих на скорость параллельной обработки информации в ГРИД-системах Анализ и оценка факторов, влияющих на скорость параллельной обработки информации в ГРИД-системах Анализ и оценка факторов, влияющих на скорость параллельной обработки информации в ГРИД-системах
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Дробнов Сергей Евгеньевич. Анализ и оценка факторов, влияющих на скорость параллельной обработки информации в ГРИД-системах: диссертация ... кандидата технических наук: 05.13.15 / Дробнов Сергей Евгеньевич;[Место защиты: Московский государственный институт радиотехники, электроники и автоматики (технический университет)].- Москва, 2014.- 145 с.

Содержание к диссертации

Введение

ГЛАВА 1 Анализ проблематики в области организации параллельных вычислений в грид-системах. постановка задачи исследования 28

1.1 Состояние исследований и разработок в области ГРИД-систем. Пути развития распределенных систем 28

1.2 Особенности параллельных вычислений в ГРИД-системах 31

1.3 Классификация архитектур ГРИД-систем 34

1.4. Стек протоколов ГРИД-систем 42

1.5 Постановка задачи 46

ГЛАВА 2 Исследование и разработка методов анализа скорости параллельной обработки информации в грид системах 52

2.1 Факторы, замедляющие процесс параллельной обработки информации 52

2.2 Обобщенная формула ограничения роста производительности вычислительной ГРИД-системы 56

2.3 Задача минимизация количества вычислительных узлов в ГРИД системах 58

2.4. Метод оценки скорости параллельной обработки в ГРИД-системах гомогенного типа 60

2.5. Метод оценки скорости параллельной обработки в ГРИД-системах гетерогенного типа 64

2.6. Анализ производительности вычислительных узлов с

многоядерными процессорами 68

2.7 Анализ обучения нейронных сетей в ГРИД-системах 71

2.8. Взаимосвязь объема последовательных вычислений и времени обработки пакетов в ГРИД-системах 78

2.9. Динамика характеристик загруженности ГРИД-систем в процессе обработки данных 81

2.10. Краткие выводы 83

ГЛАВА 3 Экспериментальное исследование разработанных методик оценки производительности грид-систем. вопросы практического применения 85

3.1 Разработка архитектуры и структурной схемы моделируемой ГРИД системы. Имитация решения задач в ГРИД-системе 85

3.2 Развертывание ГРИД-системы на примере учебных высокопроизводительных вычислительных кластеров МГТУ МИРЭА . 102

3.3 Развертывание высокопроизводительного вычислительного кластера на базе дистрибутива PelicanHPC 102

3.4 Разработка ГРИД-системы на основе инфраструктуры BOINC 104

3.5 Краткие выводы 109

Заключение 111

Библиография 118

Введение к работе

Актуальность темы. В ИТ-сообществе продолжает возрастать интерес к распараллеливанию ресурсоемких вычислительных задач для последующего их решения посредством ГРИД-систем. В этих системах вычислительная среда представлена в виде соединенных сетью вычислительных узлов, слабосвязанных, гомогенных или гетерогенных компьютеров, работающих вместе для выполнения большого количества заданий. Объемы данных в ГРИД-системах составляют десятки терабайт, а для расчетов задействуются компьютеры по всему миру. Вычислительные мощности, которые обеспечивают ГРИД системы такого масштаба, очень велики и продолжают увеличиваться.

С увеличением масштабов вычислительных систем, состоящих из
разнесенных на большие расстояния вычислительных узлов требуются
дополнительный анализ, уточнения и обобщения математических методов
и оценок с введением новых факторов риска. Становятся все более
значимыми и весомыми специфические факторы, сказывающиеся на
скорости вычислений и времени, затрачиваемом на решение задач
посредством ГРИД-систем. К таким факторам относятся: топология
системы, географическая удаленность вычислительных узлов,

нестабильность работы большого количества вычислительных узлов и
сети, ограничение скорости обмена данными между клиентом и
вычислительным узлом, сегментированность, архитектура построения,
гомогенность/гетерогенность системы, высокая интенсивность и

сложность внешнего информационного обмена, работа на высоких уровнях модели OSI, доступность, настраиваемость и масштабируемость, управляемость параметров. Фундаментальный вклад в теорию и практику параллельных вычислительных технологий и грид-систем внесли

выдающиеся ученые, среди которых Е.П. Балашов, В.Б. Бетелин, В.С. Бурцев, В.В. Васильев, В.В. Воеводин, Вл.В. Воеводин, В.М. Глушков, В.Ф. Евдокимов, Э.В. Евреинов, А.В. Забродин, В.П. Иванников, М.Б. Игнатьев, А.В. Каляев, Л.Н. Королв, С.А. Лебедев, А.О. Лацис, В.К. Левин, Г.И. Марчук, Ю.И. Митропольский, Д.А. Поспелов, Д.В. Пузанков, Г.Е. Пухов, Г.Г. Рябов, В.Г. Хорошевский, I. Foster, G. Amdahl, M. Hill, C. Kesselman и другие. Существующие открытые научные публикации посвящены в основном алгоритмам распределения нагрузки в ГРИД-системах, а также разработке алгоритмов параллельных вычислений.

Цель работы и задачи исследования. Целью настоящей

диссертационной работы является восполнение пробела в области анализа
и оценки факторов, влияющих на скорость обработки информации в
ГРИД-системах, разработка методов расчета скорости вычислений и
смежных показателей ГРИД-систем. Предмет исследований диссертации
соответствует исследовательской области №4 «Разработка научных
методов и алгоритмов организации параллельной и распределенной
обработки информации, многопроцессорных, многомашинных и

специальных вычислительных систем» специальности 05.13.15 и определяется следующими задачами:

  1. Провести анализ зависимости ускорения вычислений от архитектурных особенностей ГРИД-систем с определением оптимального в смысле ускорения вычислений количества вычислительных узлов в конкретных ГРИД-системах.

  2. Разработать математическую модель клиент-серверного взаимодействия с учетом особенностей архитектуры и организации ГРИД-систем.

  3. Исследовать процесс обучения нейронных сетей с применением ГРИД-систем.

  1. Исследовать влияние многоядерности вычислительных узлов на ускорение вычислений в ГРИД-системах.

  2. Разработать обобщенный метод оценки ускорения вычислений в ГРИД-системах гомогенного и гетерогенного типов.

  3. Разработать имитационную модель ГРИД-систем для анализа и имитации их работы.

  4. Разработать программный комплекс для определения ускорения вычислений в ГРИД-системах на основе разработанных методов. Методы исследования. В работе использовались методы теории

массового обслуживания и дискретной математики, в т.ч. теория графов и
сети Петри, методы системного анализа, теория и методы

программирования, а также современная методология организации распределенных систем.

Научная новизна работы состоит в том, что в диссертации впервые
на основе специфичных для исследуемого класса систем характеристик
разработаны и реализованы методы, позволяющие получать точные
оценки производительности вычислительных ГРИД-систем. Определены
факторы, оказывающие наибольшее влияние на замедление процесса
параллельной обработки информации в этих системах. Получено
обобщенное выражение для роста производительности вычислительной
ГРИД-системы. Получены выражения для минимизации количества
вычислительных узлов в ГРИД-системах. Разработаны методы

определения скорости параллельной обработки в ГРИД-системах
гомогенного и гетерогенного типа. Определены характеристики
вычислительных узлов с многоядерными процессорами и их влияние на
ограничение роста производительности системы. Разработаны

рекомендации для ускорения параллельной обработки данных в ГРИД-системах. Проведен анализ ускорения обучения нейронных сетей

посредством применения ГРИД-систем. Указаны взаимосвязи объема
последовательных вычислений и времени расчета в ГРИД-системах.
Показана динамика характеристик загруженности ГРИД-систем в ходе
обработки данных. На основе разработанных в диссертации

математических моделей и алгоритмов создана эффективная программа, анализирующая ускорение распределенных вычислений в ГРИД-системе, созданной в инновационных центрах МГТУ МИРЭА и МГДД(Ю)Т при участии диссертанта.

Значение полученных соискателем результатов исследования для
практики подтверждается тем, что: определены зависимости скорости
вычислений в ГРИД-системах от количества вычислительных узлов, что
позволило получить уточненные оценки для временных и ресурсных
затрат при решении конкретных задач с использованием ГРИД-систем;
разработаны методы оценки оптимального в смысле ускорения
вычислений количества вычислительных узлов в ГРИД-системах,
учитывающие в совокупности и взаимосвязи параметры ГРИД-системы и
условия решаемых задач; разработаны методы анализа и оценки времени и
ускорения вычислений в ГРИД-системах, что позволило уточнить
определение необходимого на решение поставленной задачи времени при
известных параметрах системы. На основе рекомендаций

диссертационной работы при участии диссертанта в рамках комплекса внедренческих работ и мероприятий Центра НИТ МИРЭА-МГДД(Ю)Т в 2012-2013 гг. на высокопроизводительных вычислительных кластерах разработана и развернула ГРИД-система на основе программной платформы BOINC.

Результаты диссертации внедрены в учебный процесс МГТУ МИРЭА
в форме информационного обеспечения блока дисциплин

«Математическое моделирование» на факультете «Информационные

технологии» МГТУ МИРЭА, а так же в лекционных курсах «Моделирование» и «Математическое моделирование», читаемых диссертантом.

Апробация работы. Результаты работы доложены и обсуждены на IV, V, VI, VII Всероссийских конференциях "Искусственный интеллект: философия, методология, инновации", конференции «Стандартизация, сертификация, обеспечение эффективности, качества и безопасности информационных технологий» 2011 г., международной заочной научно-практической конференции "Современные вопросы науки и образования -XXI век" 2012 г., 11-ой научно-практической конференции «Современные информационные технологии в управлении и образовании» ФГУП НИИ «Восход» – МИРЭА – МЭСИ, международной научно-практической конференции «Современные направления теоретических и прикладных исследований 2012».

Публикации. По теме диссертации опубликовано 15 статей (включая 3 статьи в журналах из перечня ВАК и 1 монографию в немецком издательстве). Получено свидетельство о государственной регистрации программы для ЭВМ №2012660211 от 24 сентября 2012 г. «Анализатор ускорения распределенных вычислений на алгоритмах кластеризации».

Структура и объем диссертации. Структура диссертации включает в себя развитый Глоссарий из 120 современных терминов и дефиниций, относящихся к теме диссертации, Введение, три главы основного текста, Заключение, Библиографию (116 наименований) и 3 Приложения. Объем диссертации 145 страниц, в т.ч. 50 рисунков и 5 таблиц.

Особенности параллельных вычислений в ГРИД-системах

Фигурирующие объемы данных в различных вычислительных задачах, требующих распределенной обработки, составляют десятки терабайт, а для расчетов, связанных с этими задачами, задействуются компьютеры по всему миру [9-19]. Вычислительные мощности, которые обеспечиваются ГРИД системами, очень велики и продолжают увеличиваться. Так, например, объемы данных, которые планируется получить в ходе экспериментов в БАК, составляют порядка 500 Тб [5]. Количество участников в проекте SETI@HOME составляет несколько десятков тысяч человек из разных стран мира [28]. Возникли такие масштабные проекты, как облачная служба Amazon ЕС2 (Elastic Compute Cloud) [20], Ubuntu Enterprise Cloud (UEC) в Canonical Ubuntu 9.10 [21], LCG - вычислительный ГРИД для большого адронного коллайдера (БАК) [22], ряд проектов добровольных вычислений «@НОМЕ» [23-27] с охватом аудитории по всей планете.

С увеличением масштабов ГРИД-систем все больше проявляют свое влияние специфические для систем такого рода архитектурные особенности, сказывающиеся на скорости вычислений и времени, затрачиваемом на решение задач. Анализ этих особенностей может позволить определить наиболее подходящие параметры систем для решения конкретных задач. Научные публикации авторов, исследующих вопросы построения ГРИД-систем, посвящены анализу либо параллельных вычислений в целом, либо отдельных аспектов ГРИД-систем (в основном, алгоритмам распределения нагрузки), но множеству остальных параметров все еще не уделено достаточно внимания.

Анализ существующих проектов по построению ГРИД-систем позволяет ряду исследователей сделать вывод о трех основных направлениях развития ГРИД-технологии и связанной с ними классификации ГРИД-систем [29, 53, 55 и др.]: 1. Вычислительные ГРИД (Computational GRID); 2. ГРИД для интенсивной обработки данных(Ба1а GRID); 3. Семантический ГРИД для оперирования данными из различных баз данных (Semantic GRID).

Целью первого направления является достижение максимальной скорости вычислений за счет глобального распределения операций между множеством компьютеров, а также, возможно, серверами и суперкомпьютерами. Задача распределяется между множеством отдельных систем, на которых проводится обработка информации, после чего результаты поступают на основной сервер. Каждый из вычислительных узлов может рассматриваться, как самостоятельная вычислительная система, выполняющая поставленную работу и имеющая доступ к сети. Вычислительные ГРИД во многих случаях являются более рентабельными, чем суперкомпьютеры равной вычислительной мощности.

Целью второго направления является обработка огромных объемов данных относительно несложными программами. Поэтому вычислительные ресурсы ГРИД-инфраструктуры в этом случае зачастую представляют собой кластеры персональных компьютеров. А вот доставка данных для обработки и пересылка результатов в этом случае представляют собой достаточно сложную задачу. Одним из крупнейших проектов, целью которого является создание ГРИД-системы для обработки научных данных, является проект EGEE (Enabling Grids for Е-sciencE) [30]. EGEE - проект, направленный на построение грид-инфраструктуры, которая сможет использоваться в многочисленных научных исследованиях в Европе. Консорциум участников проекта включает более 70 институтов из 27 европейских стран. Стартовой площадкой для EGEE служит LHC Computing Grid, целью которого является предоставление вычислительных ресурсов для анализа данных, поступающих от БАК. Начав с этой инфраструктуры, EGEE добавляет ресурсы из всех частей света и привлекает пользователей из ряда других сообществ, чтобы сформировать самую большую в мире ГРИД-инфраструктуру, которая могла бы использоваться в многочисленных областях науки. В результате научно-исследовательское сообщество Европы получает в своё распоряжение мощнейшую вычислительную платформу, услуги которой — круглосуточный доступ к крупнейшим вычислительным ресурсам. Доступ не зависит от месторасположения потребителей и будет основываться на использовании научных сетей Geant и NRNs. Российские участники EGEE образовали региональный консорциум РДИГ (Российский ГРИД для интенсивных операций с данными — Russian Data Intensive GRID, RDIG) [31].

Стек протоколов ГРИД-систем

В таком случае, при определении точки максимума ускорения вычислений количеством ядер вносится существенный вклад. Как можно видеть на Рис. 2.7, ускорение вычислений при распределении одного и того же количества ядер по 50 вычислительным узлам в определенный момент превышает максимум, достижимый при распределении по 30 вычислительным узлам.

Для ускорения вычислений в ГРИД-системах можно принять во внимание три общие рекомендации [49, 51]: 1) передавать за одно соединение между вычислительным узлом и сервером несколько пакетов; 2) уменьшить объем пакетов; 3) увеличить количество параллельных потоков для обработки вычислительных узлов.

Передача нескольких пакетов за одно соединение позволит избежать лишних временных задержек Г? во столько раз, сколько будет передаваться за раз пакетов.

Уменьшение объема пакетов уменьшит временную задержку Т2 и позволит быстрее обмениваться данными серверу и вычислительным узлам.

Каждый добавляемый поток обработки берет на себя часть потока запросов от вычислительных узлов, что позволяет не допустить падения ускорения вычислений как можно дольше.

Указанные выше меры позволяют только не допустить раннего падения ускорения вычислений и приблизить этот показатель к значению, получаемому по теории Амдала. Для еще большего приближения к закону Амдала необходима переработка алгоритма решаемой задачи с целью уменьшения доли последовательных вычислений.

Анализ обучения нейронных сетей в ГРИД-системах Ставится задача проанализировать ускорение обучения нейронных сетей на конечном наборе примеров с имеющимися ответами при применении генетического алгоритма, распараллеливаемого на ГРИД-систему [45].

На Рис. 2.8 изображена общая схема устройства искусственного нейрона [65], которая в дальнейшем закладывается в основу нейронной сети, возможный пример которой изображен на Рис. 2.9. На вход каждого нейрона в процессе вычислений подается вектор х=(х1..хп), после чего последний умножается на вектор весов нейрона (скалярное произведение векторов) и над результатом перемножения выполняется определенная функция F(S), что и является выходным сигналом нейрона. Как показано на Рис. 2.9, множество нейронов соединяются в одну большую сеть, в которой выход одного нейрона соответствует входам нескольких нейронов в другом слое. На входы первого, входного слоя подается пример для обучения, а результат, снимаемый с выходного слоя, сравнивается с эталонным. После сравнивания производится корректировка значений весов нейронов в сети. где NN- результат вычислений нейронной сети. В системе (2.22) требуется найти значения всех промежуточных весов связей нейронов. Благодаря хорошей распараллеливаемости для решения задачи одними из наиболее подходящих методов являются генетические алгоритмы (ГА), способные получать глобальное оптимальное решение, требуемое для системы (2.22) [46, 52]. Для точности и скорости работы ГА важно количество генерируемых особей и количество обрабатываемых поколений, что требует достаточно большого количества компьютерного времени. Большие вычислительные мощности может предоставить сеть распределенных вычислений, если алгоритм позволяет выполнять действия независимо друг от друга [54].

Распишем логику выполнения генетического алгоритма на распределенной сети: 1. Формирование задачи и составление уравнения (2.22); 2. Генерация особей в количестве 1; 3. Проверки особей на нейронной сети с указанными значениями и поиск наиболее подходящих особей для следующего поколения; 4. Мутация особей; 5. Повтор цикла 2-4 w-раз или до нахождения решения. Сервер берет на себя шаги 1,2,4, что дает возможность разделить 3-й шаг на некоторое количество отдельных вычислителей в сети. Воспользуемся теорией Амдала [41] для расчета прироста в сети распределенных вычислений: 1-а а + с , (2.23) где а - доля последовательной части в задаче, а р- количество одновременно работающих вычислителей. Введем обозначения: 1 - число генерируемых за один цикл особей (особь - вектор значений, которые могут быть возможным решением); w - число циклов для поиска решения; tA - время на получение веса (расстояния до ответа) одной особи на одном вычислительном узле; ts - время на все операции с одной особью на стороне сервера; tq - время на 1 цикл = r% + r tA (без распараллеливания); Т- максимальное время решения = q tq = qr(ts+ t l а - доля последовательной части в задаче = ts/ (ts+ t ,

При использовании в задаче ГРИД-системы необходимо отметить, что закон Амдала не учитывает специфические задержки, возникающие в среде передачи данных и при обработке данных клиентами и сервером. Проиллюстрируем ускорение расчетов системы по закону Амдала и по зависимости (2.6). В качестве примера укажем следующие параметры (см. раздел 2.2): доля последовательных вычислений - 0.2; количество вычислительных узлов варьируется; задержка перед началом передачи данных - 0.5 с; время расчета одного пакета на одном вычислительном узле - 70 с; объем пакета - 30 килобит; скорость передачи со стороны сервера - 30 килобит в секунду; количество каналов обработки вычислительных узлов - 1.

Эти значения позволяют наглядно показать изменение ускорения при сравнительно небольшом количестве вычислительных узлов. На Рис. 2.10 представлен график зависимости ускорения от количества вычислительных узлов. На начальном этапе увеличения количества вычислительных узлов (0-20000) наблюдается значительный рост ускорения вычислений. На среднем этапе (20000-50000) прирост ускорения заметно уменьшается. На последнем этапе (50000-70000) ускорение начинает падать из-за все больше проявляющего себя третьего типа задержки (возникновение очереди к серверу). Точка максимума ускорения в зависимости от количества вычислительных узлов приходится на средний этап и может быть вычислена по формуле (2.7).

Задача минимизация количества вычислительных узлов в ГРИД системах

Дистрибутив PelicanHPC, ранее известный как ParallelKnoppix, предоставляет все технологии для развертывания вычислительных кластеров е дополнительными вычислительными узлами, поддерживающими бездисковую загрузку по сети. Из недостатков можно указать предоставление в виде LiveCD без возможности установить на внутренний накопитель сервера.

Материнские платы поддерживают спецификации РХЕ 2.1 (Prebool execution Environment) - среды для загрузки компьютеров с помощью сетевой карты без использования жёстких дисков, компакт-дисков и других устройств Для организации загрузки системы в РХЕ используются протоколы IP, UDP, ВООТР и TFTP. Это позволяет сэкономить на жестких дисках (они будут не нужны) и ускоряет внутрисистемную работу (так как вся дисковая подсистема будет содержаться в оперативной памяти с соответствующей скоростью работы). Объема начальной памяти в 128 МБ на узел достаточно для его загрузки, т.к. в оперативную память загружается ядро и окружение сравнительно небольшою размера, а файловая система подключается из файла на сервере но протоколу NFS; общий объем требуемой памяти будет зависеть от конкретной задачи. Так же, при загрузке по РХЕ все узлы конфигурируются из одной локализации. В каждом узле развернута своя копия ОС, на сервере установлена полная версия системы и сервисы обеспечения работоспособности, на узлах установлена версия ОС, которая требует обновления в ручном режиме каждый раз при внесении изменений в сервер. Благодаря функциям ядра обеспечивается уникальность идентификаторов процессов в рамках всего кластера, а не отдельных узлов, а также «удаленная доставка» сигналов ОС Linux.

В рамках архитектуры сети МГТУ МИРЭА и конкретных настроек кластеров в операционные системы кластеров были внесены изменения в части внутренней адресации сети кластера и имени машин. Для мониторинга активности системы используется программный пакет «Ganglia», отображающий нагрузку на процессоры, память, дисковую подсистему и сеть. Так же, система поддерживает пользовательские дополнительные сенсоры на языках С, Perl, Python, PHP.

Учебное направление кластера обеспечивается поддержкой библиотеки MPI, реализованной для большинства языков программирования, и подходящих для курсов «Информатика», «Основы программирования», «Программирование на ЯВУ», «Информсреда образования», «Моделирование информационных систем» и других, связанных с созданием программ для ЭВМ. Т.к. большинство современных персональных компьютеров оснащается многоядерными процессорами, то обучение многопоточному программированию на многопроцессорных системах позволит многократно увеличить скорость выполнения разрабатываемых приложений.

Вместе с тем созданный кластер выступает в качестве «рендер-фермы», которая за счет использования рендерера трехмерных сцен LuxRender позволяет эффективно использовать кластер в поддержку учебных дисциплин, сопряжённых с интенсивными компьютерными графическими работами, например по курсу «Компьютерная геометрия и графика». BOINC - Открытая Инфраструктура для Распределенных Вычислений университета Беркли (Berkeley Open Infrastructure for Network Computing) - программная платформа для организации распределённых вычислений использующих добровольно предоставляемые вычислительные ресурсы. Программа разрабатывается Калифорнийским университетом в Беркли (University of California, Berkeley). Все исходные тексты BOINC доступны в рамках LGPL лицензии. Поддерживаются операционные системы Windows, Linux, Mac OS X, Solaris. BOINC поддерживается National Science Foundation. BOINC состоит из серверной и клиентской частей.

Серверная часть состоит из HTTP-сервера с сайтами проектов, базы данных MySQL и набора вспомогательных утилит (генератор заданий, планировщик, валидатор, ассимилятор результатов). HTTP сервер необходим для общего управления проектом: регистрация участников, распределение заданий для обработки, получения результатов и управления базами данных проекта. В базе данных хранятся пользователи, пароли, записи заданий, результатов, информация о хостах, программах проекта и прочее.

Развертывание ГРИД-системы на примере учебных высокопроизводительных вычислительных кластеров МГТУ МИРЭА

Проведен анализ проблематики в области организации вычислений в параллельных системах и состояния исследований и разработок в области ГРИД-систем. Обозначены пути развития ГРИД-систем, выделены особенности параллельных вычислений в ГРИД-системах, приведена классификация архитектур и стек протоколов этого класса систем. Исследованы наиболее употребляемые методы анализа времени вычислений и ускорения вычислений в ГРИД-системах. Доказано наличие зависимостей между параметрами ГРИД-систем и временем решения задач в рассматриваемых системах, а так же достигаемым ускорением вычислений. Применительно к проблематике диссертации результативно использован комплекс существующих базовых методов исследования, в том числе численных методов, экспериментальных методик и методов имитационного моделирования. Изучены связи параметров ГРИД-систем и их компонентов и их влияние, как на достигаемое ускорение, так и на решаемые в них задачи. Проведена модернизация существующих математических моделей с целью более детального исследования ГРИД-систем и получения новых результатов по теме диссертации.

Теоретическая значимость исследования обоснована тем, что в диссертации впервые на основе специфичных для исследуемого класса систем характеристик разработаны и реализованы комплексные подходы к оценке производительности вычислительных ГРИД-систем. Выделены факторы, замедляющие процесс параллельной обработки информации.

Разработана обобщенная формула ограничения роста производительности вычислительной ГРИД-системы. Описана минимизация количества вычислительных узлов в ГРИД-системах. Разработаны методы определения скорости параллельной обработки в ГРИД-системах гомогенного и гетерогенного типа. Выделены характеристики вычислительных узлов с многоядерными процессорами и их влияние на ограничение роста производительности системы. Разработаны рекомендации для ускорения параллельной обработки данных в ГРИД-системах. Проведен анализ ускорения обучения нейронных сетей посредством применения ГРИД-систем. Указаны взаимосвязи объема последовательных вычислений и времени расчета в ГРИД-системах. Показана динамика характеристик загруженности ГРИД-систем в ходе обработки данных. На основе разработанных диссертантом математических моделей и алгоритмов создан программный продукт анализа ускорения распределенных вычислений на алгоритмах кластеризации. Эффективность разработанной программы проверена на ГРИД-системе, внедренной на базе МГТУ МИРЭА и МГДД(Ю)Т. Имеется Акт внедрения программы.

Значение полученных соискателем результатов исследования для практики подтверждается тем, что:

1. Определены зависимости скорости вычислений в ГРИД-системах от количества вычислительных узлов, что позволяет более точно оценивать временные и ресурсные затраты для решения задач в ГРИД-системах.

2. Разработаны методы оценки оптимального в смысле ускорения вычислений количества вычислительных узлов в ГРИД-системах, учитывающие как параметры ГРИД-системы, так и параметры решаемых задач.

3. Разработаны методы, позволяющие проводить анализ времени вычислений и ускорения вычислений в ГРИД-системах, благодаря чему возможно более точное определение необходимого на решение поставленной задачи времени при известных параметрах системы.

4. На основе рекомендаций диссертационной работы при участии диссертанта в рамках комплекса внедренческих работ и мероприятий Центра НИТ МИРЭА-МГДД(Ю)Т в 2012-2013 гг. на высокопроизводительных вычислительных кластерах была разработана и развернула ГРИД-система на основе программной платформы BOINC.

5. Результаты диссертации внедрены в учебный процесс МГТУ МИРЭА в форме информационного обеспечения блока дисциплин «Моделирование», «Математическое моделирование» по кафедре ИИС МГТУ МИРЭА.

Похожие диссертации на Анализ и оценка факторов, влияющих на скорость параллельной обработки информации в ГРИД-системах