Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Комплексный подход к исследованию причин и признаков снижения эффективности суперкомпьютерных приложений и систем на основе данных системного мониторинга Никитенко Дмитрий Александрович

Комплексный подход к исследованию причин и признаков снижения эффективности суперкомпьютерных приложений и систем на основе данных системного мониторинга
<
Комплексный подход к исследованию причин и признаков снижения эффективности суперкомпьютерных приложений и систем на основе данных системного мониторинга Комплексный подход к исследованию причин и признаков снижения эффективности суперкомпьютерных приложений и систем на основе данных системного мониторинга Комплексный подход к исследованию причин и признаков снижения эффективности суперкомпьютерных приложений и систем на основе данных системного мониторинга Комплексный подход к исследованию причин и признаков снижения эффективности суперкомпьютерных приложений и систем на основе данных системного мониторинга Комплексный подход к исследованию причин и признаков снижения эффективности суперкомпьютерных приложений и систем на основе данных системного мониторинга Комплексный подход к исследованию причин и признаков снижения эффективности суперкомпьютерных приложений и систем на основе данных системного мониторинга Комплексный подход к исследованию причин и признаков снижения эффективности суперкомпьютерных приложений и систем на основе данных системного мониторинга Комплексный подход к исследованию причин и признаков снижения эффективности суперкомпьютерных приложений и систем на основе данных системного мониторинга Комплексный подход к исследованию причин и признаков снижения эффективности суперкомпьютерных приложений и систем на основе данных системного мониторинга Комплексный подход к исследованию причин и признаков снижения эффективности суперкомпьютерных приложений и систем на основе данных системного мониторинга Комплексный подход к исследованию причин и признаков снижения эффективности суперкомпьютерных приложений и систем на основе данных системного мониторинга Комплексный подход к исследованию причин и признаков снижения эффективности суперкомпьютерных приложений и систем на основе данных системного мониторинга
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Никитенко Дмитрий Александрович. Комплексный подход к исследованию причин и признаков снижения эффективности суперкомпьютерных приложений и систем на основе данных системного мониторинга: диссертация ... кандидата физико-математических наук: 05.13.11 / Никитенко Дмитрий Александрович;[Место защиты: Московский государственный университет имени М.В.Ломоносова].- Москва, 2014.- 141 с.

Содержание к диссертации

Введение

Глава 1. Существующие подходы к исследованию эффективности работы суперкомпьютерных приложений и суперкомпьютерных систем 10

1.1 Существующие подходы и инструменты для исследования эффективности работы параллельных приложений 18

1.2 Использование данных системного мониторинга 24

1.3 Использование данных от систем управления потоком задач 29

1.4 Выводы 32

Глава 2. Комплексный подход к анализу эффективности суперкомпьютерных приложений и систем 33

2.1 Очереди задач, разделы и счетное поле суперкомпьютеров 35

2.2 Три уровня исследования эффективности работы суперкомпьютерной системы 39

2.3 Системный мониторинг как основа реализация комплексного подхода к исследованию эффективности работы суперкомпьютерных приложений и систем 45

2.4 Выводы 49

Глава 3. Причины и признаки снижения эффективности суперкомпьютерных приложений и систем 51

3.1 Набор ключевых динамических характеристик суперкомпьютерных приложений 53

3.2 Формат описания динамических характеристик суперкомпьютерных приложений 65

3.3 Диапазон изменения динамических характеристик бсуперкомпьютерных приложений 67

3.4 Причины снижения эффективности работы суперкомпьютерных приложений и систем 72

3.5 Выявление признаков неэффективного поведения суперкомпьютерных приложений 74

3.6 Согласованный анализ причин и признаков снижения эффективности суперкомпьютерных приложений 77

3.7 Взаимосвязь динамических характеристик суперкомпьютерных приложений 85

3.8 Интегральные характеристики выполнения суперкомпьютерных приложений и использования ресурсов системы 91

3.8 Выводы 93

Глава 4. Методы комплексного анализа эффективности суперкомпьютерных приложений и систем и их апробация 94

4.1 Особенности целевых программно-аппаратных суперкомпьютерных сред 95

4.2 Методы анализа динамики выполнения отдельного суперкомпьютерного приложения 97

4.3 Примеры анализа задач из реального потока 104

4.4 Методы анализа качества использования разделов суперкомпьютеров 113

4.5 Примеры анализа соответствия приложений свойствам разделов суперкомпьютеров 115

4.6 Методы анализа использования ресурсов по системе в целом 123

4.7 Примеры анализа использования ресурсов по системе в целом 126

4.8 Выводы 132

Заключение 133

Список литературы 135

Использование данных системного мониторинга

Современные суперкомпьютерные центры обладают огромными вычислительными ресурсами, эффективное использование которых позволяет получать прорывные решения во многих областях промышленности, науки и образования. В это вносят вклад и новые разработки в архитектуре и алгоритмах, и сам рост масштабов вычислителей. Передовые вычислительные системы уже сейчас содержат десятки, сотни тысяч, а то и миллионы вычислительных ядер. Флагманская Российская система Ломоносов насчитывает около 90 000 вычислительных ядер при пиковой производительности 1,7 PFlop/s. Масштабы решаемых задач также растут по мере роста возможностей суперкомпьютеров [1]. Для одних задач рост вычислительных возможностей отражается на скорости получения результатов, для других - на его точности и т.д. Кроме того, появляются задачи, к решению которых в принципе стало возможным подступиться, достигнув определенного уровня в развитии суперкомпьютерной техники.

Проводя анализ истории развития вычислительных возможностей суперкомпьютеров, например, на основании рейтинга Топ500 самых мощных вычислительных систем в мире [2], замечено, что производительность передовых вычислительных установок увеличивается на три порядка приблизительно каждые 10 лет. На данный момент производительность самых мощных систем измеряется десятками PFlop/s (1016 операций в секунду), а число вычислительных ядер достигает трех миллионов. Большинство экспертов сходятся в том мнении, что через 5-7 лет суперкомпьютерные системы выйдут на экзафлопсный уровень производительности (1018 операций в секунду). Вокруг данной темы, которую чаще всего именуют термином «Exascale», по всему миру ведутся активные работы, вовлечены ведущие специалисты, представляющие лидирующие мировые центры [3]. Вычислительные системы будут содержать сотни миллионов ядер, но столь невероятный ресурс параллелизма при всей своей привлекательности ставит массу серьезных вопросов. Один из них состоит в обеспечении эффективного использования возможностей самих суперкомпьютеров. Для передовых, дорогостоящих систем, для систем с высокой стоимостью содержания, высоким уровнем электропотребления, этот вопрос стоит наиболее остро. Даже самая мощная вычислительная система при низкой эффективности работы может по реальной отдаче опуститься на одну ступень с существенно уступающей в своем потенциале системой. Именно поэтому очень важно уделять особое внимание эффективности использования вычислительных систем и суперкомпьютерных центров.

Успешное функционирование современного суперкомпьютерного центра обладает целым рядом важных условий и особенностей. Известно, что надежность системы определяется наиболее слабым ее звеном. По аналогии, и при организации работы суперкомпьютерного центра попытка пренебречь одной из важных его особенностей может обернуться сведением на нет любых других результатов оптимизации. Именно во всестороннем подходе к анализу эффективности работы кроется залог успеха решения задачи по обеспечению эффективной работы суперкомпьютерного центра. Рассмотрим некоторые важные особенности работы суперкомпьютерных комплексов и возможности обеспечения их эффективной работы.

С тем чтобы обеспечить формирование объективной картины, отражающей всю специфику процессов, возникающих в ходе работы вычислительной системы или комплекса систем, необходимо опираться на некоторый достоверный, надежный источник сведений о возникновении элементарных событий и о состоянии программно-аппаратной среды. Этим задачам хорошо соответствуют системы мониторинга. Несмотря на то, что работы в данном направлении ведутся давно, остаются существенные недостатки и пробелы в доступных комплексах мониторинга. Наибольшую сложность вызывает масштабирование системы мониторинга при сохранении приемлемой грануляции съема данных и числа снимаемых метрик. При этом необходимо придерживаться допустимого уровня накладных расходов, не допуская существенного влияния на сам ход выполнения программ. Существующие системы мониторинга не всегда удовлетворяют данным требованиям уже на масштабах современных вычислительных систем [4].

Таким образом, одной из первых больших актуальных задач является создание и доработка хорошо масштабируемых систем мониторинга с целью сбора полного объёма достоверной информации обо всех аспектах функционирования суперкомпьютерного комплекса.

Помимо задачи непосредственно сбора данных мониторинга следует учесть, что существует ряд задач, тесно с ней сопряженных. Это задачи первичной обработки данных мониторинга, агрегации, балансировки накладных расходов, организации пересылки и сохранения данных для необходимой последующей обработки. Естественным образом вытекает необходимость организации работы с сохраненными данными, и работы с результатами первичной обработки. К некоторым аспектам этой большой задачи мы еще будем возвращаться в рамках данной работы. Следует также отметить, что важнейшим преимуществом наличия отлаженной системы мониторинга является возможность создания автоматических и автоматизированных инструментов обеспечения оперативного контроля и эффективной автономной работы систем. В основе такой системы находится подробная модель вычислителя и обширный набор правил и реакций на текущее состояние аппаратуры и окружения. Своевременное выведение сбойных узлов из счетного поля, реакция на некорректное поведение системного ПО, возникновение прочих внештатных ситуаций вплоть до пожара и несанкционированного проникновения в помещения с ограниченным доступом - все это не только способно предотвратить прямой ущерб от возникающих ситуаций, но и сократить число неудачных запусков приложений, что позволит за то же время повести большее число полезных расчетов, повышая эффективность использования доступных ресурсов. Большая часть известных решений таких задач, с одной стороны, обладают крайне скудным функционалом, а другой - зачастую глубоко интегрированы в коммерческие решения поставщиков суперкомпьютерных систем, что существенно ограничивает возможность их использования даже в случае возможности их модификации до приемлемого функционального уровня. Известен и пример разработки системы, учитывающей подобные недочеты ранее использовавшихся инструментов [5]. Данная разработка обещает быть перспективной и уже проходит апробацию в Суперкомпьютерном центре Московского университета.

Разработка полноценной системы обеспечения оперативного контроля и эффективной работы суперкомпьютерных комплексов открывает возможность решения и новых перспективных задач. Например, анализ взаимосвязей возникающих ошибок и цепочек распространения ошибок по иерархии вычислительного комплекса. Другим примером такой задачи является задача анализа истории аварийных и нештатных ситуаций. В результате решения таких задач появляется возможность разработки методов предсказания возникновения сбойной ситуации для превентивного принятия мер к предотвращению возникновения самой ситуации, что опять-таки скажется на повышении доступности сервисов и повышении эффективности использования ресурсов.

Три уровня исследования эффективности работы суперкомпьютерной системы

На основании рассмотренных в начале данной главы принципов организации разделов для запуска задач представляется возможным проведение комплексного анализа [47] исследования эффективности суперкомпьютерных приложений и систем по трем направлениям:

1) так как существует однозначное соответствие между задачей, разделом, в рамках которого она выполняется, и узлами, на которых выполняется задача, то характеристики, полученные с помощью системного мониторинга на данном наборе узлов во время выполнения задачи, могут быть использованы для формирования динамических характеристик выполняемого приложения в условиях данного распределения по узлам;

2) так как конкретный запуск задачи однозначно принадлежит определенному разделу, то анализ динамических и интегральных характеристик задач одного раздела, полученный на основании данных системного мониторинга, может быть использован для качественной оценки использования ресурсов задачами раздела и, как следствие, для проверки соответствия задач профильным для данного раздела ресурсам;

3) для оценки степени использования ресурсов вычислительной системы можно как исследовать усредненные динамические характеристики приложений по всем разделам, так и использовать данные системного мониторинга, снятые со всех узлов счетного поля без необходимой привязки к разделам.

Заметим, что основой для проведения анализа по каждому из указанных трех направлений могут служить одни и те же данные системного мониторинга, собранные с вычислительных узлов суперкомпьютерной установки в ходе выполнения приложений.

Таким образом, в рамках предлагаемого подхода к анализу на основании данных системного мониторинга предлагается выделить и рассматривать следующие уровни абстракции: задач, разделов и ресурсов системы в целом: 1) анализ эффективности работы суперкомпьютерных приложений; 2) исследование соответствия суперкомпьютерных приложений свойствам разделов путем анализа их интегральных характеристик; 3) исследование ресурсов системы в целом. Предлагаемые направления исследования с одной стороны полностью покрывают все масштабы задач - от одного узла до всего счетного поля. С другой стороны, все логические уровни использования системы - от одной задачи и отдельного раздела до всей системы в целом.

Рассмотрим эти три направления подробнее, пояснив причину выделения именно таких уровней абстракции. Исследование эффективности работы приложения

Основная задача любой суперкомпьютерной установки - решение пользовательских задач, за которыми стоят реальные проблемы из различных прикладных областей. Критерии удовлетворения этих потребностей могут быть разными: своевременность, скорость получения результата, достижение необходимой точности расчета, обработка больших данных и т.д. [48] Простой вычислительных ресурсов, делающий их недоступными для использования, препятствует любому из таких критериев, за исключением одного, о котором будет сказано позднее. Поэтому проблема повышения эффективности работы каждого отдельного приложения, чрезвычайно актуальна. Ее успешное решение для отдельного приложения необходимо для решения не только той реальной научной задачи, которая за ней стоит, но и на работы всей системы в целом.

Максимально быстрое выполнение задач. При исследовании эффективности отдельного приложения обычно [49] во главу ставятся минимальное время завершения работы приложения, минимизация простоев, максимизация загрузки процессора, полное использование ресурсов параллелизма. Это обусловлено естественным пониманием того, как можно достичь результата максимально быстро, используя все возможности программно-аппаратного комплекса. Такого рода критерии характерны для пользователей вычислительных систем.

Минимальная стоимость выполнения задач. Однако есть и альтернативный подход, который приобретает все большую популярность в свете роста масштабов вычислительных систем и соответствующего роста энергопотребления [50]. Потребление современных суперкомпьютеров измеряется мегаваттами. Стоимость потребляемой электроэнергии в таких масштабах очень велика и вполне сопоставима со стоимостью оборудования, составляя за весь срок службы суперкомпьютера, при грубой оценке, около его половины. Как известно, наиболее дорогими являются операции обмена данными и ввода-вывода. Таким образом, такая стратегия в общих чертах сводится к минимизации количества и суммарного объема подобного рода операций, что в большинстве случаев сводится к оптимизации расположения данных программы. Критерии минимизации энергозатрат актуальны, прежде всего, для владельцев систем. Для пользователей это становится актуально только при условии зависимости стоимости счета не просто от затраченных ресурсов, но и от потребленной ими энергии.

Детальное исследование конкретных свойств приложения. Еще один подход имеет характер специальных, узконаправленных исследований. Обычно это делается для поиска возможных путей оптимизации приложения и повышения эффективности его работы [51]. Суть его состоит в том, что проводится детальное рассмотрение определенной составляющей профиля выполнения программы, используя все доступные для этого датчики. Такой составляющей может быть, например, работа с памятью или межузловой обмен данными. Полученные таким образом динамические характеристики приложения могут быть успешно использованы для совместного анализа с данными, полученными путем инструментирования и трассировки [52]. Учитывая возможные ограничения по числу датчиков и частоты съема данных, детальные исследования зачастую проводятся за счет сокращения числа рассматриваемых динамических характеристик, носящих общий характер и не имеющих прямого отношения к рассматриваемой составляющей профиля. Такого рода исследования целесообразно проводить для отдельных задач, однотипных задач или отдельных разделов.

В рамках предлагаемого комплексного подхода представляется возможным реализация каждого из указанных подходов при условии поддержки соответствующих источников данных системой мониторинга.

снижения эффективности работы суперкомпьютерных приложений и систем

При беглом взгляде на набор ключевых динамических характеристик может показаться, что все они абсолютно независимы. Каждая характеристика, казалось бы, описывает независимую собственную составляющую профиля приложения, что, безусловно, полностью соответствует самой идее всесторонней оценки характера поведения суперкомпьютерных приложений. Тем не менее, это не совсем так. При внимательном анализе характера изменений динамических характеристик можно заметить взаимосвязанное поведение разных динамических характеристик. Это проявляется в разной мере и вытекает из исходной взаимосвязи ресурсов, характер использования которых они отражают. Дело в том, что между самими компонентами программно аппаратной платформы существуют некоторые взаимосвязи, обусловленные в большей мере ограничениями, связанными с одновременным использованием разного рода ресурсов. Мы умышленно говорим взаимосвязи, а не корреляции, так как сам характер зависимостей можно установить, что и будет сделано далее, а четких соответствий конкретных значений не установлено.

На основании проведенного анализа зависимостей ключевых динамических характеристик суперкомпьютерных приложений был выделен следующий ряд взаимосвязей.

Загрузка коммуникационной сети – Загрузка процессора Взаимосвязь между загрузкой процессора и загрузкой коммуникационной сети логически вытекает из следующего. Обмен данными между узлами по коммуникационной сети обычно требуется для обеспечения данными очередной итерации вычислений. Отсюда естественно следует, что происходит это в противофазе. Другими словами, при увеличении интенсивности обмена по коммуникационной сети загрузка процессора падает. Конечно, можно искусственно придумать примеры, в которых это не будет выглядеть очевидным, тем более, при асинхронных обменах малых объемов все будет скрыто осцилляциями, в итоге данная взаимосвязь не

Приведем фрагмент профиля реального приложения, на котором прослеживается данная закономерность (рис. 7). Загрузка транспортной сети – Загрузка процессора

Данный тип взаимосвязи следует из самой сути транспортной сети. Основное ее назначение - организация ввода/вывода (работа с сетевой файловой системой), т.е. обмен большими объемами данных с внешними устройствами. По возможности всегда стараются организовать подобную работу асинхронно со счетом. Тем не менее, это не всегда возможно, особенно при реализации первичной загрузки исходных данных на узлы, равно как и при выводе полученных результатов. При интенсивном вводе-выводе прослеживается существенное снижение использования процессора, что зачастую видно по профилям приложений, один из примеров которых приведен (рис. 8). Рис. 8. Фрагмент профиля, иллюстрирующий взаимосвязь «Загрузка транспортной сети – Загрузка процессора» Загрузка транспортной сети – Загрузка коммуникационной сети В случае доступности отдельных сетей для ввода-вывода и межузлового обмена, как это, например, реализовано в системе «Чебышев», входящей в состав Суперкомпьютерного комплекса МГУ имени М.В. Ломоносова, можно выделить взаимосвязь между загрузкой коммуникационной и транспортной сетей. В этом суперкомпьютере используется InfiniBand в качестве коммуникационной сети, реализующей межузловой обмен и Gigabit Ethernet в качестве транспортной, реализующей доступ узлов к сетевой файловой системе Panasas.

В виду синхронности использования транспортной и коммуникационной сети, на профиле приложения загрузка этих сетей обычно наблюдается в противофазе. Т.е., при большей интенсивности использования одной из них, вторая обычно задействована в меньшей мере. Приведенный фрагмент профиля, демонстрирует данную взаимосвязь (рис. 9).

В заключение рассмотрим взаимосвязь, иллюстрирующую проблему локальности вычислений. Это, безусловно, представляет большой интерес, так как проблема организации и использования высокой локальности данных и вычислений относится к числу важнейших как при разработке программного обеспечения, так и разработке современных средств и технологий программирования, а также разработке архитектур и самих вычислительных систем. Взаимосвязь между ростом числа промахов в кэш при доступе в память и снижением числа полезных вычислительных операций с плавающей точкой объясняется тем, что каждый промах обременен дополнительным временем, необходимым для обращения уже в более медленную область памяти: следующий уровень кэш-памяти или в саму память, и так далее по иерархии. В целом же, для данных ключевых характеристик свойственно соответствие интенсивности промахов в кэш, особенно верхних уровней, провалам числа операций с плавающей точкой. Это объясняется тем, что при высоком числе арифметических операций с плавающей точкой обычно естественным образом становится выше частота обращений к памяти.

Методы анализа динамики выполнения отдельного суперкомпьютерного приложения

По оси абсцисс - номер задачи в разделе, по оси ординат - скорость реальной передачи данных по коммуникационной сети. Каждая точка соответствует отдельной задаче.

По результатам наблюдений можно сделать следующие выводы: В тестовом разделе присутствовало всего три задачи, в которых в принципе присутствовал межузловой обмен. Получаем очередное подтверждение правильности того, что этот набор задач запускался именно в тестовом разделе, не «мешая» остальным задачам. Активность в разделе hddmem была относительно невысокой, что может объясняться тем, что приложения в большей мере занимались подготовкой данных и вводом-выводом. Активность в разделе hdd, по всей видимости, говорит о том, что в нем работали наиболее эффективные и отлаженные приложения, что соответствует и ранее полученным наблюдениям. Раздел regular, как и должен наиболее массовый, представлен как интенсивными, так и неактивными задачами. При этом в среднем активность превышает активность в hddmem.

Средняя активность транспортной сети

В качестве транспортной сети на рассматриваемом кластере используется Gigabit Ethernet. Посредством данной сети организуется ввод-вывод, взаимодействие с сетевой файловой системой Panasas.

На следующей диаграмме (рис. 30) по оси абсцисс отложено число задач в соответствующем разделе, а по оси ординат — средняя скорость передачи данных по транспортной сети. В результате анализа можно сделать следующие выводы: В разделе hddmem обмен с сетевой файловой системой оказался в среднем даже более интенсивным, чем в других разделах. А ведь узлы в данном разделе оснащены дисками. Есть основания предполагать, что задачи, 120 запущенные в этом разделе, на самом деле были туда направлены не из-за оснащенности дисками, а из-за наиболее высокой вооруженности оперативной памятью. Интенсивность использования транспортной сети разделами regular и hdd не высока. Задачи раздела test практически не использовали данную сеть, за исключением нескольких приложений.

Средняя скорость передачи данных по транспортной сети представителями разных разделов в ходе взаимодействия с сетевой файловой системой Средняя загрузка процессами Данный параметр отражает число процессов, готовых принять управление в данный момент времени, включая уже выполняющиеся на вычислительных ядрах процессы. Идеальное значение средней загрузки процессами должно быть равным числу вычислительных ядер на узле. В случае суперкомпьютера «Чебышев» — восьми. 121 Заключительная диаграмма (рис. 31) отражает среднее значение загрузки процессами (Load Average) в задачах соответствующих разделов. В результате анализа можно сделать следующие выводы:

Прежде всего, бросается в глаза дисбаланс в разделе test. Большая часть задач или вообще значительную часть времени простаивала, или же конкуренция процессов была излишне высокой.

Сбалансированными выглядят задачи в разделе hdd, подтверждая гипотезу о том, что именно в этой очереди работают самые отлаженные приложения, а также в разделе regular, в котором, впрочем, разброс по данному параметру достаточно большой, хотя и в целом загрузка оказывается весьма высокой.

Представители раздела hddmem — кандидаты на внимательное рассмотрение: только у одной задачи уровень загрузки высок, во всех остальных случаях есть подозрение на сильный дисбаланс загрузки, что является поводом для дальнейшего анализа обстоятельств запусков.

Методы анализа использования ресурсов по системе в целом Методы исследования характера общего использования ресурсов суперкомпьютерной системы направлены на то, чтобы дать ответ на вопросы о соответствии возможностей вычислительной системы решаемым на ней задачам и о равномерности использования ресурсов во времени (что может помочь планировать проведение выделенных расчетов).

Первый метод является естественным расширением на все счетное поле метода исследования соответствия приложений свойствам раздела суперкомпьютера, описанного в разделе 4.4. Анализ проводится по полной аналогии и направлен прежде всего на выявление нестандартно ведущих себя задач с целью их дальнейшего исследования.

Второй метод опирается на исследование усредненных данных системного мониторинга без привязки к задачам, отражая степень использования различного рода ресурсов вычислительной системы в целом. Интерес представляют средние и максимальные значения. Первые направлены на исследование средней загрузки, а последние - на нахождение случаев ограничения приложений возможностями вычислительной системы: пропускной способностью каналов, производительностью процессоров и т.п.

Данный метод опирается исключительно на данные системного мониторинга без привязки к конкретным приложениям. Рассмотрим последовательность шагов в рамках метода. 1. Обеспечение выполнения общих допущений и реализация подготовительных работ, описанных в разделе 4.1. 2. Уточнение специфики исследования структуры потока задач. 2.3. Помимо набора ключевых динамических характеристик в рассмотрение целесообразно добавлять те динамические характеристики, которые отражают степень использования различного вида ресурсов суперкомпьютерной системы. Из рассматриваемого набора характеристик может быть удалена характеристика числа промахов при доступе к памяти, так как является существенной для оценки эффективности отдельного приложения и характера работы с памятью. Исследование же ее среднего значения по всему счетному полю не представляет практической пользы.

Допускается существенно более грубая грануляция, чем при исследовании профиля отдельной задачи и даже исследовании интегральных характеристик отдельных задач. Тем не менее, в любом случае следует следить, чтобы порог накладных расходов находился ниже 1% от пользовательской загрузки центрального процессора. 3. Организация выборки данных системного мониторинга в апостериорном режиме по рассматриваемому временному диапазону. 4. Строятся усредненные характеристики, соответствующие динамическим характеристикам с отдельных узлов всей системы или по всем разделам счетного поля. 5. Проводится анализ степени и равномерности использования ресурсов. Средний уровень использования вещественной арифметики обычно составляет 3%-5% от теоретически достижимой. Средний уровень пользовательской загрузки процессора обычно составляет порядка 50% от пика. Превышение этого порога говорит о хорошей загрузке системы с точки времени минимальности простоя процессоров. По усредненным максимальным значениям динамических характеристик можно отследить моменты, когда работа приложения была ограничена возможностями ресурсов. Ситуация, при которой средние характеристики вплотную приближаются к физическим ограничениям, возможны на практике только при выполнении задач, использующих систему в монопольном режиме. При наблюдении такой ситуации можно делать вывод о существовании ограничений со стороны возможностей ресурсов для решения решаемых задач.

Часто говорится только об объеме данных, принятых по коммуникационной сети, и не говорится о данных, переданных по той же сети. Это связано с тем, что эти величины с хорошей точностью (не более 0,5%) совпадают на всем интервале наблюдения. При нормальной работе объем данных, переданных одним узлом, совпадает с объемом данных, принятых каким-то другим узлом. Так как мы ведем наблюдение сразу за всеми вычислительными узлами суперкомпьютера, а по коммуникационной сети связаны между собой только они, то полученной совпадение говорит о правильности работы вычислительного комплекса. Следует, однако, отметить, что это касается вычислительной сети, а для сетевого ввода/вывода соотношение принятых и переданных данных может быть любым.

При равномерно высокой загрузке таких ресурсов как коммуникационная и транспортная сеть, работа с дисками можно делать вывод о востребованности соответствующего ресурса и возможной целесообразности расширения возможностей использования данного ресурса - увеличение пропускной способности сетевого канала и т.п.

Похожие диссертации на Комплексный подход к исследованию причин и признаков снижения эффективности суперкомпьютерных приложений и систем на основе данных системного мониторинга