Содержание к диссертации
Введение
ГЛАВА 1. Обзор методов обработіси производственных данных для управления качеством в металлургии 12
1.1. Концепции управления качеством продукции 12
1.2. Статистические методы в современном менеджменте качества 14
1.3. Анализ особенностей управления качеством продукции, металлургического производства 17
1.3.1. Существующие подходы к контролю процессов 19
1.3.2. Недостатки контроля технологических процессов-металлургического производства 25
1.3.3. Теоретические основы для разработки современных-методов контроля 27
1.3.4. Специфические особенности синтеза моделей ДГ№ управления качеством» продукции, металлургического производства 32
1.3.4.1. Восстановление пропущенных значений в массиве технологической информации 36
1.3.4.2. Выявление взаимосвязей между технологическими? факторами и показателями качества продукции 40
1.3.4.3. Классификация металлургических технологий и продукции по диапазонам значений характеристик.. 44
1.4. Выводы и постановка задачи исследования 47
ГЛАВА 2. Разработка инструментов автоматизированного текущего контроля, инвариантных к видам распределений переменных процессов 49
2.1. Разработка формализованного метода автоматизированного текущего контроля<на основе непараметрических критериев 51
2.2. Разработка формализованного метода автоматизированного текущего контроля на основе бутстреп-метода процентных точек.. 57
2.3. Разработка инструментов автоматизированного текущего контроля многомерных технологий и качества 60
2.3.1. Алгоритм выявления групп взаимосвязанных переменных с помощью коэффициента конкордации 60
2.3.2. Оценка сложности алгоритма 65
2.3.3. Формализованный?метод текущего контроля по векторной переменной 68
2.4. Исследование эффективности разработанных инструментов применительно-к-металлургическому производству 70
2.4.1. Результаты реализации контроля по единичным показателям качества процесса выплавки стали 70
2.4.2. Выявление групп взаимосвязанных технологических факторов процесса производства листового проката 79
2.4.3. Результаты реализации контроля металлургической технологии по векторной переменной 83
2.5. Выводы 86
Глава 3. Разработка инвариантных к отклонениям от нормальности инструментов анализа взаимосвязей в металлургическом производстве 89
3.1. Схема комплексного анализа взаимосвязей между переменными металлургического производства 89
3.2. Разработка частотного коэффициента для анализа парных взаимосвязей 90
3.3. Исследование устойчивости парных коэффициентов к наличию загрязнений в данных 97
3.3.1. Влияние шума и выбросов на тесноту связей при моделировании зависимостей 97
3.3.2. Исследование влиянияешума и выбросов на тесноту связей. между переменными процесса выплавки стали 103
3.3.3. Примеры реализации автоматизированного комплексного анализа связей между переменными процесса выплавки стали 106
3.4. Выводы 109
ГЛАВА 4. Идентификация статистических моделей металлургической технологии по данным с пропусками 112
4.1. Разработка схемы анализа эффективности применения стратегии «ожидание-максимизация» для идентификации моделей по данным с пропусками 112
4.2. Результаты идентификации моделей на основе предложенной схемы по данным металлургического производства И 5
4.3. Выводы 123
ГЛАВА 5. Разработка инструментов кластеризации технологий и продукции металлургического производства 125
5.1. Разработка методики кластеризации по диапазонам полей допусков на характеристику 125
5.2. Разработка методики кластеризации по распределениям характеристики 132
5.3. Разработка методики кластеризации, инвариантной к виду распределения характеристики 133
5.4. Разработка алгоритма кластеризации технологий и продукции металлургического производства 136
5.5. Проверка эффективности алгоритма на примере кластеризации марок стали 139
5.6. Выводы 142
Заключение 144
Библиографический список 146
Приложения
- Концепции управления качеством продукции
- Разработка формализованного метода автоматизированного текущего контроля<на основе непараметрических критериев
- Схема комплексного анализа взаимосвязей между переменными металлургического производства
- Разработка схемы анализа эффективности применения стратегии «ожидание-максимизация» для идентификации моделей по данным с пропусками
Введение к работе
Актуальность. Стабильность качества продукции на высоком уровне служит гарантией спроса на продукцию. Важной составляющей современных систем менеджмента качества, рекомендуемых к внедрению и поддержанию на предприятиях международными стандартами ИСО серии 9000, являются статистические методы. Они ориентированы на обработку фактических данных о деятельности предприятия, необходимость которой определяется концепциями всеобщего менеджмента качества, лежащими в основе стандартов ИСО серии 9000. Особенно актуально использование статистических методов в управлении качеством для многоэтапных процессов металлургического производства, технологические факторы и показатели качества продукции которого содержат существенную случайную составляющую, задаются диапазонами разрешенных значений и в их пределах рассматриваются как случайные величины.
Значения факторов и показателей качества, накапливаемые в массивах технологических измерений в ходе функционирования технологических процессов металлургического производства, часто не подчиняются нормальному закону распределения, массивы могут содержать пропуски и наблюдения, резко выделяющиеся на фоне остальных. Существующие статистические инструменты управления качеством не ориентированы на обработку таких данных. Сфера их применения, как правило, ограничена нормально распределенными случайными величинами. Использование распространенных статистических инструментов текущего контроля для диагностики состояния технологических процессов металлургического производства может приводить к пропускам моментов их возможной разладки. Традиционные статистические методы не позволяют исследовать взаимосвязи и осуществлять текущий контроль металлургических технологий и качества инвариантно к видам распределений технологических факторов и показателей качества продукции, эффективно восстанавливать пропущенные данные в массивах технологических измерений, выполнять кластеризацию технологий и продукции по диапазонам разрешенных значений
(полей допусков) или распределениям характеристик, а не точечным значениям.
Для устранения перечисленных проблем целесообразна разработка процедур, расширяющих традиционные методы обработки данных в автоматизированных системах управления качеством металлургической продукции и позволяющих осуществлять контроль процессов, инвариантный к видам распределений технологических переменных. Разработка таких подходов может опираться на непараметрические и специальные методы проверки гипотез и оценки тесноты связей между технологическими переменными, итеративные вычислительные стратегии заполнения пропущенных значений в массивах технологической информации, бутстреп-методы. построения доверительных интервалов. Их применение позволит корректно выявлять причины неслучайной вариабельности технологических процессов и повысить эффективность использования фактической технологической информации в соответствии с современными концепциями- всеобщего менеджмента качества. Следовательно, разработка методов, расширяющих возможности статистического контроля и- управления качеством металлургической продукции, является актуальной задачей.
Целью работы*является разработка и исследование комплекса методов-и автоматизированных процедур, инвариантных к видам распределений контролируемых переменных и обеспечивающих эффективное решение задач контроля технологических процессов и управления качеством продукции металлургического производства.
Основные задачи. Для достижения цели поставлены и решены следующие задачи исследования:
Разработка и исследование инструментов автоматизированного контроля технологических процессов металлургического производства, инвариантных к видам распределений контролируемых технологических переменных.
Разработка и исследование схемы и процедур анализа взаимосвязей между технологическими переменными процессов металлургического производства, инвариантных к отклонениям от нормальности в распределениях переменных.
Исследование эффективности применения итеративной стратегии «ожидание-максимизация» (М-алгоритма) для идентификации статистических моделей технологических процессов металлургического производства по массивам технологических измерений, содержащим пропущенные значения.
Разработка методик, алгоритма и автоматизированных процедур кластеризации для выделения групп однородных технологий и продукции металлургического производства по диапазонам полей допусков и распределениям характеристик.
Методы исследования. В работе использованы методы теории вероятностей, многомерного статистического анализа, непараметрической статистики, теории проверки статистических гипотез, статистического контроля качества, системного анализа, анализа эффективности алгоритмов, объектно-ориентированного проектирования и программирования.
Обоснованность и достоверность. Обоснованность полученных выводов подтверждается использованием рекомендаций современных международных стандартов ИСО серии 9000, опорой- на методы непараметрической статистики, теории вероятности и проверки статистических гипотез, статистического контроля качества. Обоснованность разработанных алгоритмов обработки многомерных технологий и качества определяется тем, что они опираются на развитые и дополненные в работе современные методы многомерного статистического анализа, использованием анализа эффективности алгоритмов.
Достоверность результатов диссертационного исследования подтверждается корректным использованием современных методов теории вероятностей и математической статистики, обработки экспериментальных данных, программирования, сравнением результатов практической реализации разработанных методов и алгоритмов с экспериментальной информацией, проведенными исследованиями возможности и эффективности их применения для обработки фактических данных металлургического производства, сопоставимостью с результатами, полученными с помощью существующих подходов, использованием математического, алгоритмического и программного обеспечения в научных исследованиях и на практике.
Научная новизна. В работе получены и выносятся на защиту следующие результаты, характеризующиеся научной новизной:
Формализованные методы построения карт контроля процессов с помощью непараметрических критериев проверки гипотез об однородности двух выборок и бутстреп-метода процентных точек, отличающиеся инвариантностью к изменениям вида распределения контролируемой переменной, позволяющие обоснованно осуществлять автоматизированный текущий статистический контроль металлургического производства.
Алгоритм выделения групп взаимосвязанных технологических переменных на основе непараметрического коэффициента конкордации, отличающийся полиномиальной сложностью по времени, инвариантностью к видам распределений переменных, позволяющий выявлять группы тесно связанных друг с другом переменных для контроля многомерных технологий и качества продукции металлургического производства.
Схема комплексного анализа взаимосвязей между технологическими факторами и показателями качества продукции металлургического производства, отличающаяся инвариантностью к отклонениям от нормальности в технологических данных.
Коэффициент, позволяющий оценивать степень тесноты связи между двумя технологическими переменными на основе среднего значения величины условной частоты, отличающийся устойчивостью к шуму и резко выделяющимся наблюдениям в выборках переменных.
5. Схема анализа эффективности применения стратегии «ожидание-
максимизация» (М-алгоритма) для построения статистических линейных мо
делей технологических процессов металлургического производства по масси
вам измерений с пропущенными значениями, отличающаяся использованием
непараметрических критериев для проверки качества прогноза по моделям.
6. Методики и алгоритм кластеризации, позволяющие выделять группы
однородных металлургических технологий и продукции, отличающиеся тем,
что анализируемые с их помощью технологические факторы и показатели каче-
ства продукции являются случайными величинами, задаваемыми с помощью диапазонов полей допусков или распределений.
Практическая значимость. Разработанные инструменты автоматизированного текущего контроля процессов и обработки данных позволяют обрабатывать значения технологических переменных, гипотеза о нормальности распределений которых не подтверждается, корректно учитывать многомерность технологий и качества в. условиях невыполнения гипотезы о нормальности. Эксперименты на данных металлургического производства показали, что разработанные контрольные карты позволяют более точно регистрировать моменты возможной разладки процессов, чем контрольные карты Шухарта и их аналог для многомерного случая.
Преимущества практического использования стратегии «ожидание-максимизация», разработанных инструментов кластеризации, схемы комплексного анализа взаимосвязей состоят в том, что они позволяют осуществлять структуризацию металлургических технологий и продукции, выявлять дополнительные связи между технологическими переменными процессов металлургического производства и получать уточненные, устойчивые к наличию пропусков в исходных данных статистические модели, адекватно отражающие зависимости между факторами и показателями качества продукции металлургического производства. Исследования разработанных методов и алгоритмов на примерах анализа фактической технологической информации о металлургическом производстве показали корректность получаемых с их помощью результатов. Разработанное математическое, алгоритмическое и программное обеспечение может использоваться на предприятиях металлургического и других видов производств в системах поддержки управления качеством.
Реализация результатов, работы. Разработанные методы реализованы в виде двух программ, зарегистрированных в Отраслевом фонде алгоритмов и программ Федерального агентства по образованию (свидетельство об отраслевой регистрации разработки «Расширенный статистический анализ данных» №10656 от 15.05.2008, свидетельство об отраслевой регистрации разработки «Кластеризация
объектов по выборочным распределениям признаков» №10657 от 15.05.2008), на которые имеются официально зарегистрированные информационные карты. Результаты работы внедрены и используются: в труболитейном цехе и центральной заводской лаборатории ОАО "Липецкий металлургический завод «Свободный сокол»" для решения задач диагностики состояния технологических процессов производства напорных труб из высокопрочного чугуна с шаровидным графитом и кластеризации марок чугуна и видов трубной продукции, в 000! «Петроком-Липецк» для автоматизации обработки информации о качестве эмали для рулонного листового проката. Результаты работы используются в учебном процессе ЛГТУ при изучении студентами направления 230100.62 «Информатика и вычислительная-техника», специальностей 230102.65 «Автоматизированные системы обработки информации и управления», 010503.65 «Математическое обеспечение и администрирование информационных систем» дисциплин «Структуры и алгоритмы компьютерной обработки данных», «Математическая обработка эксперимента», «Моделирование систем».
Апробация результатов исследования. Основные теоретические и практические результаты исследований были представлены: на международных конференциях «Современные проблемы информатизации в технике и технологиях» (Воронеж, 2001), «Современные проблемы информатизации в экономике w обеспечении безопасности» (Воронеж, 2009), «Современные сложные системы управления СССУ/HTCS» (Воронеж, 2003; Тверь, 2008), «Сложные системы управления и менеджмент качества CCSQM'2007» (Старый Оскол, 2007); на «Молодежной научно-технической конференции технических вузов центральной России» (Брянск, 2000); на Всероссийской конференции «Новые технологии в научных исследованиях, проектировании, управлении, производстве» (Воронеж, 2008); на Российской конференции с международным участием «Технические и программные средства систем управления, контроля и измерения УКИ'08» (Москва, 2008).
Публикации. По. теме диссертационного исследования опубликовано 14 работ, в том числе три статьи в журналах из перечня? периодических журналов, рекомендованных ВАК для публикации основных результатов диссертации. В
работах, опубликованных в соавторстве, автором осуществлены применение и анализ эффективности М-алгоритма для идентификации моделей технологических процессов металлургического производства по данным с пропусками [48, 52]; разработан непараметрический алгоритм выявления групп взаимосвязанных технологических переменных, показаны его преимущества на примере анализа данных процесса выплавки стали [57]; разработаны подходы к по-строению карт контроля процессов по единичной и векторной технологическим переменным на основе непараметрических ранговых критериев Вилкоксона-Манна-Уитни и Ансари-Брэдли, бутстреп-метода процентных точек, проведен анализ их эффективности на примерах обработки фактических данных металлургического производства [58, 61, 70]; разработаны методики, алгоритм и автоматизированные процедуры кластеризации объектов по диапазонам» и распределениям характеристик [34, 53, 56]; разработаны и исследованы коэффициент для оценки тесноты парной связи на основе условной' частоты. [47, 51] и комплексный подходе анализу взаимосвязей между переменными технологических процессов металлургического производства [54].
Структура и объем диссертации. Диссертация состоит из введения, пяти глав, заключения, библиографического списка, включающего 133 наименования, шести приложений. Каждая из глав, за исключением первой, соответствует решению одной из поставленных задач: в начале главы описаны разработанные методы и (или) алгоритмы решения задачи, затем — примеры их реализации и анализ эффективности. Основная часть работы изложена на 127 страницах текста, работа содержит 37 рисунков и 25 таблиц.
Концепции управления качеством продукции
Система контроля качества продукции, научное обоснование которой дал Ф.Тейлор, предполагала контроль единиц выпускаемых предприятием изделий. В 20-х гг. XX века были разработаны карты контроля и-методы статистического . выборочного контроля, и в основу контроля легли; статистические методы [132]. Авторы [123] выделяли пять ключевых аспектов эффективности статистического контроля качества: - переход от управления качеством отдельных единиц; продукции; к управлению их совокупностями; - возможность, оптимального сборам накопления; представления; и обработки информации о деятельности предприятия; - переход от сплошного к выборочному контролю, позволяющий экономить затраты на контроль; —. возможность получения объективных данных о качестве продукции и услуг на основании статистических понятий, необходимых для регулирования правовых отношений между изготовителями и потребителями; - обеспечение потребителя гарантиями по уровням качества продукции и услуг.
В перечисленных аспектах акцент был смещен в сторону контроля выпускаемой продукции, т.е. выборочного или приемочного контроля. Выборочный контроль предполагал осуществление входного, пооперационного и окончательного контроля. Он предназначался; для; проверки соблюдений заданных требований к качеству готовых изделий и не был связан непосредственно с процессом- производства. Выборочный контроль.позволял.осуществлять отбраковку некачественной продукции, но с его помощью нельзя было управлять процессом производства. В 1924 г. У. Шухартом было предложено определять специальные причины вариаций процессов с помощью карт статистического управления (текущего контроля процессов) процессами [11]. Специальные причины вариаций процессов трактовались как внешние по отношению к процессу, требующие локального вмешательства в процесс. Карты текущего контроля предполагали осуществление мониторинга процесса и позволяли выявлять причины появления брака и корректировать технологию производства с целью предотвращения брака. В результате были заложены основы концепции статистического управления процессами (SPC). Ее базовыми идеями являются статистическое мышление и управление качеством продукции посредством управления технологическим процессом ее производства. Идеи SPC поначалу не получили распространение, и до 50-х гг. XX века на практике широко использовался выборочный контроль [1, 132].
В 50-х гг. ХХ-го века в Японии появилась и получила широкое распространение концепция всеобщего (тотального) контроля качества (TQC), известная также как концепция всеобщего статистического контроля качества (TSQG). В середине 50-х гг., в период расцвета массового производства, производители осознали невозможность улучшения качества с помощью контроля готовой, продукции, и произошел возврат к идее совершенствования производственного процесса и концепции SPC. Кульминацией развития концепции SPC стал цикл Шухарта-Деминга (PDCA): «Планируй - Делай - Проверяй - Воздействуй», предполагающий непрерывное совершенствование всех процессов, связанных с производством продукции, и использование статистических инструментов управления процессами и продукцией [1, 122].
В 70-80-х гг. XX века концепция TQC, распространившаяся, помимо Японии, на другие развитые страны, получила название TQM - всеобщий менеджмент или всеобщее управление качеством. В это же время появились международные стандарты серии ИСО 9000 (1987 г.), вобравшие в себя идеи концепции TQM. Система TQM — комплексная система, нацеленная на удовлетворение реальных и потенциальных потребностей потребителей. В ее основе ле жат идеи постоянного улучшения качества и всестороннего учета технического, административного и человеческого факторов на предприятии, влияющих на качество продукции. С начала 90-х гг. XX века широкое распространение по всему миру получила практика внедрения на предприятиях систем менеджмента качества, сертифицированных в соответствии с международными стандартами ИСО серии 9000 [83].
Статистические методы являются необходимым элементом систем менеджмента качества,, рекомендуемых к внедрению международными стандартами ИСОсерии 9000 [83, 100, 126]. Стандарты ИСО 9000 актуализируют задачу обнаружения- разброса на разных стадиях жизненного цикла продукции. Статистические методы позволяют выявлять причины разброса и -помогают решать проблемы, их обусловившие, - следовательно, их использование способствует постоянному улучшению качества продукции. С помощью статистических методов возможны измерение, описание, анализ, интерпретация и моделирование разброса в характеристиках процессов и продукции по массивам данных, содержащим информацию о функционировании предприятия [83].
Статистические методы позволяют улучшить использование данных, на основании которых принимаются решения. В соответствии со стандартами [83], "решения, основанные на фактах, требуют результативных и эффективных действий", одним из которых является "применение соответствующих статистических методов". Реализация данного принципа влечет за собой применение статистических методов на всех этапах жизненного цикла продукции [100].
Разработка формализованного метода автоматизированного текущего контроля<на основе непараметрических критериев
Если технологические переменные, по которым осуществляется мониторинг состояния процесса, являются независимыми, целесообразно строить простые карты контроля процесса по каждой из них. Достаточную информацию о состоянии позволяют получить среднее значение и рассеяние контролируемой переменной. Для фиксации отклонений средних значений от номинального на карте контроля в случае, когда технологическая переменная имеет произвольную непрерывную функцию распределения, можно воспользоваться непараметрическим tZ-критерием (п. 1.3.3, [61]). Величина статистики /-критерия имеет известную функцию распределения, по которой могут быть построены границы области управляемости процесса на контрольной карте. Рассмотрим формальное описание технологии построения карты контроля с помощью U-критерия (tZ-карты).
Пусть имеется базовая выборка Q, объема п, числовых значений контролируемой переменной из совокупности, полученной предварительно, в результате длительного функционирования контролируемого технологического процесса. Из информации о поступающих в некоторые моменты времени tbt2,... партиях продукции извлекаются мгновенные выборки Q\, Qi-, -.., равных объемов т, значений контролируемой переменной. Числовые значения q\, q2, ..., qn, составляющие базовую выборку, одинаково распределены, имеют непрерывную функцию распределения F(q). Числовые значения qr\ = qn+\+A, qr2 = qn+2+A, ..., qrm=q„+m+A, составляющие r-ю мгновенную выборку, г— 1,2, ..., одинаково распределены, причем величины qn+i, qn+2, ..., qn+m имеют ту же непрерывную функцию распределения F(q), что и значения базовой выборки, А - сдвиг в положении мгновенной выборки относительно базовой. Все значения базовой и г-й мгновенной выборок, г = 1, 2, ..., взаимно независимы.
Если величина, вычисляемая по формуле (2.1), близка к своему математическому ожиданию, отклонение от номинального уровня процесса, регистрируемое по текущей мгновенной выборке, допустимо: При этом нулевая гипотеза о равенстве центров распределений базовой и текущей мгновенной выборок не отклоняется с известной малой вероятностью ее ошибочного отклонения или уровнем значимости а (здесь и далее), и процесс считается подконтрольным. Это соответствует идее регулирования процесса по.заданному уровню. Так как в общем случае совпадение рангов может иметь место, границы для контрольной карты статистики (7-критерия являются переменными: В соответствии с правилом построения двусторонней критической области (1.2), выражением для дисперсии (1.4), контрольные границы области управляемости технологического процесса определяются по формулам: нижняя, Квг— верхняя границы контрольной карты (/-критерия для r-й мгновенной-выборки, сравниваемой с базовой. Для односторонней критической области существует одна контрольная граница, которая рассчитывается по одной из формул (2.2) с учетом (1.3) и заменой Ui_a/2 на щ_а.
В соответствии с вышеприведенным описанием автоматизированное построение контрольной карты (7-критерия предполагает: задание ти а, создание графика и нанесение на него средней линии; выбор в каждый момент времени tr (г = 1; 2, ...) мгновенной выборки Qr из информации о партии произведенной продукции; вычисление по формулам (2.1) и (2.2) значений статистики [/-критерия и контрольных границ и нанесение их на график. Полученную карту с переменными контрольными границами можно использовать для контроля и диагностики состояния процесса. Регулирование подразумевает нанесение контрольных границ заранее. Для случая «шестисигмовых» контрольных границ вероятность ошибки а имеет значение 0;27%, а нижняя и верхняя контрольные границы равны, соответственно —3 и +3. Автоматизированное ведение непараметрической контрольной карты в данном случае будет заключаться в расчете значения статистики U по формуле (2.3) в каждый момент времени tr и визуализации результатов проверки его попадания в заданный диапазон.
Аналогичный, но параметрический критерий используется при ведении карт средних значений Шухарта (карт регулирования), играющих доминирующую роль в анализе изменчивости процессов. Так как [/-критерий можно применять к выборкам из любых непрерывных распределений, представляет интерес исследование возможности замены карт средних значений Шухарта контрольными картами [/-критерия в случаях, когда распределение переменной неизвестно или не является нормальным. Для решения вопроса целесообразности замены критерия проверки гипотезы о среднем (х-критерия) [/-критерием представляет интерес построение с их помощью карт контроля реальных переменных технологического процесса и сравнение их с картами средних значений (х-картами).
При сравнении контрольных карт средних значений и tZ-критерия предпочтение следует отдать., критерию, с помощью которого нулевая гипотеза отклоняется наиболее часто. В контексте регулирования технологического процесса с помощью контрольных карт такойвыбор означает ужесточение контроля и, следовательно, увеличение затрат, ношозволяет снизить процент получения- брака, т.е. соответствует идее совершенствования качества продукции. Сравнение контрольных карт может сопровождатьсяі вычислением значения функции мощности каждого критерия для аргумента, равного значению соответствующей статистики, полученной по некоторой мгновенной и базовой выборкам. Пусть, например, с помощью формул (2.3), (2.4) для базовой и г-и мгновенной выборок получены величины статистик рассматриваемых критериев: Ur, xr , а критическая область w задана с помощью вероятности ошибки а. С учетом того, что статистика tZ-критерия имеет приближенное нормальное распределение, значения функций мощности для заданного аргумента z по обоим критериям совпадают и вычисляются по формуле: М(п,г ) = 1-[Ф(Кв-2 )-Ф(Кн-г )], (2.5) где Кв - верхняя, Кн - нижняя (1-ос/2)-процентные точки стандартного нор & ;к & эе / \ / \ мального распределения. Если zj =Ur z2 xr , очевидно, M\w,z{ ) M\w,z2 J, т.е. tZ-критерий при выполнении неравенства более чувствителен к обнаруже нию возможной разладки, чем х -критерий. Таким образом, информация о значениях функций мощности критериев является дополнительной иллюстрацией получаемых результатов. Если значения Ur и хг таковы, что нулевая гипотеза в обоих случаях отклоняется с вероятностью ошибки а, вычисленные по формуле (2.5) значения M\w,UrJ и M\\v,xr J соответствуют мощностям U- и х-критериев для альтернатив: A = U r — по [/-критерию, ц. = х г — по х -критерию, где А, ц. — истинные значения статистик рассматриваемых критериев.
Важной характеристикой контролируемой переменной является рассеяние. Ведение двойных карт контроля, например карты среднего/рассеяния, предпочтительно с точки зрения получения более достоверной информации о подконтрольном процессе. Так как контрольные границы обычной карты рассеяния вычисляются в предположении асимптотической нормальности дисперсии и являются непараметрическими, возможно их непосредственное использование с предложенными картами [/-критерия. Помимо этого контрольные карты рассеяния можно вести на основании критериев Ансари-Брэдли [58] или [/-критерия для дисперсии (см. п. 1.3.3). Для построения карты контроля рассеяния с помощью критерия Ансари-Брэдли или [/-критерия можно вычислять по формуле (1.5) или (1.7) величины соответствующих статистик критериев (см. п. 1.3.3) по базовой и мгновенной выборкам. Чем меньше величина статистики Ансари-Брэдли, тем больше дисперсия мгновенной выборки, сумма рангов которой вычисляется, так как тем дальше от середины полученной ранжировки находятся ее значения и, в связи с этим, имеют меньшие ранги.
Схема комплексного анализа взаимосвязей между переменными металлургического производства
Статистические данные о функционировании технологических процессов металлургического производства часто имеют непредсказуемые выборочные функции распределения, которые не соответствуют принятым шаблонам. Подгонка распределений, необходимая для использования стандартной схемы параметрического анализа взаимосвязей с помощью коэффициента корреляции, не всегда осуществима и может приводить к потерям частей полезной информации. Применение параметрического анализа в случае произвольных распределений переменных не всегда позволяет выявлять подмножества технологических факторов/по которым может быть получена адекватная, модель. В контексте построения оптимальных моделей зависимости показателей качества продукции металлургического производства от технологических факторов актуально расширение параметрического подхода. Для этого может быть использована схема комплексного анализа с помощью множества коэффициентов (рис. 9), предназначенных для оценки степени тесноты парных связей. Цели использования схемы состоят в повышении эффективности принимаемых решений по данным с загрязнениями и получении многоаспектной информации о взаимосвязях, позволяющей корректно выбирать подмножества технологических факторов, существенно влияющих на качество металлургической продукции [54]. Помимо набора известных коэффициентов схема включает оригинальный частотный коэффициент, разработанный и исследованный в,работе с целью, эффективного обнаружения взаимозависимостей при наличии в массивах технологических измерений шума и выбросов (наблюдений, резко выделяющихся на фоне остальных).
Иерархия парных коэффициентов оценки тесноты связи: 1 является частным случаем; ----а- измеряется посредством; О является частью. В прямоугольниках: с закругленными краями (і і) даны обобщающие определения; обычных ( I I ) — названия коэффициентов, применяемых для анализа технологических взаимосвязей; со сдвоенной линией ( II II ) — коэффициентов, не применяемых с этой целью; со сдвоенной пунктирной линией ( jrrrj!) — разработанный частотный коэффициент к
При наличии связи между фактором 9 и- откликом а можно говорить о том, для /-ой группы случайной величины 9 найдется такая у-ая группа случайной величины а, большая часть значений из которой «находится в паре» со зна значениями случайной величины 0 из /-ой-группы. Если связь.несущественна, то значения выходного свойства ст, "состоящие в паре" со значениями 0 из некоторой!- і-ой группы, "размыты" по всему диапазону изменения величины а. По диаграмме рассеяния с линиями сетки, которая делит исходные данные на группы (рис. 10), можно говорить о том, что зависимость между 0 и а в пределах какой-либо клетки, образованной линиями сетки, тем сильнее, чем больше соответствующая совместная частота. Сама по себе совместная.частота не несет информации о степени зависимости. В то же время известно, что тесноту связи можно оценивать с помощью условной-частоты (см. п. 1.3.4.2), получаемой делением совместной частоты на одну из соответствующих частных. Возникает идея нахождения среднего значения некоторым образом выбранных условных частот, которое будет характеризовать в целом степень взаимовлияния величины 0 на величину а [47, 51].
Чем ближе величина «Ст(/е к единице, тем ближе значение соответствующей совместной частоты к частной частоте у-го столбца и тем теснее связь между рассматриваемыми случайными величинами в пределах данной ячейки.
Наибольшее количество наблюдений в некоторой ячейке определенного столбца соответствует максимальной совместной- частоте этого столбца1 (см. рис. 10). Поэтому имеет смысл усреднение условных частот, соответствующих максимальным совместным частотам, выбранным из каждого столбца матрицы совместных частот. В обозначениях табл. 7 такое среднее (далее обозначенное как к ) запишется в виде где nmj- максимальная частота ву -м столбце матрицы совместных частот. Статистика к показывает усреднённую степень влияния фактора 0 на отклик ст. Если все условные частоты, находящиеся под знаком суммы правой части (3.2), близки к единице, между переменными наблюдается тесная связь. Так как меры связи изменяются в пределах от нуля до единицы (или ее абсолютного значения), необходимо уточнить граничные значения статистики к - при наличии полной связи и ее отсутствии. В случае полной связи в каждом столбце матрицы совместных частот есть только «одна ненулевая-совместная частота, для любого/ условная частота под знаком суммы в (3.2) равна единице, ик = 1. Если переменные независимы, любые два столбца матрицы совместных частот яв ляются пропорциональными, так как справедливо - равенство пу па, пв- п. Все максимальные совместные частоты находятся в одной строке и по отклику а. Однако минимальное значение рассматриваемого коэффициента к достигается, когда все элементы каждого столбца матрицы совместных частот имеют одинаковые ненулевые значения или все ее элементы равны друг другу. При этом каждая условная частота является минимально возможной, частот, с 0, nmj- — максимальная частота в /-м столбце матрицы совместных частот, j = V, 2, .., kQ. В указанных случаях w0m fn = \lka, в остальных -n0m Iп \1 ка. Таким образом, в других случаях, когда совместные частоты столбцов имеют неодинаковые значения, соответствующие условные частоты превышают минимально возможные. Учет поправки 1 / кс приводит к результирующему коэффициенту к, значения которого изменяются в пределах от нуля до единицы.
Назовем статистику к парным частотным коэффициентом. Он позволяет оценивать тесноту связей любого вида, в том числе нелинейных. Для количественных данных статистика к позволяет rpy6oj оценивать степень влияния фактора 0 на отклик СУ, так как ее величина будет зависеть от способа группировки исходных непрерывных данных. Дискретный вариационный ряд является ре зультатом единственного способа группировки, поэтому коэффициент к может использоваться для него как одна из мер связи, используемых при анализе таблиц частот. Коэффициент к оказался модификацией меры Гутмана, упомянутой в п. 1.3.4.2 и полученной из иных соображений.
Разработка схемы анализа эффективности применения стратегии «ожидание-максимизация» для идентификации моделей по данным с пропусками
Стратегия «ожидание-максимизация» (М-алгоритм), предназначенная для восстановления данных, допускает непосредственную идентификацию на ее основе моделей зависимости показателей качества металлургической продукции от факторов технологии по массивам технологических измерений, содержащим пропущенные значения. Пусть имеется Аг-мерная переменная х = (xi, х2, ..., хк), причем х = (iu t2, ...,tr) и О,, s2, ... sk-r), где t, = (th, ...; tm)T - і-й фактор технологии, і = 1, ..., г, SJ = (S\J, ..., snj)T, — j-ьш показатель качества продукции, j = 1, ..., к-r, полученные в результате пассивного5 эксперимента ш содержащие пропуски, п — количество наблюдений. Пусть она характеризуется параметрами 9 = (\i, ), где JJ, = (д.ь \i2, ..., ц )т - вектор средних, = (a,/), /,/=1, 2, ...к, - ковариационная матрица. С учетом описания, приведенного в п. 1.3.4.1, построение модели регрессии на основе итеративной М-стратегии предполагает: 1. Вычисление начальных значений параметра 0, 0(О) = (л(0), (0)). Если количество комплектных наблюдений хотя бы на единицу превосходит количество технологических переменных, ц(0) и (0) можно рассчитывать только по полным данным. В противном случае выборочные среднее и ковариационная матрица вычисляются на основе данных, пропущенные значения в которых заполнены с помощью одного из простых методов, например, метода, предполагающего вычисление безусловных средних.
Для множества (t\, /2 —,tr) факторов металлургической технологии и выбранного показателя качества s проведение дополнительной свертки приращенной ковариационной матрицы, соответствующей перечисленным факторам и отклику, по постоянному члену и г факторам /ь t2, ...,tr. При этом матрица G из (1.11) будет иметь размерность (r+l)xl, т.е. являться вектором, содержащим свободный,член и оценктпараметров регрессии t\, t2, ...,tr на s, а матрицами— состоять из единственного значения, остаточной дисперсии полученной модели-регрессии.
Для экспериментального обоснования эффективности использования ЕМ-алгоритма при восстановлении пропусков в массивах фактической информации о технологическом процессе металлургического производства в работе реализована следующая схема [48]. На первом этапе, в контексте поиска наилучшей статистической модели зависимости, исследовалось качество заполнения пропущенных значений безусловными средними, условными средними и с помощью процедуры М-алгоритма. По комплектным данным (неполные наблюдения предварительно были удалены) рассчитывались параметры основной модели зависимости. Последняя использовалась в качестве контрольной (эталонной) для сравнения с тремя моделями, которые строились многократно по массиву комплектной информации, но с искусственно вводимыми пропусками. После генерации заданного количества пропусков, они заполнялись одним из трех способов: безусловными средними, условными средними, с помощью ЕМ-алгоритма. Одна из моделей (модель вида А) строилась по данным, получен из ным в результате использования первого из упомянутых способов, другая- модель (модель вида В) — второго, третья модель (модель вида С) — третьего способа. Индексы строки и столбца пропускаемого значения генерировались с помощью датчика псевдослучайных чисел, по равномерному закону. С целью получения обоснованных результатов для каждого числа пропусков модели вида А, В и С строились несколько раз. На каждом этапе количество пропущенных значений увеличивалось, осуществлялся поиск модели, наиболее близкой к контрольной. Для этого определялись отклонения вектора оценок параметров, каждой из рассматриваемых моделей от соответствующего вектора для контрольной модели, рассчитывались евклидовы нормы разности. По моделям вида А, В, С оценивались качество предсказания ими исходного отклика по массиву комплектной-информации и адекватность моделей, проверялась гипотеза об однородности выборочного распределения отклика, прогнозируемого по каждой из трех моделей, и отклика, прогнозируемого с помощью контрольной модели (с помощью непараметрических критериев х,2, Колмогорова-Смирнова): Известно, что если пропуски случайны, допускается-исключение наблюдений, содержащих хотя бы один пропуск. Если в результате указанного исключения объем оставшихся комплектных данных достаточен для идентификации моделей регрессии, возникает вопрос о целесообразности анализа совокупности исходных данных с помощью стратегии М-алгоритма вместо построения модели по массиву комплектных данных. Для обоснования целесообразности использования М-алгоритма на втором этапе в работе проводилось многократное построение линейных множественных регрессионных моделей по двум массивам данных (моделей D и С)и сравнение их с контрольной [52]. В качестве последней использовалась модель, полученная по исходным данным, из которых предварительно были удалены все наблюдения с пропусками. Модели строились по упомянутому массиву комплектной информации, в который искусственно вводились пропуски. Модели G строились по массиву с искусственно введенными пропусками с помощью jEM-алгоритма. Данные для моделей D получались исключением всех некомплектных наблюдений из массива с искусственно введенными пропусками. Место возникновения пропуска генерировалось по равномерному закону. С целью получения обоснованных результатов для каждого числа пропусков модели С и Z) строились несколько раз. Для каждого заданного числа пропусков осуществлялся поиск модели, наиболее близкой к контрольной, с использованием указанных выше способов.
На основании полученной информации был выбран оптимальный способ заполнения пропущенных значений и построена результирующая модель. Ниже подробно изложены основные моменты и результаты практической реализации предложенной схемы на примере анализа массива реальных данных.
Автоматизация, предложенной методики осуществлена в виде программы написанной на языке C++ в.среде Borland C++ Builder. На ее-основе проведено исследование, результаты которого представлены ниже [48].
Исследовался массив с пропусками, содержащий набор наиболее существенных переменных, характеризующих ход и результаты технологического процесса производства 309-и рулонов стали марки 08Ю. Из исходного массива было выделено 254 комплектных наблюдения. Посредством разработанной программной реализации JSM-алгоритма, с использованием оператора свертки, строились регрессионные модели зависимости выходной характеристики "глубина сферической лунки" от набора факторов технологии производства автолиста. По комплектным данным методом пошагового регрессионного анализа была построена следующая контрольная модель: у = 11,543 -4,264 ! - 0,873x2 - 0,002х3 + 0,004х4 - 0,020х5 - 0,034х6 - 0,035х7 - 0,034х8 + 0,002х9, (4.1) где использованы следующие обозначения: у — выходная характеристика, мм; i+ 2 - массовые доли элементов химического состава, %, - [С], [А1], соответственно; з- скорость полосы при горячей прокатке, м/мин, 4— температура конца горячей прокатки, С, xs+x — обжатия по клетям стана холодной прокатки: соответственно, в 1-ой, 2-ой, 4-ой и 5-ой клетях, %; хд — скорость полосы на выходе первой клети стана холодной прокатки; м/мин (свободный член измеряется-в мм; коэффициенты при переменных имеют размерности, обратные размерностям соответствующих переменных, умноженные на мм). Общий квадрат для-модели (4.1) составил 186,739.