Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Метод декомпозиции алгоритмов систем технического зрения на параллельно-конвейерное программно-аппаратное исполнение в архитектуре ПЛИС-ЦСП Краснобаев Антон Александрович

Метод декомпозиции алгоритмов систем технического зрения на параллельно-конвейерное программно-аппаратное исполнение в архитектуре ПЛИС-ЦСП
<
Метод декомпозиции алгоритмов систем технического зрения на параллельно-конвейерное программно-аппаратное исполнение в архитектуре ПЛИС-ЦСП Метод декомпозиции алгоритмов систем технического зрения на параллельно-конвейерное программно-аппаратное исполнение в архитектуре ПЛИС-ЦСП Метод декомпозиции алгоритмов систем технического зрения на параллельно-конвейерное программно-аппаратное исполнение в архитектуре ПЛИС-ЦСП Метод декомпозиции алгоритмов систем технического зрения на параллельно-конвейерное программно-аппаратное исполнение в архитектуре ПЛИС-ЦСП Метод декомпозиции алгоритмов систем технического зрения на параллельно-конвейерное программно-аппаратное исполнение в архитектуре ПЛИС-ЦСП Метод декомпозиции алгоритмов систем технического зрения на параллельно-конвейерное программно-аппаратное исполнение в архитектуре ПЛИС-ЦСП Метод декомпозиции алгоритмов систем технического зрения на параллельно-конвейерное программно-аппаратное исполнение в архитектуре ПЛИС-ЦСП Метод декомпозиции алгоритмов систем технического зрения на параллельно-конвейерное программно-аппаратное исполнение в архитектуре ПЛИС-ЦСП Метод декомпозиции алгоритмов систем технического зрения на параллельно-конвейерное программно-аппаратное исполнение в архитектуре ПЛИС-ЦСП Метод декомпозиции алгоритмов систем технического зрения на параллельно-конвейерное программно-аппаратное исполнение в архитектуре ПЛИС-ЦСП Метод декомпозиции алгоритмов систем технического зрения на параллельно-конвейерное программно-аппаратное исполнение в архитектуре ПЛИС-ЦСП Метод декомпозиции алгоритмов систем технического зрения на параллельно-конвейерное программно-аппаратное исполнение в архитектуре ПЛИС-ЦСП
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Краснобаев Антон Александрович. Метод декомпозиции алгоритмов систем технического зрения на параллельно-конвейерное программно-аппаратное исполнение в архитектуре ПЛИС-ЦСП : диссертация ... кандидата физико-математических наук : 05.13.11 / Краснобаев Антон Александрович; [Место защиты: Ин-т прикладной математики им. М.В. Келдыша РАН]. - Москва, 2008. - 160 с. : ил. РГБ ОД, 61:08-1/161

Содержание к диссертации

Введение

ГЛАВА 1. Алгоритмы и аппаратные средства обработки изображений 7

1.1. Этапы работы системы технического зрения 7

1.1.1. Получение изображения 7

1.1.2. Обработка и анализ видеоданных 8

1.1.3: Передача получаемых данных в удалённый компьютер 10

1.2. Задачи обработки изображений 11

1.3. Организация вычислений 15

1.3.1. Представление алгоритмов 15

1.3.2. Методы"разложения задачи на аппаратуру 19

1.3.3. Параллелизм и конвейерность 21

1.4. Свойства вычислительных средств 25

1.4.1. Процессоры 25

1.4.2. Программируемая логика ПЛИС 29

1.4.3. Характеристики производительности 30

1.4.4. Сравнения 31

Выводы главы 1 32

ГЛАВА 2. Анализ алгоритмов первичной обработки изображений 34

2.1. Параметры вычислительных ресурсов алгоритмов обработки изображений 34

2.1.1. Параметризованная схема потоков данных 35

2.1.2. Граф зависимости алгоритмических параметров' 36

2.1.3. Параметры ПСПД 39

2.1.4. Требуемый объём внутренней памяти микросхемы для оконных операций 40

2.2. Анализ задач низко- и среднеуровневой обработки изображений 49

2.2.1. Низкоуровневая обработка 50

2.2.2. Среднеуровневая обработка 57

2.2.3. Детекторы простых элементов изображения 57

2.2.4. Морфологическая обработка изображений 74

Выводы главы 2 75

ГЛАВА 3. Элементная база электроники для реализации первичной обработки цифровых изображений 77

3.1. Параметры архитектуры видеосистем 77

3.2. Датчики изображения 78

3.3. Память в составе видеоустройства 80

3.3.1. Роль внутренней памяти в составе видеоустройства 81

3.3.2. Внешняя память в составе видеоустройства 81

3.3.3. Ограничения, накладываемые на память операциями нижнего и среднего уровня обработки изображений 90

3.4. Процессор в составе видеоустройства 91

3.4.1. Роль механизмов работы с памятью процессора в видеосистеме 92

3.4.2. Ввод/вывод видеоинформации в процессоре 94

3.4.3. Анализ возможностей ЦСП в задаче обработки видеоданных 95

3.5. ПЛИС в составе видеоустройства 98'

3.5.1. Свойства и характеристики ПЛИС 98

3.5.2. Анализ возможностей ПЛИС в задаче обработки изображений 102

3.6. Сравнение параметров ПЛИС и ЦСП 104

3.7. Влияние свойств ЗАП-графа на архитектуру 108

Выводы главы 3 ПО

ГЛАВА 4. Программно-аппаратная система ПЛИС-ЦСП 112

4.1. Разбиение алгоритмов обработки изображения между ПЛИС и ЦСП 112

4.2. Архитектура системы, состоящей из МВП, ПЛИС и ЦСП 115

4.3. Формат передачи данных между ПЛИС и ЦСП 120

4.5. Формализм построения архитектурного решения для заданного алгоритма обработки видеоданных 121

Выводы главы 4 122

ГЛАВА 5. Пример использования метода разложения задач обработки изображений нижнего и среднего уровня на архитектуру ПЛИС-ЦСП 124

5.1. Разработка сканера штриховых кодов 124

5.1.1. Алгоритм работы сканера штриховых кодов 125

5.1.2. Параметризованная схема потоков данных для алгоритмов нижнего и среднего уровней обработки видеоданных 131

Выводы главы 5 135

Заключение 137

Основные результаты диссертационной работы: 137

Литература:

Введение к работе

Потребность в общедоступных системах технического зрения (СТЗ) диктует необходимость исследований новых способов программно-аппаратных решений для обработки и анализа изображений. Очевидным фактом является необходимость использования комбинации из параллельных и последовательных реализаций различных частей алгоритмов анализа изображений для достижения заданного быстродействия при минимальной себестоимости изделия. Использование для этой цели персональных компьютеров недостаточно эффективно и дорого, ввиду их избыточной универсальности и особенностей их архитектуры, мало приспособленной для параллельной и конвейерной обработки двумерных данных в масштабе реального времени. Поэтому для получения конкурентоспособных видеосистем с хорошими показателями по скорости обработки данных и себестоимости, необходима и актуальна разработка специализированных программно-аппаратных средств, допускающих программирование параллельно-конвейерного исполнения алгоритмов обработки видеоданных.

Для решения этой, задачи желательно найти формальные методы оценки используемых алгоритмов анализа изображений, с точки зрения возможностей их эффективной параллельно-конвейерной программно-аппаратной реализации на существующей микропроцессорной элементной базе. К таким алгоритмам, прежде всего, относятся широко используемые алгоритмы первичной обработки видеоданных - алгоритмы нижнего и среднего уровней работы с изображениями [1].

Хорошо известно, что на рынке интегральных микросхем существуют выпускаемые массово по сравнительно низкой цене цифровые процессоры, приспособленные к использованию всего богатства возможностей программных алгоритмов, и логические интегральные схемы, позволяющие достигнуть высокой степени параллельности преобразования данных. Среди этих микросхем для обработки видеоданных наилучшими качествами универсальности и возможностей специализации обладают гщфроеые сигнальные процессоры (ЦСП) и программируемые логические интегральные схемы (ПЛИС). Предполагается, что в архитектуре их совместного использования плохо параллелизуемые, логически ветвящиеся программные части. алгоритмов должны выполняться на ЦСП, а ПЛИС должна использоваться для выполнения- хорошо параллелизуемых и логически жёстко фиксированных частей алгоритма. В этом случае актуальна задача наилучшего разделения алгоритмов обработки изображений на части, выполняемые ЦСП, и на части, выполняемые ПЛИС. С другой стороны, опыт разработки видеосистем показал, что в таких системах возникает противоречие между алгоритмическими требованиями процессов доступа к большим объёмам памяти видеоданных, ограничениями объёмов внутренней памяти микросхем и быстродействием процессов обмена информацией с модулями внешней памяти: Это приводит в процессе анализа способа программирования СТЗ к необходимости учёта особенностей памяти аппаратных модулей, влияющих на процесс программной- реализации алгоритмовработыс видеоданными.

В связи с этим актуально решение поставленной в диссертации задачи поиска способов параллельно-последовательного программирования алгоритмов обработки изображений с одновременным формированием архитектуры микропроцессорных вычислительных средств и элементов памяти.

Существующие алгоритмы разложения конкретной задачи на разнородные вычислительные элементы базируются на описании раскладываемого алгоритма с помощью dataflow-метода, предложенного Д. Эдэмсом (D. Adams) [2]. Такое представление позволяет на верхнем уровне описания потока данных выявить требуемую последовательность преобразования данных и структуру задачи. Существует несколько широко используемых моделей параметризации dataflow-описания таких, как synchronous dataflow (SDF) [3], cyclo-static dataflow (CSDF) [4] и сравнительно недавно появившаяся модель windowed synchronous dataflow (WSDF) [5], больше подходящая для спецификации алгоритмов преобразования двумерных данных. С использованием этих спецификаций осуществляется статическое планирование выполнения задачи, анализ требуемых объёмов памяти и т.п.. Подробный обзор наиболее распространённых методов разбиения задачи на аппаратную и программную части можно найти в [6]. В алгоритме global criticality, local phase (GGLP) [7] кроме параметризованного описания потока данных дополнительными входными данными являются оценки времени выполнения для каждого отдельного элемента фактора") алгоритма в их аппаратных и программных способах реализации, а также - оценки занимаемой площади микросхемы и объёма кода. Аналогичные оценки предполагает и COSYN алгоритм [8].

В данной работе рассматривается проблема разложения на аппаратную и программную части существующих алгоритмов первичной обработки изображений. Особое внимание уделено детекторам простых элементов изображения [9], далее называемых детекторами. Описаны методы выбора наиболее подходящего вычислительного элемента, основанные на предлагаемых оценках алгоритмических свойств частей детектора. Дана характеристика роли ПЛИС и ЦСП в процессе первичной обработки изображений. Рассматриваетсяі проблема построения архитектуры СТЗ, состоящей из ПЛИС, ЦСП и модулей внешней памяти (МВП).

(Выр/щаю огромную благодарность и признательность своему научному руководителю Александру %рнстантиновичу Ялатонову за ценные идеи, советы, наставления и- всестороннюю поддержу. Большое значение для работы оказали послания и критика, высланные сотрудниками 3ПМ им. 1(елдыша. Очень признателен за практическую апробацию разработанного метода сотрудникам Кампании Штрихам.. Неоценимый вклад в диссертационную работу внесли мои близкие родственнику.

большое всем спасибо!

Передача получаемых данных в удалённый компьютер

Как правило, сложность обработки изображения требует применения мощного компьютера. В настоящее время для передачи изображения в удалённый компьютер используются аналоговые и цифровые каналы.

Аналоговый канал передачи данных в сравнении с цифровым каналом может вносить большие искажения в обрабатываемое изображение. Обычно используются телевизионные стандарты передачи видеоданных, такие как PAL [14], SECAM [14], NTSC [15]. Расстояние передачи сильно зависит от качества используемого кабеля.

Из цифровых каналов для передачи изображений используются интерфейсы USB [16], Ethernet [17], Wi-Fi [18] и ряд других. Расстояние передачи данных по каналу USB ограничено 5 метрами, при этом пропускная способность этого канала составляет 480 Мбит/с. Интерфейс Ethernet регламентирован стандартом IEEE 802.3.2002 [17] и позволяет осуществлять соединение, использующее различные физические носители (коаксиальный кабель, витую пару и оптоволокно), на расстояния от 15 метров до 100 километров при скоростях от 10 Мбит/с до 10Гбит/с. Стандарт IEEE 802.11 [18] определяет передачу данных по беспроводной сети Wi-Fi. Максимально возможное расстояние передачи данных вне помещения- составляет 90 метров, при этом скорость передачи данных может достигать 54 Мбит/с.

Вместе с тем, для передачи видеоизображения с разрешением VGA на частоте 30 кадров/секунду необходима пропускная способность канала не менее 74 Мбит/сек. Кроме того, может оказаться необходимым кодирование данных для предотвращения потери информации в канале. Такие и более

и высокие разрешения и частота кадров требуют больших денежных затрат на организацию канала передачи данных от видеоприёмника компьютеру СТЗ. Поэтому крайне желательно выделить процессы первичной обработки изображений, результатом выполнения которых содержат существенно меньший объём данных, нежели исходное изображение. Реализация таких процессов непосредственно в видеодатчике изображения позволит использовать более простые и дешёвые каналы передачи их результатов»для последующей обработки, нежели каналы передачи целиком исходного изображения.

Зрительные системы, используемые для получения изображений, такие как сканеры, фотоаппараты, видеокамеры нашли широкое применение в быту, видеонаблюдении, автоматической идентификации, биометрии, производстве w т.п. Пожалуй, наиболее широко СТЗ используются в промышленности как для автоматизации процессов, повышения производительности, так и для повышения качества выпускаемых изделий. Ниже приведены несколько условных групп, на которые можног разделить задачи, решаемые машинным зрением:

Распознавание положения. Цель GT3 в данном применении — определение пространственного местоположения (местоположения- объекта относительно внешней системы координат) или статического положения объекта (в каком положении находится объект относительно- системы координат с началом отсчета в пределах самого объекта) и передача информации о положении и ориентации объекта в систему управления или контроллер. Примером такого приложения, может служить погрузочно-разгрузочный робот, перед которым стоит задача перемещения объектов различной формы из бункера. Интеллектуальная задача машинного зрения заключается, например, в определении оптимальной базовой системы координат и её центра для локализации центра тяжести и ориентации детали. Полученная- информация позволяет роботу захватить, деталь должным образом и переместить ее в надлежащее место.

При распознавании положения индустриальных объектов большую роль играют контурные изображения [19, 20]. Для подчёркиванияг контуров, на низком уровне обработки обычно используется дифференцирование изображений [21], реализуемое фильтрацией (1.1) исходного изображения дифференцирующими операторами (см. табл. 1.2).

Граф зависимости алгоритмических параметров'

Для оценки эффективности использования арифметико-логических устройств (АЛУ) микросхем, вхо дящих в СТЗ, для каждой независимой части алгоритма потребовалось выделить ряд параметров, связанных с объёмом вычислений, особенностей адресации видеоданных и возможности параллельной и конвейерной работы частей алгоритма. С этой целью введено понятие графа зависимости алгоритмических параметров (называемого ниже - "ЗАЛ—граф"). Любой алгоритм обработки изображений состоит из операторов преобразования параметров цветовой яркости (Bi, В2, Вз) и положения (i, j) входных пикселей на изображении в параметры выходных данных. С точки зрения решаемой в диссертации задачи отображения алгоритмов на архитектуру аппаратных средств, в этих операторах следует выделить операторы преобразования адресов обращений к памяти, сами операторы обращения к памяти и операторы требуемого преобразования получаемых значений яркости пикселей изображения.

На рис. 2.2 представлено графическое изображение операторов ЗАП-графа, а на рис. 2.3, в качестве примера, - ЗАП-граф для операции вычисления гистограммы распределения яркостей пикселей изображения.

Важными параметрами алгоритмов для их отображения на архитектуру ПЛИС-ЦСП, с учётом условий быстродействия и эффективности использования АЛУ, являются:

1. Количество элементарных операций на один пиксель входного изображения. Этот параметр характеризует требуемую пиковую производительность АЛУ.

2. Содержательная зависимость входных-выходных адресов (СЗА) алгоритма / возможность последовательной адресации к входным-выходным данным. СЗА определяет факт наличия зависимости адресов пикселей входного изображения от значений яркости предыдущих обработанных пикселей. Это свойство важно при выборе типа памяти, так как при наличии СЗА отсутствует возможность конвейерного исполнениям оператора R, зачастую имеющего существенные задержки исполнения.-Последовательная адресация позволяет избежать накладные расходы, связанные с переключением страниц памяти (см. гл. 3).

3. "Оконность" алгоритмических операций. Этот параметр имеет большое значение при обработке изображений. Он указывает на возможность уменьшения простоев АЛУ, связанных со временем доступа к его пикселям, за счёт использования внутренней памяти микросхемы. Подробная информация по- эффективному использованию внутренней памяти при оконных операциях приводится в п. 2.1.4.

4. Отсутствие-присутствие циклов ЗАП-графа является параметром, определяющим возможность конвейерного исполнения операторов. Операторы, входящие в цикл, не могут быть исполнены в конвейере без простоев.

Более подробная характеристика назначения приведённых параметров будет дана в главе 3. Кроме параметров, полученных с ЗАП-графов, для более полной параметризации ПСПД, необходимо было охарактеризовать требуемые производительность АЛУ, объём внутренней- памяти микросхем и свойства коммуникационных каналов. Все эти характеристики было желательно получить либо независимо от характеристик обрабатываемых видеоданных (разрешения и частоты кадров), либо в виде функций от них.

Требуемую производительность АЛУ удобно задать количеством операций, приходящихся на один пиксель входного изображения. Нагрузку на АЛУ дают операторы вычисления выходных значений Р и операторы вычисления адресов А (см. рис 2.2).

Внутренняя память необходима для быстрых доступов к данным с минимально возможной задержкой и максимальной частотой (операторы чтения- R и записи W ЗАП-графа). Таким образом, для повышения эффективности работы АЛУ, по возможности, части данных, к которым производится многократный доступ, необходимо разместить во внутренней памяти или динамически копировать их во внутреннюю память (более подробно свойства памяти различного вида будут обсуждены в гл. 3).

Между независимыми частями существуют каналы передачи данных. Для получения оценок объёмов передаваемых данных между каждой независимой частью удобно дать им характеристику в виде коэффициентов изменения объёмов данных KD в процессе их преобразования. Например, для алгоритма бинаризации монохромного 256-градационного (8-ми битного) изображения KD=l/8.

Роль внутренней памяти в составе видеоустройства

Память по её физическому устройству делится на статическую и динамическую. Статическая память реализуется в виде большого массива триггеров, способных неограниченное время сохранять своё состояние, но при условии наличия электропитания. К преимуществам этой памяти следует отнести отсутствие дополнительной задержки при произвольном (не обязательно последовательном) доступе на запись и на чтение (TNSA), простоту в реализации интерфейса с ней. Разработано несколько стандартов быстрого обмена данными с статической памятью: DDR, DDRII, QDRI и П. Недостатки статической памяти связаны с высоким энергопотреблением и небольшими объёмами при высокой цене. Статическая память подходит для реализации алгоритмов обработки видеоданных, использующих любые виды обращения к памяти. Основная проблема здесь - это стоимость памяти. Например, для хранения изображения с разрешением SXGA требуется объём памяти, превышающий 1.3МБ, цена которого при допустимой рабочей частоте 300 МГц будет составлять около $801.

Заметим, что динамическая память работает только при условии наличия электропитания. Эта память реализуется на массиве микроконденсаторов и, в силу их постепенного саморазряда, нуждается в периодических циклах регенерации своего состояния. В течение процесса регенерации невозможно получить доступ к памяти, что важно с позиций соотношения частоты регенерации и захвата видеоданных.

Достоинством модулей динамической памяти является существенно более низкая цена и энергопотребление, чем у памяти статического типа. Ячейка динамической памяти занимает меньшую площадь на кремниевой подложке по сравнению со статической памятью, следовательно, можно получить больший объём для хранения данных при тех же размерах кристалла кремния. Поэтому хранение больших объёмов видеоданных зачастую осуществляется при помощи динамической синхронной памяти. Для получения максимальной скорости обмена данными желательно осуществлять последовательные обращения по адресам с чтением и записью в виде блоков. Существует несколько стандартных интерфейсов подключения динамической памяти к процессору, в соответствии с ними даны названия памяти: SDRAM, DDR SDRAM, DDR2 SDRAM, DDR3 SDRAM. Рассмотрим влияние особенностей устройства динамической памяти SDRAM на параметры реализации процесса обработки видеоданных. Память SDRAM имеет широкое распространение в автономных устройствах. Большой процент существующих процессоров имеет интегрированный SDRAM контроллер. Эта память состоит обычно из четырёх массивов ячеек данных, называемых банками. Внутри каждого банка адрес ячейки определяется адресом страницы и адресом столбца. Команда, при помощи которой выбирается (открывается) конкретная страница в банке, называется ACTIVE (см. рис. 3.6). Для обращения к другой странице необходимо сначала закрыть открытую страницу при помощи команды PRECHARGE, а затем уже открыть требуемую страницу. Таким образом, при записи или чтении ячеек, принадлежащих разным страницам одного банка, возникают накладные расходы, связанные со сменой страниц. Время выполнения команды ACTIVE обозначается tRcD и для большинства модулей динамической памяти равно 3-м тактам. Время выполнения команды PRECHARGE обозначается tRp и также равно 3-м тактам.

Кроме этих расходов существует задержка на выбор адреса столбца CASiatency (column address select latency/задержка выбора адреса столбца), она определяется как количество периодов синхронизации, прошедших с момента запуска команды чтения до появления данЗапись в память внутри страницы не несёт никаких дополнительных расходов (см. рис. 3.8).

Таким образом, если необходимо прочитать данные из неоткрытой страницы, то в наиболее вероятном случае нужно выполнить команды PRECHARGE, ACTIVE и READ, что до момента получения данных как минимум займёт: 1кр+1КС0+СА8іа1еПсу=3+3+1=7 тактов. А если необходимо записать данные из неоткрытой страницы, то в наиболее частом случае нужно выполнить три команды PRECHARGE, ACTIVE и WRITE, что займёт: tRp+tRCD=3+3=6 тактов. Это означает, что для СТЗ при последовательной записи изображения в память при переходе к новой странице возникнет задержка доступа к памяти на 6 тактов. Что при определённых потоках видеоданных может привести к сбою в передаче.

Кроме расходов на переключение страниц в динамической памяти некоторое время тратится на регенерацию содержимого ячеек. Для этого необходимо выполнение команды AUTO REFRESH, занимающей время tRFc=60ns, 4096 раз (по количеству страниц) каждые 64ms. Команда регенерации в течении 64ms может быть запущена либо 4096 раз подряд, либо чередуясь с другими командами. Таким образом, каждую секунду на регенерацию будет потрачено 0 4096 1/0.064=0.003845 или 0.384% от общего времени работы с шиной. Нужно заметить, что команда AUTO REFRESH может быть выполнена только в том случае, если все страницы в банках памяти закрыты. Перед первым после выполнения операции READ/WRITE запуском команды AUTO REFRESH необходимо выполнить команду PRECHARGE. Таким образом, есть выбор: либо запускать команды AUTO REFRESH вперемежку с командами чтения/записи и получать большие средние издержки на регенерацию памяти, либо запускать их блоком сразу на все страницы, и тогда получить одну большую блокировку доступа к памяти на время tRFc 4096=245.76us один раз в 64ms. ных (см. рис. 3.7). Обычно этот параметр настраивается и составляет от 1 до 3 периодов синхросигнала.

Архитектура системы, состоящей из МВП, ПЛИС и ЦСП

Как было отмечено ранее, в силу схемотехнических ограничений в современных цифровых устройствах захвата изображения нет возможности получать весь кадр за один такт работы процессора. Наиболее часто применяется "прогрессивная развёртка" - формирование изображения всего кадра последовательно по пикселям строк. Такая же проблема (последовательное получение информации) имеется и у любого модуля памяти. Таким образом, во многих случаях именно пропускная способность каналов данных ограничивает производительность системы, - необходимо обеспечить вычислительные модули видеоданными.

При передаче таких простых структур данных, как изображения, нет смысла использовать отдельную шину адреса передаваемых данных, достаточно иметь средства (например, сопровождающие поток данных стробы), говорящие о начале очередного блока данных или его частей (например, сигналы кадровой и строчной развёртки). Это позволяет упростить топологию печатной платы СТЗ, упростить схему контроля передачи данных и уменьшить энергопотребление. Микросхемы ЦСП, ориентированные на обработку изображений, имеют высокоскоростные порты параллельных каналов для приёма и передачи таких упорядоченных структур данных (см. раздел 3.5.2). Таким образом, используя отработанные механизмы аппаратных интерфейсов, можно передавать в ЦСП через эти порты результаты обработки ПЛИС, в случае, если эти результаты имеют постоянную структуру данных.

Во второй главе были описаны свойства алгоритмов обработки изображений, позволяющие использовать ZIMD архитектуру на более нижних уровнях обработки изображения. В этой архитектуре СТЗ видеоданные, поступающие в систему, проходят сначала параллельную одновременную и конвейерную обработку в ПЛИС и лишь затем поступают в ЦСП. При этом, из-за аппаратных ограничений, связанных с архитектурой внешних интерфейсов ЦСП, организация передачи данных в системе, состоящей из ПЛИС, ЦСП и МВП, может быть одной из трёх видов (см. рис. 4.2): 1) МП является двухпортовым устройством, ПЛИС и ЦСП обмениваются данными только через обобщённые области памяти МВП (рис. 4.2 а); 2) данные, отправляемые с ПЛИС, буферизуются в МВП с использованием канала прямого доступа к памяти (ПД11) ЦСП (рис. 4.2 б); 3) данные, отправляемые с ПЛИС, буферизируются поочерёдно то в первом, то во втором МВП (рис. 4.2 в). В противофазе потока данных из ПЛИС ЦСП, используя ПЛИС как коммутатор, обращается к МВП 1 и МВП 2, с целью доступа к результатам обработки данных в ПЛИС.

Самым производительным вариантом является первый вариант, представленный на рис. 4.2 а, так как все шины соединяют только два устройства. Такая архитектура позволяет организовать конвейерную работу с обменом данными через обобщённые участки памяти, не влияя на трафик через шину данных каждого из вычислительных модулей. Единственным недостатком этого варианта является цена двухпортовых МВП, превосходящая цену однопортовых динамических МВП такого же объёма примерно в 100 раз. Этот вариант структуры соединения микросхем целесообразен при высоких частотах видеоданных.

В то же время, наиболее дешёвым вариантом рассмотренных архитектур является второй вариант. Заметим, что в ряде случаев (см. табл. 3.6, гл. 3) возможна детекторная обработка непосредственно видеоканальных данных - без предварительной буферизации всего кадра в МВП. Данный способ, во-первых, позволяет уменьшить трафик данных по шине присоединения МВП для сохранения изображения, во-вторых, он позволяет уменьшить задержку в обработке очередного кадра и, в третьих, - не использовать адресные линии (как было упомянуто, это упрощает разводку проводников печатной платы и уменьшает количество занятых ножек ввода/вывода в ПЛИС). Поэтому в пределах, определяемых допустимыми нагрузками трафика через шину данных, эффективно использовать наиболее 118 дешёвое решение, в варианте, показанном на рис. 11-6. Здесь трафик данных является однонаправленным от ПЛИС к ЦСП. В этом варианте можно достаточно просто динамически задавать адреса памяти для хранения данных, поступающих из ПЛИС. Эта информация через элементы ЦСП (периферийный интерфейс (ПИ) и канал ПДП) попадает на шину ЦСП-МВП. Кроме того, через эту шину осуществляется кэширование программного кода и работа с хранимыми в МВП данными. Трафик шины складывается из следующих компонент: Вцсп-мп-Окэш+Бпдп+Оплис-цсп.

В общем случае, ПЛИС позволяет довольно гибко строить архитектуры с различными встроенными в ПЛИС коммутаторами шин. Ценой такой гибкой коммутации является увеличение задержки начала процесса передачи данных TRL (пропускная способность при этом остаётся той же). С использованием описанных "ПЛИС-коммутаторов" в архитектуре третьего вида можно сократить потери эффективности исполнения алгоритма, связанные с большими объёмами передачи видеоданных. Это достигается согласованием двух противоречивых требований: обеспечить требуемые трафики шин МВП, необходимые для выполнения в темпе реального времени работ в ПЛИС и в ЦСП, и, в то же время, обеспечить не менее быструю передачу данных из ПЛИС в ЦСП. Вариант такой реализации показан на рис. 4.2 в. В этой архитектуре, поступающие кадры поочередно занимают одну из двух МВП, присоединённых к ПЛИС. В это время с другой МВП через контроллер, реализованный на ПЛИС, работает ЦСП.

Похожие диссертации на Метод декомпозиции алгоритмов систем технического зрения на параллельно-конвейерное программно-аппаратное исполнение в архитектуре ПЛИС-ЦСП