Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

"Анализ генетического состава В-хромосом млекопитающих с применением высокопроизводительного секвенирования" Макунин Алексей Игоревич

<
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Макунин Алексей Игоревич. "Анализ генетического состава В-хромосом млекопитающих с применением высокопроизводительного секвенирования": диссертация ... кандидата Биологических наук: 03.01.07 / Макунин Алексей Игоревич;[Место защиты: Институт молекулярной и клеточной биологии Сибирского отделения Российской академии наук], 2016.- 141 с.

Содержание к диссертации

Введение

Глава 1. Обзор литературы 11

1.1 В-хромосомы 11

1.1.1 Добавочные хромосомы в различных таксонах 12

1.1.2 Вариабельность количества В-хромосом и поведение в клеточном делении

1.1.3 Морфология, молекулярный состав и транскрипционная активность 17

1.1.3.1 Морфология 17

1.1.3.2 Повторенная и анонимная ДНК 18

1.1.3.3 Гены 19

1.1.3.4 Эпигенетический статус 20

1.1.3.5 Транскрипция

1.1.4 Происхождение и эволюция 21

1.1.5 В-хромосомы в контексте других видов хромосомной нестабильности 24

1.2 Высокопроизводительное секвенирование (NGS) в исследованиях хромосом26

1.2.1 Развитие методов NGS 26

1.2.2 Биоинформатический анализ данных NGS

1.2.2.1 Сборка геномов de novo 29

1.2.2.2 Ресеквенирование полных геномов 30

1.2.2.3 Целевое ресеквенирование и транскриптомика 32

1.2.2.4 Безреференсные методы 33

1.2.2.5 Резюме 34

1.2.3 Анализ отдельных хромосом с применением NGS 34

Глава 2. Материалы и методы. 42

2.1 Методы молекулярной биологии и цитогенетики 42

2.2 Биоинформатические методы 43

2.2.1 Очистка прочтений, картирование, удаление загрязнения и поиск целевых районов 43

2.2.2 Нуклеотидные варианты в целевых районах 45

2.2.3 Анализ повторенных последовательностей 48

2.2.4 Функциональное обогащение наборов генов 48

Глава 3. Результаты и обсуждение. 49

3.1 Характеристика хромосомных библиотек 49

3.2 Разработка метода анализа данных высокопроизводительного секвенирования хромосомспецифичных библиотек 50

3.2.1 Проверка и очистка данных секвенирования 50

3.2.2 Выравнивание на референсный геном и удаление загрязнения человеческой ДНК 51

3.2.3 Идентификация целевых районов 53

3.2.4 Особенности и ограничения метода идентификации целевых районов 58

3.2.5 Обнаружение межхромосомной перестройки KIT у коровы 60

3.2.6 Анализ хромосомспецифичных нуклеотидных вариантов 61

3.2.7 Анализ повторенной ДНК 63

3.2.8 Резюме 66

3.3 Высокопроизводительное секвенирование и анализ В-хромосомных библиотек парнокопытных Capreolus pygargus и Mazama gouazoubira 67

3.3.1 Уникальные районы В-хромосом 67

3.3.2 Гены В-хромосом и обнаружение протоонкогенов KIT и RET у серого мазамы и хищных

3.3.3 Нуклеотидные варианты В-хромосом 75

3.3.4 Повторенная ДНК В-хромосом 78

3.3.5 Сравнение В-хромосом сибирской косули и серого мазамы 80

Заключение 81

Выводы 82

Список литературы 83

Введение к работе

Актуальность. В-хромосомы, или добавочные элементы кариотипа, обнаружены у представителей большинства основных таксонов многоклеточных эукариот. Эти хромосомы не являются необходимыми для нормальной жизнедеятельности и воспроизводства носителя, однако у некоторых организмов могут составлять значительную часть объема наследственного материала. Они характеризуются нестабильностью как в мейотических, так и в митотических делениях, и способны накапливаться от поколения к поколению с помощью различных механизмов, делающих их расхождение при клеточном делении направленно асимметричным — данное явление носит название драйва.

В-хромосомы зачастую являются гетерохроматиновыми элементами, обогащенными повторенными последовательностями.6 Долгое время оставались неизвестными уникальные последовательности, представленные на них. Однако развитие методов молекулярной биологии и, в особенности, высокопроизводительного секвенирования позволили выявить на добавочных хромосомах различных видов множество уникальных районов, несущих белок-кодирующие гены. Первым геном, обнаруженным на В-хромосомах млекопитающих (лисицы и енотовидной собаки), был KIT. В дальнейшем, список генов для этих видов был расширен, а на добавочных элементах косули были найдены три белок-кодирующих гена в составе одного протяженного района.

В отделе разнообразия и эволюции животных ИМКБ СО РАН собрана коллекция культур тканей различных видов животных, несущих В-хромосомы, а также хромосомспецифичных библиотек ДНК, в том числе и добавочных хромосом. Высокопроизводительное секвенирование данных библиотек представляется крайне интересным для понимания эволюции добавочных элементов. Однако анализ данных высокопроизводительного секвенирования ДНК отдельных хромосом не является стандартизованной процедурой и подвержен ряду ошибок, связанных с контаминацией полногеномной ДНК изучаемого вида и человека, ошибками прочтения, необходимостью работать с междвидовыми выравниваниями и т.д.

Целью данной работы является исследование генетического состава В-хромосом сибирской косули Capreolus pygargus и серого мазамы Mazama gouazoubira с применением методов анализа данных

высокопроизводительного секвенирования (Illumina MiSeq) ДНК отдельных хромосом.

Задачи:

  1. Разработать метод поиска уникальных геномных районов в данных высокопроизводительного секвенирования Illumina.

  2. Объединить его с существующими методами поиска нуклеотидных вариантов и анализа спектров повторенных последовательностей с получением автоматизированного конвейера для воспроизводимого анализа данных.

  3. Применить разработанный метод для описания состава В-хромосом сибирской косули Capreolus pygargus и серого мазамы Mazama gouazoubira.

  4. Проанализировать особенности эволюции добавочных хромосом этих видов. Научная новизна и практическая ценность. Впервые

разработан воспроизводимый и автоматизированный метод поиска уникальных геномных районов в данных высокопроизводительного секвенирования отдельных хромосом. Минимальный размер обнаруживаемых уникальных районов лежит в пределах 10-20 тыс. п.н., а отличительной особенностью метода является низкий уровень ложноположительных результатов. Дополнительные данные (нуклеотидные варианты, спектры повторенной ДНК) в данном контексте получали и ранее, однако мы впервые интегрировали получение всех этих данных в один инструмент. Показана применимость метода к анализу не только добавочных хромосом, но и межхромосомных перестроек в более общем смысле, при выравнивании прочтений на референсный геном как того же, так и родственного видов. Точность метода продемонстрирована на примере определения границ межхромосомной транслокации гена KIT у коровы. Разработанный метод позволяет эффективно проводить анализ на наборе данных, получаемых менее чем с 1/10 запуска Illumina MiSeq. Набор получаемых характеристик (уникальные районы и замены в них, спектры повторов) являются хорошей основой для проведения целевых исследований: разработки маркеров хромосом, уточнения координат перестроек и внутренней структуры хромосом, ассоциации районов перестроек с другими геномными характеристиками, восстановления событий хромосомной эволюции.

Впервые определен набор из 26 уникальных районов, содержащих 55 генов, на добавочных хромосомах серого мазамы.

Для6 сибирской косули подтверждено наличие крупного района, обнаруженного ранее, уточнены его границы, а также обнаружен дополнительный мелкий район. Изучены спектры повторенных последовательностей и получены обширные наборы нуклеотидных вариантов на добавочных хромосомах обоих видов. Показано наличие двух условных типов добавочных хромосом: 1) содержащих амлифицированные и дегенерированные фрагменты генома (у косули) и 2) содержащих схожие с аутосомами фрагменты генома (у мазамы). Мы предполагаем, что данные типы представляют из себя различные этапы эволюции добавочных хромосом. Впервые показано независимое включение протоонкогенов (KIT и RET) в В-хромосомы у хищных и серого мазамы.

Положения, выносимые на защиту. С помощью разработанного метода анализа высокопроизводительного секвенирования ДНК отдельных хромосом можно выявлять уникальные геномные районы, представленные на этих хромосомах. Данный метод отличается низким уровнем ложноположительных сигналов. Добавочные хромосомы сибирской косули содержат два уникальных района общим размером 2 млн п.н. с признаками дегенерации последовательности и амплификации. В-хромосомы серого мазамы содержат 26 уникальных районов общим размером 9 млн п.н. Спектрами замен и повторенных элементов эти районы схожи с аутосомными. Протоонкогены KIT и RET выявляются на добавочных хромосомах как серого мазамы, так и хищных (лисицы, енотовидных собак), при этом их перенос на В-хромосомы произошел независимо.

Апробация работы. Результаты работы были представлены на
международной конференции «Высокопроизводительное

секвенирование в геномике» (Новосибирск, 21-25 июля 2013), 19 международной хромосомной конференции (Болонья, Италия, 2-6 сентября 2013 года), 3 Международной конференции по В-хромосомам (Гатерслебен, Германия, 7-9 апреля 2014) и на международной конференции «Хромосома 2015» (Новосибирск, 24-28 августа 2015).

Вклад автора. Автором самостоятельно выполнены разработка и применение биоинформатических методов. Конвейер для последовательного запуска программ был сконструирован совместно с Кичигиным И.Г. Молекулярно-биологический и цитогенетический блок выполнены Трифоновым В.А. и Проскуряковой А.А.

Пробоподготовка и секвенирование на Illumina MiSeq выполнено Черняевой Е.Н.

Структура диссертации. Диссертация состоит из введения, обзора литературы, описания материалов и методов, результатов и обсуждения, а также выводов и списка цитируемой литературы, в которые входит 274 ссылок. Работа изложена на 98 страницах машинописного текста, содержит 11 таблиц, 9 рисунков и приложение на 47 страницах.

Добавочные хромосомы в различных таксонах

Развитие методов автоматизированной сборки геномов связано с переходом от иерархической сборки последовательностей, клонированных в плазмиды, фосмиды и бактериальные искусственные хромосомы (bacterial artificial chromosome — BAC) к секвенированию случайных геномных фрагментов (whole-genome shotgun sequencing — WGS). В проекте по секвенированию генома человека эта задача для данных секвенирования по Сэнгеру была выполнена с помощью программы Celera [Venter et al., 2001], в основе которой лежит построение и последующее разрешение графа перекрытия между прочтениями. В данном графе прочтения являются вершинами, а перекрытия между ними — ребрами. Примерно в то же время был разработан Euler — алгоритм сборки геномов на основе графов де Брюина. В этих графах вершинами выступают (k-1)-меры, содержащиеся в прочтениях, а ребрами — k-меры, связывающие соседние (k-1)-меры со сдвигом на один нуклеотид, а процедура сборки соответствует нахождению кратчайшего пути через граф [Pevzner, Tang, Waterman, 2001]. Сборщики, основанные на графах де Брюина, начали активно использовать только после широкого распространения платформ секвенирования второго поколения с большим количеством коротких прочтений, так как массивы данных об их перекрытии растут пропорционально квадрату числа прочтений, в то время как число k-меров растет медленнее и зависит от размера генома, степени повторенности последовательностей и ошибок прочтения. C появлением платформ, производящих длинные прочтения, происходит возврат к графам перекрытия [Chin et al., 2013]. Для случая использования различных платформ (короткие прочтения Illumina и длинные прочтения PacBio) разрабатываются гибридные методы сборки [Ye et al., 2014].

Построение и разрешение графов перекрытия или де Брюина — лишь первый шаг в сборке геномов, в результате которого формируются контиги. Далее они объединяются в скэффолды по данным картирования парных прочтений с примерно известной длиной фрагмента. Длина таких библиотек доходит до десятков тысяч пар нуклеотидов. Помимо парных прочтений для скэффолдинга экспериментально используются сплайсированные транскрипты [Xue et al., 2013] или данные о контактах между участками ДНК в интерфазном ядре (методы определения конформации хромосом) [Burton et al., 2013].

Для перехода от скэффолдов к последовательностям полных хромосом используются разнообразные методы картирования: локализация ВАС-клонов [Duke Becker et al., 2011], генетические карты сцепления [Lander, Green, 1987], карты радиационных гибридов [Gyapay et al., 1996], оптические карты [Dong et al., 2013].

В данном случае множество прочтений выравниваются на так называемый референсный геном, уже собранный и проаннотированный. Реализация выравнивания основана на разбиении протчения на k-меры, поиске совпадении в геноме также предварительно разбитом на k-меры, дальнейшем расширении совпадений и выборе оптимального выравнивания. Этот метод является быстрым эвристическим приближением алгоритма локального выравнивания Смита 28 Ватермана [Smith, Waterman, 1981], в исходной версии которого на первом этапе происходит поиск совпадений всех длин. Качество выравнивания находится в прямой зависимости от длины выравнивания, обратной зависимости от числа пробелов (инсерций-делеций) и несовпадений (нуклеотидных замен). Современные программы также учитывают качество прочтения нуклеотидов и бывают оптимизированы под определенные платформы (например, bowtie [Langmead et al., 2009] для ранних машин Illumina с короткими прочтениями, bowtie2 [Langmead, Salzberg, 2012] для длины прочтения более 100 нуклеотидов). Алгоритмические особенности и различия в параметрах выравнивания приводят к тому, что результаты выравнивания независимыми программами могут обладать заметными различиями. Отдельно стоит вопрос о выравнивании прочтений на несколько мест в геноме, то есть о дупликациях и повторах. Корректным решением, использованным в нашей работе, является присвоение низкого качества таким выравниваниям, что приводит к отсутствию покрытия в повторенных районах геномов. Также возможно выравнивание на случайным образом выбранную копию повтора или на все копии повтора.

Поиск вариантов (т. е. отличий от референсного генома) — одна из частых задач ресеквенирования. По методам исследования она четко разделяется на поиск вариантов на уровне отдельных нуклеотидов: замен и мелких инсерций-делеций (Single Nucleotide Variations — SNV) и поиск более крупных дупликаций и делеций (объединяемые под названием Copy Number Variations — CNV), а также транслокаций (Structural Variations — SV). Для поиска SNV непосредственно анализируют выравнивание прочтений на геном, в то время как для поиска CNV и SV привлекаются дополнительные источники информации, такие как раздельное картирование парных прочтений и длины фрагментов исходных библиотек [Alkan, Coe, Eichler, 2011]. Частным вариантом поиска SNV является построение профилей метилирования ДНК путем секвенирования геномов, обработанных бисульфитом, конвертирующим неметилированный цитозин в урацил и последующим анализом Ц T замен [Bock et al., 2005].

При постановке эксперимента по поиску нуклеотидных вариантов (SNV) необходимо иметь в виду, что наблюдаемые в прочтениях отличия от референсного генома могут быть как реальными, так и артефактами пробоподготовки, секвенирования или выравнивания. Также, в силу диплоидности, в одной позиции одновременно может находиться два варианта. Таким образом, для эффективного поиска вариантов необходимо высокое качество исходной ДНК, а также относительно высокое покрытие прочтениями референсного генома. Поиск и оценка достоверности вариантов производятся специализированными программами, среди которых наибольшее распространение получили связка samtools/mpileup/bcftools [Li et al., 2009] и набор инструментов GATK [McKenna et al., 2010]. Используя байесовскую статистику, они оценивают качество каждого из полученных вариантов. Перед поиском вариантов целесообразно осуществить удаление ПЦР-дубликатов, повторное выравнивание вокруг инсерций-делеций с учетом данных всех прочтений, а также перекалибровку качества прочтения по наблюдаемым ошибкам. После поиска вариантов проводится фильтрация вариантов с низким качеством, с дисбалансом по направлению прочтений (strand bias), с крайними значениями покрытия, а также вариантов прилежащих к инсерциям/делециям и гомополимерам [Auwera et al., 2013].

Полученные данные по нуклеотидным вариантам сохраняются в не полностью стандартизованном формате VCF (Variant Calling Format). Функциональные характеристики вариантов описываются по известным аннотациям генов референсного генома с помощью таких программ, как snpEff [Cingolani et al., 2012] (работает с аннотациями Ensembl) и Variant Annotation Integrator (работает с аннотациями, представленными на сайте genome.ucsc.edu).

Биоинформатические методы

Рассмотрим особенности выявляемых геномных районов. Целевые и нецелевые районы легко разделяются для контрольных образцов: средние расстояния между ампликонами составляют 3,5-6,7 тыс. п.н. против 11,7 тыс. п.н. для CFA12 (Таблица 2), 3,6-22 тыс. п.н. против 80 тыс. п.н. для BTAMix (Таблица 3). Однако при наличии большого количества целевых районов значения сближаются и четкая граница исчезает. Особенно это актуально при выравнивании на сборки геномов, состоящие из небольших скэффолдов. В таком случае целесообразно искать референсные последовательности, разделенные скриптом на несколько частей, то есть содержащие как целевые, так и нецелевые районы. Полезными могут оказаться и дополнительные источники информации, такие как синтения с другими геномами.

После определения целевых геномных районов необходимо проверять и корректировать точные границы перестроек. Эта задача на настоящий момент не автоматизирована и проводилась вручную в геномном браузере UCSC онлайн (http://genome.ucsc.edu/) или локально в геномном браузере Integrative Genomics Viewer (IGV, [Robinson et al., 2011]). При анализе образцов В-хромосом более чем в половине случаев производилась корректировка на 1-10 ампликонов в сторону как увеличения, так и уменьшения целевого района. Кроме того, необходимо решать вопрос об объединении протяженных целевых районов: трех, выявленных на CFA12 (Таблица 2), двух на BTA23, 26 и 28 (Таблица 3).

Существует несколько ограничений нашего метода поиска районов, представленных на хромосомах, которые необходимо учитывать при планировании дальнейших экспериментов:

1. Точность определения границ перестроек ограничена средним расстоянием между ампликонами DOP-ПЦР (до 5-10 тыс. п.н.), а в реальности может быть и ниже. Минимальное разрешение метода оценивается как 5-10 позиций ампликонов (в зависимости от покрытия), районы с меньшим количеством позиций по нашим наблюдениям могут возникать как артефакты. В этом смысле, более точным является метод полногеномного секвенирования индивидов с В-хромосомами и без них и последующая идентификация изменений покрытия генома прочтениями [Valente et al., 2014]. Однако данный метод чувствителен к индивидуальным CNV в основном наборе хромосом и является гораздо более дорогостоящим.

2. Наш метод не позволяет определить взаимное расположение и ориентацию целевых районов на хромосоме, а также перестройки внутри районов: покрывая лишь до 10% хромосомы короткими прочтениями, трудно надеяться перекрыть точки разрывов. По той же причине невозможно достоверно выяснить полноту и набор мутаций генов, находящихся на целевой хромосоме. 3. Покрытие ампликонов прочтениями имеет небольшое среднее значение и большой разброс, что затрудняет определение относительной копийности районов на хромосомах.

4. Еще одним существенным фактором оказывается неравномерное распределение ампликонов внутри целевых районов. Часто обнаруживаются участки со сниженной плотностью ампликонов (Таблицы 2, 3) или вообще не покрытые прочтениями. При этом, по крайней мере в одном случае методом локализации ВАС-клонов было показано, что участок, воспроизводимо не покрываемый прочтениями, присутствует на В-хромосоме сибирской косули (см. в разделе 3.3.1). Приведем несколько возможных объяснений этого феномена: наличие повторенной ДНК в этих районах, на которую при нашем подходе к выравниванию не картируются прочтения; потеря значимой гомологии из-за ускоренной дивергенции; отсутствие комбинации последовательностей для посадки DOP-праймера (гексамеры ATGTGG) в комплементарных цепочках на расстоянии, необходимом для эффективной амплификации (примерно до тысячи п.н.); наличие пробелов в сборках геномов, например — центромерный блок неизвестных нуклеотидов (N) длиной 3 млн п.н., по умолчанию помещаемый в сборки геномов млекопитающих; недоамплификация в ПЦР в силу экстремального ГЦ-состава или вторичной структуры ДНК. При поиске целевых районов скриптом regiondnacopy.R экстремально высокие и низкие значения расстояния между ампликонами отбрасываются. Низкие значения часто соответствуют неперекрывающимся прочтениям с концов одного и того же ампликона, а высокие соответствуют реальным делециям или ошибкам метода и обнаруживаются внутри многих районов, а иногда составляют заметную их часть. Не исключено, что ложные делеции могут располагаться и на краях целевых районов. Это необходимо учитывать при дальнейшем анализе, например, при ПЦР-картировании точек перестроек или оценке целостности генов на хромосомах.

Подводя итог, разработанный метод поиска геномных районов, присутствующих на целевых хромосомах, позволяет определить границы межхромосомных перестроек с максимальной точностью 5-10 тыс. п.н., однако не дает достоверной информации о внутренней структуре целевых районов и их взаимному расположению на хромосоме. Также возможна идентификация ложных делеций как внутри районов, так и на их границах. Эти проблемы отчасти могут быть решены с использованием метода полногеномной амплификации, основанного на использовании 29 ДНК-полимеразы и случайном гексапраймера (Multiple Displacement Amplification, MDA), который обеспечивает более равномерное покрытие генома [Dean et al., 2002]. В настоящее время мы проводим сравнение методов DOP-ПЦР и MDA, а также изоляцию хромосом с помощью сортинга и микродиссекции на материале добавочных хромосом хищных.

При анализе смешанных хромосом 23, 26, 28 и 29 коровы (Рисунок 4, Таблица 3) был выявлен дополнительный район хромосомы 6 референсного генома BTA6:72,525,912-73,007,603, содержащий полный ген KIT. В литературе описана перестройка со схожими координатами, ассоциированная со специфической окраской — белой полосой вдоль хребта (color sidedness) [Durkin et al., 2012]. Перенос гена KIT произошел с хромосомы 6 на хромосому 29, а в некоторых породах также наблюдался обратный перенос данного фрагмента со смещенными границами из хромосомы 29 в исходный район хромосомы 6. Характер этих перестроек свидетельствует о наличии кольцевого интермедиата, при встраивании разрываемого в новом месте. Мы провели локализацию гена KIT на хромосомах коровы и подтвердили его локализацию на мелкой аутосоме (Рисунок 5). Примечательно, что в исходной работе данная перестройка описана как дупликация, в то время как наша локализация не исключает сбалансированной транслокации на хромосому 29, с последующей гомозиготизацией так как сигнал гибридизации для KIT на обоих гомологах хромосомы 6 отсутствует

Выравнивание на референсный геном и удаление загрязнения человеческой ДНК

Мы проверили набор В-хромосомных генов мазамы на предмет возможного обогащения функциональными категориями из базы данных Gene Onthology с помощью инструмента DAVID [Huang, Sherman, Lempicki, 2009a; Huang, Sherman, Lempicki, 2009a]. Значения коэффициента обогащения для всех групп оказались небольшими. Наиболее значительное обогащение (1,27) показано для функций эмбрионального развития — гены ACVR2B, EOMES, GFI1, KIT и RET. Второй кластер (обогащение 1,22) содержит гены киназ: тирозина (KIT, RET, TXK), серина/треонина (ACVR2B, OXSR1), нуклеотидов (PIK3CB) и ксилозы (XYLB). Близким по функции оказывается и следующий кластер генов, кодирующих позитивные регуляторы киназной активности (0,91), включающий три гена из приведенных выше (ACVR2B, PIK3CB и KIT), а также ген циклина CCND2. Большинство из этих генов расположены в различных участках генома коровы и, скорее всего, были перенесены на В-хромосомы независимо. Исключение составляют три гена OXSR1, XYLB, и ACVR2B, расположенные в одном районе (360 тыс. п.н.) хромосомы 22 коровы. Связь между функцией генов и вероятностью их переноса на В-хромосомы работает далеко не для всех случаев: так, лишь 5 из 26 районов несут протоонкогены и супрессоры опухолей, 5 — гены киназ и их регуляторов, а для остальных функциональных групп количество районов оказывается еще меньше.

Наблюдаемые относительно генома коровы замены, инсерции, делеции и перестройки В-хромосом косули и мазамы связаны с: а) дивергенцией между референсным и исследуемыми видами; б) накоплением замен на В-хромосомах после дупликации из основного генома; в) возможным полиморфизмом В-хромосом. Для добавочных хромосом косули мы воспользовались опубликованной черновой сборкой генома европейской косули [Kropatsch et al., 2013], чтобы по возможности нейтрализовать первый фактор. Выровняв контиги европейской косули на геном коровы, мы получили набор замен, закрепленных у европейской косули относительно коровы. Вычитание этих вариантов из вариантов В-хромосом сибирской косули позволило нам избавиться от большей части замен, связанных с дивергенцией основных геномов между оленевыми и полорогими. Результаты анализа нуклеотидных вариантов на добавочных хромосомах косули и мазамы, а также в контрольной библиотеке мелких аутосом коровы приведены в Таблицах 6 (покрытие прочтениями), 7 (обнаруженные варианты) и 8 (плотности вариантов). Для контрольного образца аутосом коровы плотность полиморфизмов, уровень гетерозиготности и соотношение полиморфизмов различных функциональных классов находятся в пределах описанных значений для исследований геномных полиморфизмов в популяциях коров [Kawahara-Miki et al., 2011; Daetwyler et al., 2014].

Таблица 6. Длина последовательностей, покрытых прочтениями внутри целевых районов, разделенная на функциональные классы относительно генов RefSeq генома коровы (bosTau7). Образцы: BTAMix – хромосомы 23, 26, 28 и 29 коровы; CPYB — В-хромосомы сибирской косули (сумма двух библиотек, CPYB1 и CPYB2); CPYB-CCA — участки, покрытые одновременно прочтениями В-хромосом сибирской косули и контигами европейской косули; MGOB — В-хромосомы серого мазамы.

Число обнаруженных нуклеотидных вариантов и соответствующие функциональные классы относительно генома коровы (bosTau7). Число гетерозиготных вариантов указано в скобках. Кодирующие несинонимичные варианты включают замены аминокислот, возникновение и потери стоп-кодонов, сдвиги рамки считывания, а также инсерции-делеции внутри рамки считывания. Общее число вариантов не совпадает с суммой аннотаций из-за перекрывающихся аннотаций и исключения аннотации NMD_target_transcript. Образцы: BTAMix – хромосомы 23, 26, 28 и 29 коровы; CPYB — В-хромосомы сибирской косули (сумма двух библиотек, CPYB1 и CPYB2); CPYB-CCA — варианты В-хромосом сибирской косули, не встречающиеся в контигах европейской косули; MGOB — В-хромосомы серого мазамы.

ВТАМІх CPYB CPYB-CCA MGOB ВсегоМежгенные области 19188 (6374)14829 (4970)4556 (1474)4 (2) 49 (18) 15267 (2915)12187 (2349)3134 (558) 3086 (1929)2476 (1530)605 (392) 46592 (1735) 35292 (1334) Интроны 10102 (320) 5 НТР З НТР 2 (0) 101 (8) Кодирующие синонимичные Кодирующие несинонимичные 46 (8) 44 (15) 17 (3) 26 (10) 1 (1) 12 (9) 113 (2) 103 (12) Таблица 8. Плотность вариантов (п.н. на 1 вариант), рассчитанная как сумма длин покрытых прочтениями последовательностей для целевых районов (Таблица 6), разделенная на число обнаруженных вариантов (Таблица 7). В скобках приведены значения для гетерозиготных вариантов. Образцы: BTAMix – хромосомы 23, 26, 28 и 29 коровы; CPYB — В-хромосомы сибирской косули (сумма двух библиотек, CPYB1 и CPYB2); CPYB-CCA — варианты

Высокопроизводительное секвенирование и анализ В-хромосомных библиотек парнокопытных Capreolus pygargus и Mazama gouazoubira

Общая доля повторенной ДНК ниже всего в аутосомах коровы (42,73%), в полтора раза выше в В-хромосомах мазамы (63,23%) и максимальна в В-хромосомах косули (77,76 и 79,45% в двух технических повторах). Число кластеров, превышающих 1% барьер, выше для добавочных хромосом из-за увеличенной доли повторов и высокого уровня дивергенции. У косули наиболее представленные кластеры содержат в основном неаннотированные повторы, при ближайшем рассмотрении оказавшиеся повторами с низкой сложностью, накопившими большое количество замен. К ним примыкают кластеры, содержащие сателлитную, в том числе и центромерную ДНК. По сравнению с аутосомами коровы процент LINE элементов находится на схожем уровне, а доля SINE элементов резко снижена. У серого мазамы процент неаннотированных повторов заметно повышен относительно коровы, однако полностью неаннотированные кластеры не являются наиболее крупными. Высокое разнообразие LINE и SINE на В-хромосомах мазамы сближает их с аутосомами коровы, но с некоторыми таксон-специфичными особенностями: двукратное обогащение LINE L1, повышение доли SINE BovA и снижение доли SINE RTE-BovB. Особенно выделяется кластер 5, полностью состоящий из эндоретровируса ERVK (Таблица 10). Структура кластера свидетельствует о высокой консервативности последовательности. Мы интерпретируем это как след недавней экспансии, по-видимому, в результате ретровирусной инфекции.

Итак, В-хромосомы косули содержат всего два уникальных геномных района, подвергшихся амплификации и псевдогенизации. Множество замен было накоплено между различными хромосомами и/или между копиями внутри отдельных хромосом. В-хромосомы содержат множество вырожденных повторов низкой сложности и обеднены мобильными элементами. В-хромосомы мазамы, напротив, содержат множество уникальных районов из основного генома. Амплификация и псевдогенизация незначительны. Процент повторенной ДНК несколько повышен, но состав повторов все же похож на аутосомный. Суммируя эти данные, можно предположить, что В-хромосомы мазамы находятся в более ранней эволюционной стадии — они возникли относительно недавно и еще не успели пройти через процессы вырождения последовательностей. В-хромосомы косули вероятно подверглись значительному вырождению: накоплению замен, повторов, амплификации и, в теории, утрате части исходных фрагментов.

Среди косуль В-хромосомы представлены только у сибирского, но не у европейского вида, что предполагалось основным кариотипическим различием между ними [Graphodatsky, Sharshov, Shutov, 1990] (хотя недавно мы обнаружили особь сибирской косули без добавочных хромосом [Trifonov et al., 2013]). По данным митохондриальной филогении расхождение между видами датируется как 2-3 млн лет [Randi, Pierpaoli, Danilkin, 1998; Xiao et al., 2007]. Среди представителей рода Mazama В-хромосомы были описаны у большинства видов [Abril, Duarte, 2008; Duarte, Jorge, 1996; Duarte, Jorge, 2003; Neitzel, 1987]. Наиболее базальная дивергенция внутри рода была датирована как 5 млн лет [Duarte, Gonzlez, Maldonado, 2008], причем в обеих ветвях есть виды с В-хромосомами. Исходя из предположений об общем происхождении В-хромосом в роде Mazama и происхождении В-хромосом сибирской косули после отделения от линии европейской косули, обнаруживается следующее противоречие: В-хромосомы серого мазамы являются более древними, но консервативными, а В-хромосомы сибирской косули — более молодыми и измененными. Таким образом, скорость и пути эволюции В-хромосом могут оказаться крайне различными даже внутри отдельного подсемейства млекопитающих.

В настоящем исследовании был разработан метод биоинформатического анализа данных высокопроизводительного секвенирования библиотек отдельных хромосом позвоночных, включающий поиск уникальных геномных районов и замен в них на основе выравнивания на референсный геном родственного вида, а также кластеризацию и аннотацию повторенных последовательностей непосредственно из прочтений. Подробное рассмотрение его особенностей для случая хромосомного сортинга и амплификации DOP-ПЦР показало эффективность в обнаружении непроцессированных уникальных геномных районов размеров от 10-20 тыс. п.н. Среди ошибок метода преобладают ложноотрицательные результаты — пробелы в покрытии, не соответствующие реальным делециям. Также вероятны (но не обнаружены) краевые ложные делеции, уменьшающие размер наблюдаемых районов. Примечательно, что проверка полученных результатов локализацией ВАС-клонов не выявила ни одного ложноположительного результата (протестировано три района у серого мазамы и по одному району у коровы и сибирской косули). Анализ получаемых замен используется для оценки общих тенденций — степени гетерозиготности, псевдогенизации. Точность обнаруживаемых индивидуальных замен не проверялась, однако они представляют ценный материал для подбора В-специфичных праймеров и других исследований, например, обнаружения транскрипционной активности В-хромосом.

Разрабатываемый набор подходов к анализу отдельных хромосом может быть использован не только в исследованиях В-хромосом, но и в ряде других областей исследования хромосом. Так, полученные данные по транслокации KIT у коровы показывают эффективность разработанного подхода для описания межхромосомных перестроек (микрохромосомы, сбалансированные транслокации, межхромосомные дупликации, а также протяженные делеции), возникающих на популяционном уровне или при канцерогенезе. Отдельное направление — использование в геномных проектах для быстрого и дешевого разделения скэффолдных сборок по хромосомам.

В-хромосомы двух видов парнокопытных оказались резко различающимися несмотря на схожие цитогенетические параметры (гетерохроматиновые, самые мелкие элементы кариотипа): у сибирской косули (Capreolus pygargus) обнаружено лишь два уникальных района общим размером 2 млн п.н. со следами амплификации и псевдогенизации; в то время как у серого мазамы (Mazama gouazoubira) таких районов было 26 (общий размер 9 млн п.н.), а псевдогенизации или амплификации не было отмечено. Очевидно, эти два вида демонстрируют неоднородность в процессах формирования и развития добавочных элементов. В то же время, отмечается общность в составе В-хромосом серого мазамы и хищных: в обоих случаях были обнаружены протоонкогены KIT и RET, вероятно являющиеся горячими точками перестроек (примеры существуют в популяциях коров и в канцерогенезе человека, соответственно).