Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Методы циклического выравнивания и разложения шума для поиска скрытой периодичности в белковых семействах Ласкин Андрей Александрович

Методы циклического выравнивания и разложения шума для поиска скрытой периодичности в белковых семействах
<
Методы циклического выравнивания и разложения шума для поиска скрытой периодичности в белковых семействах Методы циклического выравнивания и разложения шума для поиска скрытой периодичности в белковых семействах Методы циклического выравнивания и разложения шума для поиска скрытой периодичности в белковых семействах Методы циклического выравнивания и разложения шума для поиска скрытой периодичности в белковых семействах Методы циклического выравнивания и разложения шума для поиска скрытой периодичности в белковых семействах Методы циклического выравнивания и разложения шума для поиска скрытой периодичности в белковых семействах Методы циклического выравнивания и разложения шума для поиска скрытой периодичности в белковых семействах Методы циклического выравнивания и разложения шума для поиска скрытой периодичности в белковых семействах Методы циклического выравнивания и разложения шума для поиска скрытой периодичности в белковых семействах
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Ласкин Андрей Александрович. Методы циклического выравнивания и разложения шума для поиска скрытой периодичности в белковых семействах : диссертация ... кандидата физико-математических наук : 05.13.18.- Москва, 2005.- 157 с.: ил. РГБ ОД, 61 05-1/1224

Содержание к диссертации

Введение

Глава 1. Обзор литературы 8

1.1. Математические методы изучения символьных последовательностей 8

Сравнение символьных последовательностей методами динамического программирования. Алгоритмы, используемые программами Blast, Fasta, PSI-Blast 8

Применение методов динамического программирования для поиска периодичностей в символьных последовательностях 16

Методы преобразования Фурье, применяемые для изучения периодичности символьных последовательностей 20

Применение скрытых марковских моделей для поиска периодичностей символьных последовательностей 24

Колмогоровская сложность символьных последовательностей 27

Расширенное подобие символьных последовательностей 28

1.2. Принципы организации белковых последовательностей 30

Первичная и вторичная структуры белковых последовательностей.

Связь между первичной и вторичной структурой 31

Белковая глобула и алгоритмы для предсказания ее конформации 34

Вазы данных белковых последовательностей, мотивов и пространственных структур 39

1.3. Основы эволюции аминокислотных последовательностей 43

Глава 2. Постановка задачи 49

Глава 3. Математические методы и алгоритмы 53

3.1. Информационное разложение символьных последовательностей... 53

3.2. Циклическое выравнивание символьных последовательностей 58

Циклическое выравнивание 58

Профили и циклические профили 58

Циклическое профильное выравнивание 59

Поиск скрытой периодичности с помощью циклического профильного выравнивания 59

Теорема об основном свойстве циклического выравнивания 62

Оптимизированные алгоритмы для поиска циклического выравнивания. 63

3.3. Статистика выравниваний 67

3.4. Итеративное сканирование и разложение шума 71

Глава 4. Результаты 83

4.1. База данных аминокислотных последовательностей со скрытой периодичностью. Программный комплекс для итеративного профильного анализа 83

4.2. Скрытая периодичность ЫАО(+)-связывающих доменов 93

4.3. Скрытая периодичность активных центров протеинкиназ 102

4.4. Скрытая периодичность белков различного функционального назначения 109

Глава 5. Обсуждение результатов 123

5.1. Сравнение результатов, полученных примененными в настоящей работе методами, с результатами, полученными методами поиска по гомологии и преобразования Фурье 123

5.2. Связь скрытой периодичности с пространственной структурой белков 129

5.3. Возможное эволюционное значение периодического строения аминокислотных последовательностей. 133

Приложение.

Таблицы, не вошедшие в основной текст 135

Список использованных источников

Введение к работе

С началом нового тысячелетия основные надежды человечества на научный прогресс связаны с молекулярной биологией. От представителей данной науки небезосновательно ждут достижения таких значительных результатов, как клонирование организмов, направленное создание лекарств от наследственных и иных заболеваний, создание искусственных организмов, обладающих требуемыми свойствами, и продление человеческой жизни. Недавно были получены важные промежуточные результаты на этом пути -расшифрованы генетические последовательности человека (Venter et al., 2001), а также многих модельных организмов (Adams et al., 2000; Blattner et al., 1997; Mewes et al., 1997), ведутся дальнейшие работы в этой области.

Специфика биологического знания такова, что здесь мы имеем дело с огромными (и все возрастающими) объемами информации; поэтому ее развитие было в значительной мере подстегнуто развитием компьютерной техники, способной вместить и обработать такие объемы, а также компьютерных сетей, благодаря которым появилась возможность оперативного доступа к ней из любой точки. Разнообразие биологической информации привело к тому, что количество одних только бесплатно доступных через Интернет баз данных достигло 548 и продолжает расти (Galperin, 2004). При этом обьем одного только банка нуклеотидных последовательностей Genbank составляет 37.9 миллиарда нуклеотидов в 32.5 миллионах последовательностей, и это число продолжает расти, удваиваясь при этом в среднем каждые 15 месяцев (Benson et al., 2003).

Однако применение вычислительных систем в молекулярной биологии не ограничивается лишь накоплением экспериментально полученной информации и обеспечением доступа к ней. Большое значение имеет также развитие и применение математических методов и алгоритмов, направленных на извлечение биологически значимой информации из имеющихся генетических последовательностей и других элементов данных. Какая же информация может быть извлечена из символьной последовательности с помощью разработанных к настоящему времени математических подходов? Ответ на этот вопрос определяет возможность получения биологически значимой информации из генетических текстов, понимание процессов эволюции генов и эволюционных перестроек геномов, а также создание динамической модели клеточной регуляции и искусственных белков с заранее заданными свойствами.

Одним из способов изучения организации символьной последовательности является исследование ее периодичности. Изучение периодичности символьной последовательности может иметь вполне очевидный биологический смысл, так как множественные тандемные дупликации фрагментов ДНК с последующими заменами оснований, а также вставками и делециями символов могли бы служить основой для эволюции генов и геномов. Обнаружение периодичности в активных центрах ферментов могло бы показывать, что в прошлом гены, кодирующие эти белки, могли бы быть созданы простым повторением сравнительно коротких фрагментов ДНК. Мы также можем предполагать, что такая периодическая структура аминокислотных последовательностей активных сайтов белков может иметь значение для стабилизации конформации белковой глобулы.

Для обнаружения повторов и периодичностей разработаны и обычно используются математические методы, основанные на динамическом программировании или преобразовании Фурье. В данной диссертационной работе для этих целей развивается собственный математический подход к поиску периодичности, который основан на Информационном Разложении (ИР) символьных последовательностей. Основная идея этого подхода заключается в том, что информационное содержание любой символьной последовательности может быть разложено на взаимно непересекающиеся составные части. Каждая из этих частей представляет собой взаимную информацию между исследуемой символьной последовательностью и искусственной периодической последовательностью с определенной длиной периода. Зависимость взаимной информации от длины периода может быть представлена в виде графика, который является информационным аналогом автокорреляционной функции, но имеет свои особые свойства. Информационное разложение позволяет обойти некоторые ограничения, которые свойственны динамическому программированию и преобразованию Фурье, и позволяет обнаружить так называемую скрытую периодичность, т.е. периодичность, которую другие развитые в настоящее время математические методы обнаружить не могут.

Однако, подобно преобразованию Фурье, метод информационного разложения в его настоящем виде не способен найти статистически значимую скрытую периодичность в присутствии множественных вставок и делеций символов. Это может привести к тому, что значительная часть скрытой периодичности, которую можно было бы найти в аминокислотных и нуклеотидных последовательностях, остается в настоящее время незамеченной, как методом информационного разложения, так и всеми другими применяемыми алгоритмами и подходами. В этом случае простейшим способом выявления скрытой периодичности со вставками и делециями символов является комбинация информационного разложения и модифицированного профильного анализа. В такой комбинации метод информационного разложения может служить для изначального обнаружения скрытой периодичности и для построения матрицы скрытой периодичности, из которой может быть получена матрица весов аминокислот в каждой позиции периода. После этого модифицированный профильный анализ позволяет выявить скрытую периодичность согласно этой матрице весов во множестве последовательностей из банка данных, такого как Swiss-Prot, но уже в присутствии вставок и делеций. Эти результаты применения модифицированного профильного анализа в свою очередь могут быть использованы для переопределения исходной весовой матрицы с целью улучшения чувствительности и специфичности поиска скрытой периодичности.

Первой целью настоящей диссертационной работы было развитие математических методов Разложения Шума и Циклического Выравнивания, У многих белков из известных белковых семейств тандемная периодичность нарушается присутствием вставок и делеций символов, так что только циклическое выравнивание дает возможность выявить скрытую периодичность в присутствии довольно значительного числа вставок и делеций символов. Методы Разложения Шума и Циклического Выравнивания позволяют также сделать различие между различными видами скрытой периодичности с одной и той же длиной периода. В данной диссертационной работе продемонстрировано, что применяемые алгоритмы способны различить даже столь близкие виды скрытой периодичности как те, что были обнаружены у серин-треониновых и тирозиновых протеинкиназ.

Вторая цель настоящей диссертационной работы состоит в том, чтобы показать, что скрытая периодичность различной длины и различного вида (задаваемого матрицей периодичности) присутствует во множестве белковых семейств. Для этого мы применили методы Информационного Разложения и Циклического Выравнивания к ряду белковых семейств, аннотированных в Swiss-Prot. В диссертационной работе приведено обсуждение этих результатов и выдвинуто предположение, что скрытая периодичность может отражать происхождение белков посредством множественных тандемных дупликаций в ходе эволюционного процесса.

Применение методов динамического программирования для поиска периодичностей в символьных последовательностях

Кроме нахождения гомологии между различными белками, методы, основанные на динамическом программировании, могут выявлять также и внутренние гомологии в белковой последовательности. Когда в последовательности какого-либо белка две или более части подобны между собой, мы говорим о том, что в данном белке имеются повторы. Если же белок или некоторая его часть оказываются состоящими из повторов, в таком случае можно говорить о периодическом устройстве данного белка.

В одной из работ по поиску повторов и периодичностей (Heringa and Argos, 1993) метод динамического программирования применяется как отдельный этап общего алгоритма.

Авторы разработали компьютерную программу REPRO, которая ищет повторы в белках. Алгоритм, заложенный в программу, состоит из 3 этапов. На первом этапе осуществляется предварительный анализ последовательности на наличие подобных участков. Последовательность сравнивается сама с собой, используя метод динамического программирования (Waterman and Eggert, 1987) для получения локальных выравниваний (затравок) совместимых непересекающихся фрагментов. Цель построения локального выравнивания — установление районов с высокой степенью внутренней гомологии.

Считается, что N-терминальные концы найденных районов соответствуют первым символам повторов. Здесь возникает проблема, которая заключается в следующем. В случае тандемных повторов или повторов с короткими вставками, может оказаться, что одно локальное выравнивание содержит несколько повторяющихся фрагментов. И необходимо определить стартовые позиции этих внутренних повторов. Осуществляется эта процедура на втором шаге алгоритма. Сначала последовательности локальных выравниваний записываются друг под другом в соответствии с координатами их N-терминальных символов. Далее строится граф, множество вершин которого представлено множеством стартовых сайтов повторяющихся последовательностей. Грани графа отражают смежность между найденными локальными выравниваниями. После построения первоначального графа применяется кластерная процедура, позволяющая графу увеличивать число вершин за счет введения новых предполагаемых повторов и соответствующих им стартовых позиций.

Разработанный метод был применен для анализа многих белков из банка данных SW1SS-PROT. В результате была обнаружена периодичность в таких последовательностях, как транскрипционный фактор TFIIIA, большой секреторный белок, у-кристаллин, аполипопротеин A-I и других.

Подобный подход был далее развит в работе (Heger and Holm, 2000), в которой был разработан автоматический алгоритм RADAR для сегментирования исследуемой последовательности на повторы. Процедура сегментации состоит из трех шагов. На первом из них так же проводится выравнивание последовательности с самой собой и определяется длина имеющихся повторов. Затем границы повторов оптимизируются с тем, чтобы получить максимальное число повторов. Из найденных повторов составляется множественное выравнивание и таким образом определяется профиль повтора. С помощью этого профиля, путем профильного анализа, в этой же последовательности находятся более размытые повторы того же типа. Затем найденные повторы маскируются и делается попытка найти в оставшейся последовательности повторы других типов. Этот способ позволяет находить короткие повторы с измененным аминокислотным составом и с делециями, а также комплексные структуры повторов с участием множества разных их типов. При этом не требуется вмешательства пользователя или изначальных предположений о длине и количестве повторов. Сравнение профилей повторов с имеющимися в базе Pfam-A свидетельствует о хорошем покрытии, правильном выравнивании и обоснованных границах находимых программой повторов. Проведенный авторами поиск в базе данных Swiss-Prot обнаружил там около 3000 не аннотированных повторов. Некоторые из них были описаны в литературе, но большинство известны не были. На данный момент описанный метод, видимо, следует считать самым мощным методом поиска повторов из использующих лишь поиск по гомологии. RADAR доступен в виде Интернет-версии по адресу : http://www.ebi.ac.uk/Radar/

В еще одной работе (Coward and Drablos, 1998) периодичность ищется путем нарезания исследуемой последовательности на последовательные фрагменты равной длины и составлении из них множественного выравнивания. Вместо веса выравнивания в данном случае определяется «расстояние до периодичности», равное сумме расстояний между всеми подпоследовательностями, входящими во множественное выравнивание; они, в свою очередь, определяются с помощью матрицы расстояний между аминокислотами. Затем фрагменты последовательности подвергаются циклическим сдвигам, нацеленным на то, чтобы минимизировать расстояние до периодичности. Процедура сдвигов — итеративная, и она прекращается, когда никаким из сдвигов нельзя уже более уменьшить расстояние до периодичности. Как утверждают авторы, при этом достигается оптимальное или близкое к таковому выравнивание фрагментов, хотя доказать это невозможно.

В качестве меры периодичности в данной работе используется количество совпадений фаз циклического сдвига фрагментов. Также определяется идеально-периодическая последовательность, наиболее близкая в указанном смысле к исследуемой; она может рассматриваться как возможный первоисточник наблюдаемой периодичности. Авторы, к сожалению, не уточняют, были ли с помощью их метода открыты новые случаи периодичности, пропускаемые предыдущими методами.

Вазы данных белковых последовательностей, мотивов и пространственных структур

Специфика биологической информации в отличие, например, от математической или физической заключается в ее огромных объемах и слабой структурированности. Положение осложняется еще и тем, что каждая единица представляет собой отдельный факт, как правило, полученный экспериментально, который не может быть обоснован никаким другим фактом или выведен каким-либо логическим путем (например, невозможно логически доказать утверждение «тигры живут в Восточной Азии» или «у человека 23 пары хромосом»; также трехмерная структура какого-либо белка на данный момент не может быть точно определена по его последовательности или функции). Поэтому системы хранения и систематизации данных и доступа к ним имеют огромную роль в развитии биологической науки. Рассмотрим некоторые из них, в том числе те, которые использовались при выполнении данной диссертационной работы.

Swiss-Prot (Junker et al., 1999; Boeckmann et al., 2003; Bairoch et al., 2004) — это база знаний о белках, основанная в 1986 году и поддерживаемая совместными усилиями Швейцарского и Европейского институтов биоинформатики. Она состоит из описаний отдельных белков, которые, в свою очередь, состоят из полей различного типа. Она отличается от других известных баз данных белковых последовательностей в нескольких моментах: - аннотация каждого белка непрерывно пополняется по мере того, как становится известной новая информация об этом белке, а также за счет собственных исследований организаций, участвующих в проекте; - минимизация избыточной информации: определенный белок определенного организма всегда присутствует в виде одной записи; если разные исследования этого белка привели к разной информации о нем, это указывается в соответствующих полях записей; - интеграция с другими базами данных: указывается любая информация из цитируемых баз данных (на данный момент их около 60), имеющая отношение к данному белку.

На момент написания данного текста в этом банке имелась информация о 156998 белках. Повторы были размечены в 4877 белках (3,1%). Только у 6491 белков в данный момент функциональность подтверждена экспериментально (Ursing et al., 2002); таким образом, большинство белков аннотировано с помощью вычислительных методов. База данных доступна по адресу: http://us.expasy.org/sprot/.

PROSITE (Sigrist et al, 2002; Hulo et al., 2004) - база данных по белковым семействам и доменам. Она содержит информацию о семействах и доменах в виде сигнатур, то есть специфических подпоследовательностей аминокислотных остатков (например, последовательность [DN]-[LIV]-Y-x(3)-Y-Y-R говорит о принадлежности белка к классу рецепторов тирозиновых киназ класса 2) или профилей, то есть позиционно-весовых матриц, обсуждавшихся ранее. Каждая сигнатура или профиль в базе данных снабжены описаниями структуры и (или) функции соответствующего ему семейства или домена. Отличительной особенностью этой базы данных является то, что все представленные в ней паттерны получены в результате оригинальных работ, ссылки на которые имеются в описании паттерна. Эта база данных доступна по адресу http://us.expasy.org/prosite/.

В противоположность PROSITE, база ProDom (Corpet et al., 2000) содержит белковые семейства, полученные в ходе автоматического анализа всех имеющихся данных по белкам. По утверждению авторов, она может быть использована для анализа расположения доменов в комплексных белковых семействах и помогает анализировать гомологические соотношения в модельных белках. В результате автоматического анализа авторами было получено 501917 характерных паттернов (в PROSITE -только 1736), однако значение большинства из них неизвестно (приведены лишь ключевые слова, наиболее часто встречающиеся в описаниях членов семейств). Таким образом, данная база данных может служить ориентиром для исследователя, занимающегося определенным белковым семейством, о возможных характерных участках последовательностей из этого семейства. Эта база доступна по адресу http://www.toulouse.inra.fr/prodom.html.

Pfam (Bateman et al., 2004) представляет собой коллекцию множественных выравниваний последовательностей и скрытых марковских моделей. Примерно у 74% белков Pfam находит хотя бы один домен. Эта база также может быть использована для изучения доменной организации белков. Интернет-интерфейс базы предоставляет пользователю значительно большие возможности по сравнению с загружаемой версией базы в части графического представления результатов анализа. Pfam состоит из двух частей: Pfam-А, содержит 7459 хорошо аннотированных профилей семейств и доменов со множеством ссылок на другие базы данных; Pfam-B представляет собой, подобно ProDom, автоматически полученные мотивы. Доступ к интерфейсу Pfam можно получить по адресу httD://www.sanger.ac.uk/Software/Pfam/.

База данных HSSP (Sander and Schneider, 1991) представляет собой базу данных по белкам, пространственная структура которых не определена экспериментально, но гомология которых с белками известной структуры такова, что эти белки служат приемлемыми образцами их трехмерной структуры. Авторами были проведены исследования о пороговых значениях гомологии для установления достоверного структурного сходства в зависимости от длины выравнивания и разработан метод выравнивания белков известной структуры с белками неизвестной с учетом структурных особенностей первых. В результате число белков с практически известной структурой в Swiss-Prot составило 66171, при том что непосредственно пространственная структура определена лишь у 6615 белков из Swiss-Prot. Белок, находящийся в базе HSSP, имеет значительно более высокие шансы на достоверное моделирование его трехмерной структуры описанными выше методами. База доступна по адресу http://www.sander.ebi.ac.uk/hssp/.

PDB (Berman et al., 2000) представляет собой депозитарий данных о трехмерных структурах белков, а также комплексов белков с коферментами и другими лигандами, а также нуклеиновых кислот. Одному и тому же белку в этой базе может соответствовать несколько записей, в соответствии с дополнительными условиями. Каждая запись содержит координаты всех атомов в белке, которые удалось определить; многие записи содержат также и информацию о вторичной структуре белка. Для отображения информации, содержащейся в файлах PDB, написано несколько программ визуализации, многие из которых доступны на том же сайте. К недостаткам этого банка можно отнести плохую структурированность и ограниченные возможности поиска. В настоящий момент в банке содержится 26811 структур; банк доступен по адресу http://www.rcsb.org/pdb/.

Поиск скрытой периодичности с помощью циклического профильного выравнивания

В общем виде задача поиска характерной периодичности в белках может быть решена путем определения статистически значимых участков, обладающих периодичностью в соответствии с заданной позиционно-весовой матрицей, описывающей распределение частот встречаемости аминокислот в каждом сайте периода, и последующим поиском оптимального вида такой матрицы, для которого число найденных случаев периодичности было бы максимальным при сохранении точности идентификации интересующих нас участков.

Назовем профилем последовательность элементов вида At ... А;.[ А; Аі+Ї „., в которой элемент Aj является вектором веса і-той позиции профиля в пространстве алфавита реальных нуклеотидных (1 к 4) либо аминокислотных (1 к 20) последовательностей Ai = {wik}. Где wik — вес символа к-го типа в і-той позиции профиля. Далее будем придерживаться термина «символ» для обозначения элемента реальной последовательности и «псевдосимвол» для обозначения элемента профиля. Циклическим профилем мы назовем последовательность вида A[A2...ALAIA2...A[AJA2..., которая может быть бесконечно продолжена в обе стороны, то есть не иметь выделенного первого элемента. При этом нумерация позиций периода 1, 2,..., L, где L - длина периода, становится, вообще говоря, условной.

Теперь, по аналогии с обычным (линейным) выравниванием последовательностей, введем понятие циклического профильного выравнивания как некоторого попарного соответствия последовательно идущих псевдосимволов и символов реальной последовательности, а также, возможно, пропусков элементов, которые допустимы как в циклическом профиле, так и в реальной последовательности.

Поиск скрытой периодичности с помощью циклического профильного выравнивания В данной работе под скрытой периодичностью будем понимать статистически значимое выравнивание реальной последовательности с циклическим профилем (то есть состоящей из последовательных повторений некоторого конечного профиля). В этом случае для выравнивания последовательности с циклическим профилем требовалось бы бесконечное число операций, однако, как будет показано ниже, для практически любого разумного выбора величины штрафов за делеции его можно эффективно сократить до величины, пропорциональной произведению длины периода на длину последовательности.

Последовательность совпадений, вставок и делеций в таком выравнивании назовем путем циклического выравнивания. Однако, если для линейного выравнивания путь определяется как ломаная линия, соединяющая узлы решетки на двумерной плоскости (рис, ЗЛА), то путь циклического выравнивания естественно представить соединяющим узлы цилиндрической решетки (рис. ЗЛВ)

Схемы обычного (А) и циклического (В) выравниваний. Путь обычного выравнивания проходит по двумерной плоскости, циклического - по поверхности цилиндра. Элементы S - матрицы расположены в узлах решетки, изображенной штрихами. Для случая «б» координата реальной последовательности располагается вдоль направляющей, а циклического профиля - вдоль сечения цилиндра.

В то время как двумерная плоскость имеет размерность R х R1, поверхность цилиндра с точки зрения топологии имеет размерность R1 х S1. Это ведет к различиям в методах вычислений в циклическом координатном пространстве. В частности, целочисленная циклическая координата і может принимать лишь значения из интервала [0; L-1] (либо [1; L] — это несущественно), а все вычисления по ней производятся по модулю L, то есть (L-1) + 1 = 0 и 1 - 3 = L-2, поскольку L (mod L) = 0 и -2 (mod L) = L-2.

Сопоставим теперь каждой паре (Aj, bj) в выравнивании вес Wy. Под wy будем понимать одну из координат вектора Aj={wj,k}, причем wy = w , в случае когда bj является символом k-го типа алфавита последовательности B={bj}, стоящим в j-той позиции. Введем также цену вставки/дел еци и п подряд идущих символов, которая, вообще говоря, может зависеть от вида удаляемых символов или порядковых номеров удаляемых позиций, однако чаще всего ее считают зависящей только от их количества и обозначают dn (dn 0 для любых п). Суммируя по позициям выравнивания значения весов и цен дел еци й, мы получим суммарный вес данного выравнивания, например, для случая (3.6).

Так как реальная последовательность конечна, то ряд (3.7) тоже конечен. Его сумма W представляет собой меру сходства последовательности и профиля в данном выравнивании. Поскольку возможных видов выравниваний, т.е. способов размещения вида (3.6), очевидно, конечное число, то среди них всегда найдется (возможно, не единственное) оптимальное, то есть обладающее наивысшим значением W. Чем больше суммарный вес выравнивания, тем выше его статистическая значимость.

Для оценки значимости каждого выравнивания в данной работе проводилось аналогичное выравнивание случайных последовательностей того же символьного состава, что и реальная последовательность, с тем же профилем. Экстраполируя затем распределение полученных весов выравнивания, можно оценить вероятность получения того же (или большего) значения веса, какой наблюдался при выравнивании реальной последовательности. Методы экстраполяции будут подробно описаны ниже в разделе «Статистика выравниваний».

Профили для проведения циклического выравнивания могут быть получены, например, из результатов работы упомянутых выше методов анализа последовательностей на наличие повторов (Korotkov et al., 1999; Korotkova et al., 1999) или взяты из имеющихся банков данных (PROSITE, PFam). Методы, использованные нами для получения профилей в данном исследовании, будут описаны ниже в 3.3. Теорема об основном свойстве циклического выравнивания

Сформулируем алгоритм оптимального выравнивания циклического профиля и реальной последовательности- Для этого, подобно тому, как это делалось в алгоритмах динамического программирования Нидльмана-Вунша (Needleman and Wunsch, 1970) и Смита-Ватермана (Smith and Waterman, 1981), будем заполнять матрицу сходства- Отличие заключается в том, что теперь матрица сходства определяется на узлах цилиндрической решетки (см. рис. 1В) и один из ее индексов является циклическим.

Обозначим Sy вес выравнивания первых элементов профиля А и последовательности В, то есть когда последними выравниваются псевдосимвол Aj и символ bj. В случае существования оптимального циклического выравнивания Теорема 1 устанавливает соотношение между элементами матрицы сходства S.

Скрытая периодичность ЫАО(+)-связывающих доменов

Пространственная структура динуклеотид-связывающих доменов у различных белков в настоящее время достаточно хорошо изучена экспериментально (Rao and Rossman, 1973; Rossman et al., 1974). Этот район имеет, как правило, 4 а-спирали и 6 р-слоев, однако, как было подчеркнуто ранее (Rossman et al., 1974), в разных конкретных случаях число а-спиралей и р-слоев может изменяться. В последнее время методами рентгеновской кристаллографии и ядерного магнитного резонанса находится все больше вторичных и пространственных структур таких сайтов, большинство из которых является вариациями так называемой укладки Росс мана, представляющей собой комбинацию чередующихся а-спиралей и р-слоев, с характерной 3D структурой, в которой Р-слои расположены параллельно друг другу. Известные структуры данного типа представлены в банке SCOP (Brenner et al., 1995). Такая конфигурация имеет очень большую стабильность и обеспечивает избирательное взаимодействие с кофактором (NAD, NAD+ или NADP, в зависимости от конкретного белка) (Lesk, 1995; Bellamacina, 1996; Baker et al., 1992: Kutzenko et al, 1998). Но, несмотря на сильное сходство вторичной структуры NAD-связывающих сайтов различных белков, их аминокислотные последовательности не проявляют значимой гомологии. Как правило, значительная гомология последовательностей имеется только в пределах какого-либо семейства белков, которая и позволяет идентифицировать новые аминокислотные последовательности и устанавливать в них положение NAD-связывающего сайта (Fjellstorm et al., 1995). Гомология между семействами белков выражена гораздо слабее, что затрудняет идентификацию связывающего сайта. Универсальными можно, видимо, считать только известный паттерн G-X-G-X-X-G/A, и еще несколько аминокислотных остатков в его окружении (Bellamacina, 1996; Wierenga et al., 1986). Вместе с тем известно, что NAD-связывающие сайты белков имеют характерную длину порядка 100-150 аминокислотных остатков (Rossman et al., 1974; Kutzenko et al., 1998). Очевидно, что аминокислотная последовательность этого района должна содержать некоторые дополнительные признаки, которые обеспечивают его довольно жесткую пространственную структуру (рис. 4.3)

Ранее (Korotkov et al., 1999; Korotkova et al., 1999) скрытая периодичность была обнаружена в белке DLDHAZOVI, который содержит NAD-связывающий сайт, причем найденный период был равен 19 аминокислотным остаткам. Тогда же был проведен анализ вторичной структуры этого белка и оказалось, что участок последовательности с выраженной периодичностью приходится на NAD-связывающий домен, а период длиной 19 наблюдается также и во вторичной структуре и примерно соответствует одной а-спирали и одному (3-слою. Интересным оказался факт, что подобная периодичность наблюдалась во многих других белках, содержащих NAD-связывающий сайт. На наличие периодичности с длиной периода 19, аналогичной периодичности в последовательности DLDH_AZOVI, были протестированы последовательности из банка данных Swiss-Prot, содержащие NAD-связывающий сайт. Выяснилось, что более 1000 белков имеют сходный тип периодичности. Большинство областей, содержащих периодичность, приходилось на NAD+, АТР и GTP-связывающие сайты. Однако примененный в то время метод поиска сходных периодичностей не был основан на циклическом выравнивании, и поэтому не позволял узнать наилучшее значение длины периода.

Мы применили указанный комплекс для анализа банка Swiss-Prot. Из банка были предварительно выделено множество белков, взаимодействующих с NAD или его аналогами, по ключевым словам, а также те, для которых было определено положение внутри белка NAD-связывающего сайта (сайтов). Эти банки использовались для оптимизации лозиционно-весовых матриц. В качестве «затравки» была взята матрица выравнивания ранее найденного 11,12 белка DLDHAZOVI (accession PI 8925), имеющего скрытую периодичность с периодом 19. Была проведена оптимизация этой матрицы, в результате чего точность определения положения NAD-связывающего домена для белков из банка, где эти положения были известны, превысила 90%. Однако, при исследовании этой периодичности описанным в 4.1 методом выяснилось, что среднее значение длины периода существенно больше 19.

Затем был опробован несколько иной подход. Из банка белков, взаимодействующих с NAD, были выделены те, для которых охарактеризованы вторичные структуры в банке белковых структур PDB. Эти вторичные структуры были выделены и был проведен их анализ на наличие скрытой периодичности методами, использовавшимися ранее (Korotkov et al., 1999; Korotkova et al., 1999). В ходе анализа оказалось, что большинство этих белков имеют скрытую периодичность во вторичной структуре на значимом уровне (Z-5...6), причем значения длин периодов, для которых наблюдались пиковые уровни Z, были близки к числам 24, 36, 48, из чего можно сделать вывод, что если периоличность в NAD-связывающих белках связана с особенностями их вторичной структуры, то наиболее вероятные значения длин периода должны лежать в этом ряду. Исходя из характерных размеров структур в NAD-связывающих сайтах, был выбран размер периода 24, т. к. именно этот размер примерно соответствует одной а-спирали и элементу р-листа в укладке Россмана.

Для оптимизации периодического профиля было создано обучающее множество последовательностей, состоящее из вышеупомянутых белков, имеющих укладку Россмана и обладающих значимой скрытой периодичностью, а также белков без расшифрованной пространственной структуры, однако имеющих с ними высокую степень гомологии, позволяющую утверждать об идентичности их структур (для их отбора использовалась база данных HSSP (Sander and Schneider, 1991)). После оптимизации профиля мы смогли обнаружить скрытую периодичность у примерно 60% данного множества, состоящего из 1226 белков. Точность определения положения NAD-связывающего домена для белков, у которых эти положения были известны, превысила 97%.

Сведения о семействах, имеющих укладку Россмана либо близкую к ней. Указаны характерные для данных семейств профили. Семейства 1-Ю имеют укладку Россмана; семейства 11-15 отличаются от нее взаимной ориентацией кофермента и связывающего домена.

Каждое из этих подмножеств было независимо использовано для оптимизации полученного ранее профиля. Характеристика вторичной структуры профиля, соответствующего NAD-свяэывающему сайту. Для каждой позиции периода показаны вероятности нахождения в определенной кон формации вторичной структуры (согласно данным банка PDB).

Итогом нашей работы являются 15 независимых классов скрытой периодичности (заданных позиционно-весовыми матрицами), которые все вместе определяют циклическую структуру NAD-связывающих сайтов, имеющих укладку Россмана, и также структурно близких к ней. Взаимосвязь этих классов иллюстрирует рисунок 4.6. Он представляет собой классификационное дерево, построенное на основе матрицы расстояний между матрицами выравнивания, полученных д

Похожие диссертации на Методы циклического выравнивания и разложения шума для поиска скрытой периодичности в белковых семействах