Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Разработка алгоритмов и программного обеспечения для исследования информационного содержания генетических последовательностей Назипова Нафиса Наиловна

Разработка алгоритмов и программного обеспечения для исследования информационного содержания генетических последовательностей
<
Разработка алгоритмов и программного обеспечения для исследования информационного содержания генетических последовательностей Разработка алгоритмов и программного обеспечения для исследования информационного содержания генетических последовательностей Разработка алгоритмов и программного обеспечения для исследования информационного содержания генетических последовательностей Разработка алгоритмов и программного обеспечения для исследования информационного содержания генетических последовательностей Разработка алгоритмов и программного обеспечения для исследования информационного содержания генетических последовательностей
>

Данный автореферат диссертации должен поступить в библиотеки в ближайшее время
Уведомить о поступлении

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - 240 руб., доставка 1-3 часа, с 10-19 (Московское время), кроме воскресенья

Назипова Нафиса Наиловна. Разработка алгоритмов и программного обеспечения для исследования информационного содержания генетических последовательностей : диссертация ... кандидата физико-математических наук : 05.13.18.- Пущино, 2001.- 102 с.: ил. РГБ ОД, 61 02-1/589-X

Содержание к диссертации

Введение

Глава 1. Анализ современного состояния математического и программного обеспечения информационного анализа биологических последовательностей 12

1.1. Статистический анализ и предсказание сайтов связывания рибосом 13

1.2. Исследование сложности генетических текстов 17

1.3. Нахождение повторяющихся участков в последовательностях 24

1.3.1. Статистическая значимость повторов 26

Глава 2. Реализация пакета прикладных программ для исследования структурной организации последовательностей 32

2.1. Интерфейс пользователя и типы входных данных 36

2.2. Сервисные программы 37

2.2.1. Программа BNKFREQ - формирование по базе данных выборки участков 39

2.2.2. Программа BNKFR2 - формирование по базе данных выборок участков 43

2.2.3. Программа RANDSEQ - генерирование псевдослучайной последовательности 44

2.2.4. Программа TAKESEQ - подготовка заданного фрагмента последовательности 48

2.3. Специальные программы для исследования серий последовательностей 48

2.3.1. Программа G2 - вычисление информационного содержания выборки 49

2.3.2. Программа ABACK- выравнивание выборки участков 50

2.3.3. Программы SHHIST, SHHIST2-расчет статистик 52

2.3.4. Программы EXCELF1, EXCELF2, EXCELF3 - расчет данных для электронных таблиц 53

2.3.5. Программы TEST1, TEST2, TEST3 - - расчет активности участков выборки 54

2.3.6. Программы ERHIST, ERHIST - расчет характеристик распределения значений функции, полученных на выборке 55

2.3.7. Программа STAT - оценка качества расчета активностей выборок 57

2.4. Программы обработки 57

2.4,1. Высоко- и низкочастотная компоненты графа-программного разложения 58

2.4.2. Программа SHENON - расчет информационной избыточности текста 59

2.4.3. Программа LZW- алгоритмическая сложность текста 60

2.4.4. Программа MOTIFS - поиск неточных повторов 61

2.4.5. Программа ZGRAMM - построение словаря последовательности 66

Глава 3. Методика распознавания функциональных блоков на полных геномах 67

3.1. Поиск общего сигнала в сериях участков биологических последовательностей 68

3.2. Равновесное состояние графа программного разложения 70

3.3. Выбор параметров скользящего окна и длины программ 72

3.4. Какие особенности генетических последовательностей определяет новая информационная мера 74

Заключение 77

Библиография 81

Приложение 1 89

Приложение 2 92

Приложение 3 96

Приложение 4 97

Приложение 5 100

Исследование сложности генетических текстов

В настоящее время очень актуальной является задача анализа новых генетических последовательностей с целью определения их синтаксиса -основных лексических компонент (кодирующих и некодирующих белки участков; фрагментов, которые регулируют различные биохимические процессы; неслучайных прямых и инвертированных повторов, периодичностей и т.п), знаков пунктуации между ними - и семантики (определение функций и роли отдельных синтаксических единиц).

Знаки пунктуации - это фрагменты, отвечающие за регуляцию основных генетических процессов. Подобно знакам пунктуации в естественных языках они осуществляют иерархическое структурирование генетических текстов. Но, если в естественных языках знаки пунктуации - это специально выделенные (а потому легко опознаваемые) элементы алфавита, то в генетических текстах - это фрагменты (длиной до нескольких десятков символов), составленные из тех же элементов, что и весь текст. Более того, знаки каждого типа сильно варьируют, что усложняет задачу их обнаружения [44].

При постановке задачи синтаксического анализа генетических последовательностей мы абстрагируемся от их природы и рассматриваем первичные структуры биополимеров как обычные символьные последовательности. В самом грубом приближении генетический текст изначально представлялся как последовательность результатов независимых испытаний, где число исходов каждого испытания определяется длиной алфавита, который образует генетическую последовательность [45]. Тогда можно появление какого-либо из вышеупомянутых участков на последовательности рассматривать как статистически значимое отклонение от модели независимых испытаний.

Любое статистическое исследование генетического текста требует адекватной математической модели его порождения. Модель независимых испытаний вскоре была признана неудовлетворительной [46], ее место заняли марковские модели [47]. Попытки описывать полинуклеотидные последовательности с помощью марковских моделей, несмотря на увеличение порядков марковских цепей [48], использование смещенных частот символов [49] или специфических моделей для кодирующих областей [50], не увенчались успехом. Ни одна из моделей не учитывает зонную негомогенность нуклеотидных последовательностей, которая проявляется в том, что различные фрагменты ДНК обладают различными статистическими свойствами (считается например [51], что геном позвоночных состоит из изохор - протяженных (более 3 10 символов) сегментов с относительно постоянным составом букв G и С причем дискретных характерных значений доли G+С немного).

Для выявления границ модулей, т.е. зон с примерно одинаковыми статистическими свойствами, из которых состоят геномы, была предложена модель "скрытой марковской цепи" [52], которая предсказывает эти границы некоторых видах последовательностей. Этот метод довольно трудоемок. Другой попыткой выделить зоны с помощью стационарных и нестационарных /-грамм была работа Певзнера [53, 46], однако этот метод применим лишь при небольших значениях / (реально при /=2,3).

Интересно получение интегральной характеристики сложности генетического текста (глобальная сложность) и ее увязка со сложностью строения и(или) функционирования биологического организма, им кодирующегося. Также необходим инструмент, позволяющий привязывать аномальные по сложности участки к их функциональной нагрузке (локальная сложность). Термины локальной и глобальной сложностей впервые употреблены в [54, 55].

Классическое определение [56] связывало понятие сложности текста со сложностью алгоритма, которым можно породить этот текст. Сложность текста в смысле данного алгоритма по Колмогорову - это длина самой короткой двоичной программы для машины Тьюринга, которая на выходе будет иметь данный текст. Согласно этому подходу самая сложная символьная последовательность, порождаемая программой, по длине равной самой этой последовательности, полностью нерегулярна. И, наоборот, самая простая последовательность должна содержать в себе достаточное число регулярностей, позволяющих компактно их описать.

Этот подход развивался в дальнейшем в работах различных исследователей [57, 58]. В работе [59] была сделана попытка рассматривать биологические последовательности в терминах 0-грамматик и предлагалось сузить круг моделей до контекстно-независимых грамматик, которые, по мнению авторов, более других подходят для описания биологических макромолекул.

Хорошей реализацией идеи Колмогорова служит определение сложности конечной последовательности, введенное Лемпелем и Зивом [60]. Эта мера явно учитывает повторы, что хорошо согласуется со спецификой генетических последовательностей и интуитивным понятием о сложности текста. Сложностью текста по Лемпелю-Зиву называется минимальное число компонент в последовательности слов, на которые данная последовательность специальным образом разбивается: S[l:i1]S[i1+l:irf...S[im.l+l:n].

Каждый фрагмент разбиения Sfik.j+l: получается путем копирования любого слова подпоследовательности S[l:ik.J (включая слова нулевой длины) и присоединения в конце скопированного подслова одного символа алфавита такого, что получившееся слово не встречается в подпоследовательности S[l:ik-i]- Иначе говоря, сложностью последовательности называется минимальное число шагов генерации этой последовательности, в которой каждый последующий фрагмент генерируется из предыдущих с помощью определенных правил. Максимальное значение сложности в смысле генерации по Лемпелю-Зиву нелинейным образом зависит от длины

В работах Гусева с соавторами [54, 61] использована идея Лемпеля-Зива определения сложности последовательности по числу шагов ее генерации, но заданы характерные для биологической последовательности правила генерации: каждый фрагмент Sfik.]+l:ifJ разбиения последовательности может быть прямым повтором максимально возможной длины какого-нибудь слова подпоследовательности S[l:ik-i] (сложность Ct(S))b т.е. необязательно присутствие дополнительного символа на каждом шаге генерации. Кроме того, авторами предложена еще одна мера сложности последовательности (C2(S)), которая использует 5 правил: генерацию нового символа (как в C(S)), а также четыре типа копирования: прямой повтор инвертированный повтор {s}s2s3 и и3s2si), прямой /-повтор, инвертированный /-повтов (SjS2S3 и f(s3)f(s2)f(s1)), где преобразование / может означать комплементарную или любую другую подстановку одних символов вместо других). Для полного генома авторами строились профили сложностей CrfS) и C2(S) для скользящих окон небольшой длины (до 150 символов). Исследование окном малой длины и наложение полученных результатов предпринятое авторами показало что Авагменты имеющие низкие значения сложности чаще всего функционально значимы Короткие зоны сложностных аномалий совпадают с генетическими знаками пунктуации.

Известна структурная и функциональная неоднородность генетических последовательностей. Тем не менее, интегральная характеристика полных геномов позволила бы классифицировать их по степени сложности. Зависимость суммарной сложности по Гусеву от длины геномов нелинейна, поэтому трудно подобрать разумную нормализацию в случае сложностей C,(S) и C2(S). Авторы использовали для оценки глобальной сложности геномов значения параметров гистограммы значений профилей сложности Cmin(D), C(D) и Cmax(D), гдг D - длдна окна.

Одним из методов исследования статистических свойств символьных текстов и их фрагментов является измерение количества информации (энтропии) и связанной с ней величины - избыточности. Существует несколько подходов к определению понятия количества информации [62, 56, 63]. В общей форме количество информации Н, приходящееся на символ некоторого текста, можно определить как степень неопределенности опыта по отгадыванию очередной буквы текста (выражаемую, например, через среднее число попыток при отгадывании). Так, в классической теории информации для последовательности с независимым равновероятным порождением в алфавите из к символов количество информации на символ полагается максимальным и равным log2k. Первая попытка применить этот подход к биологическим текстам была предпринята Стаденом [64].

Программа RANDSEQ - генерирование псевдослучайной последовательности

Очень часто бывает нужно проверять результаты на случайных последовательностях, которые не отличаются от реальных биологических последовательностей словарным составом в алфавите { А , Г, G , С } длиной Lalp=4. Для этого была написана программа RANDSEQ, которая генерирует последовательность, имеющую тот же моно- ди- или триплетный частотный словарь, что и исходная последовательность. При этом ди- и триплетный состав считается с перекрытием, т.е. строится марковская последовательность нулевого, первого или второго порядков. Результирующая последовательность может иметь произвольную длину LSeq, которая отлична от длины исходной последовательности, последняя определяется либо по фактическому количеству символов алфавита в входном файле SqFiName, либо по длине фрагмента, заданного координатами начала и конца Basel и Base2. Одновременно с вводом символьной последовательности делается перекодировка at -Hndex(a,) для всех i=l,Lseq, где index(a) - функция подстановки вместо символа его порядкового номера в алфавите.

Для построения случайной последовательности используется метод, образно представляемый, как попытка уложить горсть семян в решете в один слой путем многократных встряхиваний решета. Строится массив из ANuclNum (по длине алфавита) интервалов. Каждый интервал соответствует слову длины NuclNum и имеет длину, равную количеству встреч этого слова в исходном тексте. Существует взаимно-однозначное соответствие между номером NuclNum Nvr1Nvm-i интервала и и словом ala2...aNudNum\n= X index(a.) 4iyucum l.

Интервалы лексикографически упорядочены, для NuclNum это можно представить как перегруппировку всех символов последовательности чтобы она была записана в виде групп одинаковых символов. Первый интервал содержит столько букв Л, сколько их было всего в исходной последовательности, второй интервал содержит все буквы Т и т.д. Для построения случайной последовательности на шаге с номерому (уже построен начальный фрагмент случайной последовательности Ь,Ь2...ЬИ) выбрасывается случайное число в диапазоне от 1 до Lseq-j+І, определяется номер интервала, в который попало это число, длина интервала укорачивается на 1 позицию, а соответствующая ему буква алфавита присоединяется к имеющемуся фрагменту.

Для NuclNum \ имеет место перекрытие двух слов длины NuclNum в (NuclNum-l)-H позиции: при постоянном триплетном (с перекрытиями) составом последовательности на шаге j нам надо сгенерировать один из четырех возможных символов, которые являются окончаниями слов Ь;-2Ь;\А, bj.2bj.1T, bj.2bj.1G, bj.2bj.1C. Поэтому генератор случайных чисел должен выбросить число из диапазона, определяемого длинами четырех интервалов, соответствующих этим четырем словам. Однако, практически осуществить это не всегда можно, т.к. на каком-то шаге все подходящие интервалы уже имеют нулевую длину и продолжить наращивание последовательности вправо уже невозможно. Тогда начинается наращивание последовательности влево -т.е. случайно реализуется так же как и однобуквенном словаре одна из 4-х возможностей: Abib2, ТЬФг, Gbib2, Cbjb2 и т.д. пока это возможно. Как только встретилась тупиковая ситуация при наращивании влево начинается генерирование совсем нового фрагмента который строится вправо и влево до тех пор, пока не встретится очередной тупик. Полученный новый фрагмент biibii+1...bi2-ibi2 встраивается внутрь последовательности и}b2... ЬцЬи+і...Ьі2 ib "І b вместо случайно выбранного более КОРОТКОГО участка начинающегося с пары VKB bib}

Затем случайным образом новый фрагмент вставка Эта будет построена вся последовательность. Таким образом реализуется метод Монте-Карло для последовательности одинаковое с исходной последовательностью распределение частот слов длины NuclNum. приведен ниже.

Определение номера интервала, .в который попало выброшенное датчиком число SeqNew=Concat(Alp[n]); .конкатенация нового символа к строке и уменьшение длины соответствущего этому .символу интервала на 1 end; 10: 11; .сгенерировали первые NuclNum-I символов новой посл-ти FactLen=NuclNum-l; Direction=l; for і from FactLen+1 to LSeqNew by J begin l=Evaluate Extent (SeqNew, NuclNum-1, ExtentBase, Direction); .определение номера первого из подходящих интервалов (ExtentBase) .и суммарной длины четырех такт интервалов (I) !в соответствии с направлением наращивания последовательности if 1=0 & Directions 1 then goto 12; .если тупик для наращивания справа и слева, то уйти if 1=0 & Direction =1 then .если тупик для наращивания справа, то . идем на наращивание слева begin Directional; goto 11; end; r=GetRandom(l,l); n=GetIntervalNum (r. Intervals [ExtentBase], Direction); SeqNew=Concat(Alp[n], Direction); .конкатенация нового символа к .строке и уменьшение длины соответствущего этому .символу интервала на 1 FactLen=FactLen+l; end; ifFactlen = LSeqNew then goto lend; .формирование фрагмента-вставки for і from 1 to NuclNum-1 by 1 begin r=GetRandom(l,LSeqNew-i-FactLen+l); n=GetIntervalNum (rjntervalsflj); Fragment=Concat(Alp[n]); .конкатенация нового символа к .строке и уменьшение длины соответствущего .этому символу интервала на 1 end; FragmLen=NuclNum-l; Directional; 13: for і from FragmLen+1 to LSeqNew-FactLen by 1 begin l=Evaluate Extent (Fragment, NuclNum-1, ExtentBase, Direction); if 7=0 & Directional then goto 14; ij1=0 & Direction =1 then begin Directional; goto 13; end; r=GetRandom(l,l); n=GetIntervalNum (r, Intervals [ExtentBase], Direction); Fragment=Concat(Alp[n] , Direction); FragmLen -FragmLen+1; end; 14: Substitute (Fragment, FragmLen, SeqNew, FactLen); .замещение сгенерированным фрагментом участка меньшей . длины, корректировка длины последовательности FactLen if (FactLen = LSeqNew) goto lend; NSubst=NSubst+l; if(NSubst LSeqNew 100) goto lend2; Refresh (Intervals); goto 10; lend: output; lend!: end; Командная строка вызова программы rseq SqFiName Basel Base2 FiNamOut NuclNum SeqNum Lseq

Здесь SqFiNamefSEQJ - имя файла с последовательностью-оригиналом, текстовый файл, где записаны символы входного алфавита, возможно, разделенные пробелами и кодами LF/CR. Пробелы и управляющие символы игнорируются и в длину последовательности не засчитываются. Если символы последовательности закончились в файле раньше, чем это предполагалось из расчета ожидаемой длины фрагмента (BASE2-BASE1+1), то длина последовательности будет принята по фактическому количеству прочитанных из файла символов входного алфавита, начиная с символа с номером Basel. Basel {INT} - номер позиции начала фрагмента; Base2{INT} - координата конца фрагмента исходной последовательности; FiNamOutfFILEOUTJ - имя выходного файла с сгенерированными последовательностями, они записаны в виде строк с разбивкой по 50 символов на строку, каждая новая сгенерированная последовательность предваряется заголовком с номером последовательности; NuclNumflNTJ - длина слова в словаре исходной и генерируемой последовательности, допустимые значения 1,2,3. Для слов большей длины построение случайных последовательностей тоже возможно, но неэффективно и практически не нужно; SeqNum{INT} -задает число случайных последовательностей, параметр необязательный, по умолчанию берется 1; LSeq{INT} - длина случайных последовательностей, параметр необязательный, по умолчанию берется длина, равная длине исходной последовательности.

Программа MOTIFS - поиск неточных повторов

Задача оценки повторяемости отдельных участков в фрагментах полных геномов, отличающихся неравновесным распределением слов длины /, возникла перед авторами при изучении избыточности генетических текстов. Было необходимо получение спектров повторов различных длин таких, чтобы они характеризовали общую структуру последовательности, давали информацию о возможности покрытия всей последовательности повторами максимально возможной длины. При этом ставится задача нахождения довольно строгих повторов, хотя и допускается некоторая степень несовпадений в участках. Давно известно из практики, что если в последовательностях есть повторы то они обнаруживаются самыми простыми инструментами сходства фрагментов с множеством оговорок (когда результат выравнивания последовательностей неинвариантен т.е. зависит от параметров процедуры выравнивания) обычно бывают неинтересны для исследователей. Здесь предлагаются простой метод отыскания хороших повторов в любой символьной последовательности.

В последовательности S, состоящей из символов алфавита Alp (длина алфавита - Lalp), ищутся повторы, т.е. участки максимально возможной длины (не короче, чем Threshold), которые повторяются не меньше двух раз.

Искомые повторы допускают нестрогое сходство, которое задается следующим образом. Для серии участков, встретившихся на последовательности, по меньшей мере, дважды и удовлетворяющих условию, что на всей протяженности участка каждые Frame символов имеют суммарный вес попарных совпадений WSUM не менее значения параметра Span, ищется общая подпоследовательность, которую мы и называем мотивом. Веса попарных совпадений/замен задаются матрицей размерности lalp lalp. Точные совпадения символов в рамке можно задавать с помощью единичной матрицы такая матрица используется для обработки нуклеотидных последовательностей. Для аминокислотных последовательностей, которые заданы на более длинном алфавите (20 букв), существует множество весовых матриц, определяющих веса замен аминокислот. Это серийные матрицы, такие, как РАМ [100], или BLOSUM [101], или универсальная матрица RISLER [102]. Серийные матрицы задаются по имени и номеру, который однозначно определяет качество требуемого сходства.

Формат хранения матрицы учитывает ее симметричность относительно главной диагонали, поэтому веса замен хранятся в виде нижнетреугольной матрицы с заполненной главной диагональю, элементы которой - целые числа. При вводе в память нижнетреугольная матрица очевидным образом превращается в квадратную. Пример матрицы разрешенных замен приведен в приложении 3. Значения каждой матрицы могут находиться в своем диапазоне значений. Это связано с различными источниками происхождения матриц, отличиями в их получении. Программа MOTIFS сама устанавливает, как ей нормировать веса любой матрицы. Для этого вычисляется характерное число WM матрицы - среднее арифметическое всех ненулевых компонент матрицы - которое является нормирующим множителем для параметра Span и суммарного веса рамки WSUM.

Множество весовых матриц для программы MOTIFS - открыто, что делает программу универсальной, т.е. применимой для поиска повторяющихся фрагментов с определенными разрешенными заменами в любых текстах. Программа имеет параметр - допустимый алфавит ALP - в соответствии с которым при вводе анализируемой последовательности происходит перекодировка символьной последовательности в числа натурального ряда, имеющие значения номеров соответствующих символов среди символов алфавита.

Популярный способ поиска гомологичных участков с помощью точечной матрицы [77] в последовательности S (путем сравнения с самой собой) позволяет найти все участки нестрогих повторов, длина которых не меньше Threshold (условие 1). В данной реализации метода для экономии времени строится только верхняя половина матрицы (главная диагональ и ниже) ввиду симметричности матрицы. Так как никаких условий на структуру искомых участков не налагается, может получиться много участков слабой гомологии, составляющих шум. Есть два пути. Первый - сначала найти все участки повторов, удовлетворяющих условию 1, потом исследовать, какие из них не случайны. Этот путь неудобен для реализации в условиях нарастающих объемов обрабатываемых последовательностей. Можно пойти другим путем -в процессе нахождения повторяющихся участков сразу отсекать все случайные и работать только со статистически значимым материалом. Кроме того, хочется освободить исследователя от задания большого количества параметров, идеальным случаем была бы процедура, которая не имела бы параметров, тогда можно было бы использовать программу в автоматическом поиске повторяющихся участков.

Для того, чтобы уменьшить количество задаваемых параметров и отмечать на последовательности только статистически значимые хиты, применяется следующая процедура автоматической установки уровня значимости похожих фрагментов. Сначала по приближенной формуле [74, 75] рассчитывается начальная длина рамки для количества несовпадений NMism 2, до этого уровня точности аппроксимационная оценка совпадает с точной формулой [78]. Пользователь может задать любое количество несовпадений NMism в рамке. Соответствующая этому значению длина рамки будет вычислена так, что все найденные участки сходства будут гарантированно статистически значимыми.

В результате первого этапа работы для найденных NL участков имеются два массива XCoord, YCoord (массивы начал похожих участков) и массив их длин Шпе. Координаты начал участков отсортированы таким же образом, как производилось построение матрицы сходств (последовательно обходились все диагонали матрицы с началами в точках (O.Lseq-Frame), (0,Lseq-Frame-l), ..., (0,0) и соответственно с концами в точках (Frame,Lseq), (Frame+l,Lseq), ..., (Lseq,Lseq). Это существенно для последующей процедуры выделения мотивов.

Следующим этапом работы является выделение мотивов. Мотивом здесь называется участок главной диагонали, имеющий удовлетворительный, с точки зрения длины и точности, повтор на других диагоналях. Путем перебора (за NL NL шагов) находятся различные проекции найденных участков на обе координатные оси. Если, по крайней мере, два участка имеют пересекающиеся проекции на координатную ось, и пересечение их проекций по длине не меньше значения Threshold, оно определяет мотив. Любой участок сходства, расположенный на отличных от главной диагоналях, имеет ненулевое пересечение с основной диагональю. Кроме того, левый и правый фланги проекции каждого участка из пары анализируемых участков, не вошедшие в пересечение, при условии выполнения требования к длине ( .Threshold), тоже записываются в мотивы. При этом производится проверка -если одна проекция полностью лежит в другой проекции, то в качестве мотива берется тот участок, что длиннее. Т.е. на этапе выделения мотивов обеспечивается отсутствие "вложенности" разных мотивов друг в друга. Здесь надо отметить, что гарантированно обеспечивается попарное сходство мотива и каждого участка, соответствующего этому мотиву, с точностью Span совпадений на каждые Frame символов. Но между собой два участка, соответствующие одному и тому же мотиву, не обязательно должны иметь Span общих символов на длину рамки. На выходе этого этапа получается отсортированный по неубыванию координат мотивов массив, в внешний файл выводятся серии участков, соответствующих каждому мотиву, для каждой серии участков выводится символьный консенсус и величины, характеризующие информационное содержание этого консенсуса - энтропия консенсуса Н и функция силы мотива F.

В качестве меры качества консенсуса выбрана шенноновская энтропия, т.е. среднее значение меры неопределенности сложного события, состоящего из / независимых испытаний, в каждом из которых с некоторыми вероятностями выпадают буквы алфавита последовательности. Здесь / - длина мотива. Тогда для мотива {а,,....ab...ai) энтропия вычисляется так

Чем степень неопределенности на символ у мотива меньше, тем более сильная степень сходства символов в позициях консенсуса.

Чем выше значение функции силы мотива, тем качественнее мотив. Командная строка для вызова программы имеет формат. Здесь SeqNamfSEQ} - единственный обязательный параметр - название файла, в котором содержится последовательность, заданная в одном из поддерживаемых программой алфавитов, номер алфавита задается параметром NalpflNTJ (в описываемой реализации допустимыми значениями параметра являются значения О (алфавит нуклеотидный) и 1 (алфавит аминокислотный).

Какие особенности генетических последовательностей определяет новая информационная мера

Формула (2.2) является аналогом фильтра Лапласа. В области визуализации изображений его используют для обнаружения линий и фокусировки. Результат применения лапласиана можно представить себе упрощенно, как результат вычитания из усредненного но ближайшим соседям изображения самого изображения. В результате линии на изображении должны стать более резкими. В результате же вычитания лапласиана из изображения усиливаются границы, т.е. достигается улучшение фокусировки. Фильтр Лапласа позволяет получить высокочастотную компоненту изображения [97]. Фильтрами низких и высоких частот исходное изображение разделяется на две составляющие. Низкочастотная компонента дает общий вид изображения без резких изменений яркости. Компонента, прошедшая через высокочастотный фильтр, содержит информацию о границах и мелких деталях. Принцип выделения высокочастотной составляющей хорошо согласуется со свойствами зрительной системы человека. Он значительно снижает избыточность изображения.

Проверялась чувствительность функций LFtfQ) и Shi(Q) в отношении нестрогих повторов, характерных для генетических последовательностей. При /=3,4,5 и при окне Lframe 1024 (45) обе функции удовлетворительно регистрируют нестрогие повторы (случайные замены в 10-40% позиций) с длинами до 256 нуклеотидов. Данные эксперименты проводились с искусственно сгенерированными последовательностями.

Как показало наше исследование, повторы детектируются хорошо с помощью шенноновской меры, но функция LFi(Q) является, кроме того, и мерой неоднородности /-граммного состава. Если шенноновская мера не реагирует на количество нулевых вершин в графе /-граммного состава, то наша мера очень чувствительна к нему. Она является индикатором постоянства /-граммного состава. Давно используются подходы к распознаванию функционально значимых областей генома по этой характеристике - например, определение кодирующих областей (генов) по использованию характерных 3-грамм [104] или разграничение геномных блоков по разнице в наборах стационарных ди- и три-грамм [46]. Введенная нами разность двух избыточностей выявляет участки неоднородности статистических характеристик генома.

Результаты исследования генома вируса EBV программой Shenon и последующим использованием EXCEL приведены на рис.3,6. Характерная периодичность 12 3062 н.п. отделяет Short Unique Region от Large Unique Region. Данные повторы имеют неравномерное распределение троек по длине повторяющегося участка и высокую степень гомологии. Буквенный состав в целом на протяжении 12 3062 н.п. равен (F =0A63, F7=0.166, FG=0.282, Fc= 0.389), в то время как в среднем по геному - ( =0.198, Ff=0.202, F f=0.295, Fc= 0.305). Данные по буквенному составу получены программой LGRAMM. Сочетание этих факторов приводит к появлению характерной пилообразной кривой со смещенным средним уровнем колебаний. В силу высокой степени сходства 12-ти повторов (менее 100 замен при длине каждого в 3072 н.п.) характер профиля сохраняется также и при меньщих размерах окна.

Наличие на профилях R3LF и R3sh ярко выраженных 12-ти пиков позволяет предположить наличие внутренних повторов в повторяющемся участке длиной 3072 н.п.. Исследовался первый участок с координатами 12001-15072 п.н. (пик 1 на рис.3.6). На общем фоне многочисленных повторов выделены непересекающиеся между собой повторяющиеся фрагменты.

12859-12876-повтор А

13013-13043-повторВ

13307-13337-повторВ

13420-13450-повтор В

13749-13766-повтор А

повтор А CCAGAGCCCCT(t/c)(t/g)(t/g)GCCC длиной 18,

повтор В CAGGCCAGCCGGAGGGACCCCGGCAGCCCGG длиной 31.

Все перечисленные повторы найдены с помощью программы MOTIFS и не могут считаться случайными. Нахождение повторяющихся участков приблизительно в центре фрагмента согласуется с симметричной формой пика.

В случае, когда повторяющаяся последовательность неоднократно укладывается в окне, наблюдается пик на профиле избыточности. Наиболее выраженные пики соответствуют известным областям повторов, в том числе области oriP (с координатами от 7421-й позиции до 8042-й), гену латентного цикла, кодирующему ЕВШАІ-белок (в позициях 107950-109875), терминальным повторам (170094-172231).

На рис.3.6 горизонтальными линиями под осью к указаны зоны повторов, описанные в базе данных GenBanK 22.0. Наше исследование пиков 2 и 3 показало наличие в них повторяющихся участков. Все обнаруженные структуры прямых неточных повторов относятся к некодирующим участкам генома вируса,

Участки рассогласования 2-х графиков избыточности, рассчитанной 2-мя различными способами R3LF и R3Sh, были выделены для бактериофага /L Выделялись такие участки относительного повышения избыточности R3LF, для которых значение R3Sh оставалось в пределах значении, характерных для соседних районов. На рис. 3.8 приведена разность между нормированными избыточностями бактериофага Я. Наиболее низкие значения величины ARJQ) наблюдаются в районе 21500-23000 н.п. (стрелка 1). Данный район выделен также у Певзнера [53] на основе анализа стационарных 2- и 3-грамм как граница между функционально и статистически различными модулями. Другой участок низких значений ARi(Q) (стрелка 2) соответствует правой границе области генов рекомбинации.

В отношении перечисленных районов рассогласование функций RiLF и RiSh с указанным знаком сохраняется при варьировании 2 1 5. Одной ии возможных причин несоответствия процесса точечных мутаций замены в данных районах диффузионной модели может являться меньшая скорость накопления точечных мутаций замены, чем в других районах генома, сравнимых по значению І?Д

Чувствительность нового метода оценки информационного содержания генетических последовательностей позволяет использовать его как для выделения областей, обогащенных прямыми неточными повторами (в этом смысле данный метод сходен с другими информационными мерами), так и для выделения модулей. Модули, имеющие разное происхождение (возможно, и во временном отношении) и функции, по-разному устроены. Тонкие статистические различия могут визуально выявляться из профилей избыточностей и их нормированных разностей. В ряде районов геномов наблюдаются существенные расхождения в поведении функций Л, и Я, Распределение участков такого рассогласования требует дальнейшего изучения.

Данные о средних значениях и среднеквадратичных отклонениях избыточностей R3LF для полных геномов некоторых организмов приведены в таблице 3.3. Наибольшим среднеквадратичным отклонением характеризуются геномы вируса ЕВ V, Mycoplasma genitalium, фага Л. Полученные данные для вируса ЕВ К, и фага Я согласуются с опубликованными ранее выводами о неоднородности их 2- и 3-граммного составов. Представляется неожиданным тот факт, что геном Mycoplasma genitalium имеет значимо меньшее среднеквадратичное отклонение избыточности R3LF по сравнению с вирусом Эпштейна-Барр (Р 0.998). Кроме того, видно, что никакой корреляции между величиной избыточности и длиной генома не наблюдается

Интересным кажется и факт очень незначительной избыточности генетических последовательностей, по сравнению с лингвистическими текстами. Опыты Шеннона [105] показали, что для английского языка избыточность по порядку величины близка к 80%, в то время как для исследованных нами текстов избыточность по Шеннону имеет диапазон значений приблизительно от 0.008 до 0.08.

Похожие диссертации на Разработка алгоритмов и программного обеспечения для исследования информационного содержания генетических последовательностей