Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Алгоритмы и программные системы для анализа регуляторных последовательностей ДНК Черемушкин Евгений Сергеевич

Алгоритмы и программные системы для анализа регуляторных последовательностей ДНК
<
Алгоритмы и программные системы для анализа регуляторных последовательностей ДНК Алгоритмы и программные системы для анализа регуляторных последовательностей ДНК Алгоритмы и программные системы для анализа регуляторных последовательностей ДНК Алгоритмы и программные системы для анализа регуляторных последовательностей ДНК Алгоритмы и программные системы для анализа регуляторных последовательностей ДНК Алгоритмы и программные системы для анализа регуляторных последовательностей ДНК Алгоритмы и программные системы для анализа регуляторных последовательностей ДНК Алгоритмы и программные системы для анализа регуляторных последовательностей ДНК Алгоритмы и программные системы для анализа регуляторных последовательностей ДНК
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - 240 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Черемушкин Евгений Сергеевич. Алгоритмы и программные системы для анализа регуляторных последовательностей ДНК : Дис. ... канд. физ.-мат. наук : 05.13.11 Новосибирск, 2006 140 с. РГБ ОД, 61:06-1/918

Содержание к диссертации

Введение

1. Алгоритмы предварительной обработки регуляторных последовательностей ДНК 13

1.1. Биологическая постановка задачи 14

1.2. Обзор подходов к распознаванию ССТФ 18

1.3. Поиск шумоподобных сигналов на последовательности ДНК 20

Преобразование последовательности ДНК к сигналу 21

Алгоритм поиска сигналов Баркера 23

Визуализация автокорреляционной функции цепочек ДНК 26

Анализ разброса АКФ в различных участках ДНК 27

Изучение зависимости скоррелированности регуляторных участков от положения в гене 29

1.4. Обобщенные сигналы Фрэнка в применении к анализу последовательностей ДНК 30

Применение сигналов Фрэнка к анализу последовательностей ДНК 31

Результаты 32

1.5. Исследование последовательностей ДНК с помощью кода Голея и кода Хэмминга (4,7) 35

КодыХэмминга 36

Коды Голея 38

Анализ последовательностей ДНК с помощью сигналов Голея 40

Результаты анализа последовательностей с помощью одного из кодов Хэмминга 41

Результат анализа последовательностей с помощью кода Голея 45

1.6. Алгоритмы визуализации ДНК на основе вейвлет-преобразования 46

Заключение 49

2. Алгоритмы распознавания цис-элементов, базирующиеся на биологической информации 50

2.1. Алгоритмы распознавания сайтов 51

2.2. Алгоритм весовых матриц 52

2.3. Модифицированный алгоритм филогенетического футпринта 57

Выравнивание последовательностей 57

Модифицированный алгоритм филогенетического футпринта 62

2.4. Алгоритм распознавания сайтов ядерных рецепторов 67

2.5. Алгоритмы анализа профилей экспрессии микрочипов 76

Технология 77

Постановка задачи 79

Поиск оптимального композиционного модуля 85

Тестирование на реальных данных дрожжевого клеточного цикла 88

2.6. Анализ однонуклеотидных полиморфизмов в последовательностях ДНК 89

Алгоритм поиска однонуклеотидных полиморфизмов 90

Вычисление оптимальных порогов Simjn и Simax 91

Статистические оценки распределения однонуклеотидных полиморфизмов в сайтах 91

Заключение 93

3. Программный комплекс по анализу последовательностей ДНК 94

3.1. Реализация алгоритма филогенетического футпринта 95

Построение базы данных консервативных некодируїощих последовательностей 97

3.2. Описание пакета SNPResearch 98

Визуализация результатов анализа однонуклеотидных полиморфизмов 103

3.3. Реализация алгоритма анти-футпринт 104

3.4. Система GRESA 104

Ядро системы 104

Жизненный цикл компонентов системы GRESA 108

3.5. Визуальные интерфейсы для обработки информации 109

Разработка информационной системы ExPlain 111

Реализация алгоритма поиска сайтов ядерных рецепторов 115

3.6. Пакет cissearch по обработке биологической информации 115

Реализация объединенной среды по анализу регуляторных последовательностей... 118

Визуализация результатов анализа биологической информации 118

3.7. Оценка качества распознавания программных систем 121

Поиск ключевой регулирующей молекулы на примере анализа экспрессии при индукции апоптоза фактором E2F-1 121

Проведение комплексного анализа на примере данных по изучению синдрома хронической усталости 123

Результаты анализа экспериментальных данных 128

Заключение 128

Список литературы

Введение к работе

Актуальность проблемы

Биоинформатика - это наука о компьютерных методах решения биологических задач. В настоящее время наблюдается активизация деятельности в биоинформатике, что связано, прежде всего, с появлением в молекулярной биологии и генетике очень больших объемов данных, обработку которых нужно автоматизировать.

Исследования в биоинформатике и создание соответствующего программного обеспечения является актуальным в связи с решением прикладных задачи: изучением болезней, в том числе наследственных, созданием высокотехнологичных лекарственных средств и др.

Одной из актуальных задач является задача разработки алгоритмов распознавания сайтов связывания с транскрипционными факторами (ССТФ). Специфические белки, называемые транскрипционными факторами, осуществляют регуляцию экспрессии генов. ССТФ определенных типов связываются с промоторными районами генов и стимулируют транскрипцию (производство РНК) этих генов.

Несмотря на разнообразие подходов, проблема построения точных алгоритмов распознавания ССТФ в настоящее время не может считаться окончательно решенной. Причина этого состоит в большом разнообразии контекстных, физико-химических и конформационных особенностей ССТФ; механизмов ДНК-белковых взаимодействий между ССТФ и транскрипционными факторами; специфичности контекста, окружающего ССТФ, степени консервативности нуклеотидного контекста в эволюции.

Технология анализа данных генетической информации требует создания и сопровождения сложных программных средств, а также алгоритмов, обеспечивающих предсказание и достоверность выводов.

В данной области применяются специальные процессы проектирования и анализа алгоритмов и программ, специальные форматы данных, редакторы генетических данных, базы данных и знаний, графические человеко-машинные интерфейсы.

Ввиду комплексной структуры активно исследуемых в настоящее время заболеваний, таких как рак и др. задача распознавания сайтов связывания с ТФ становится еще более актуальной. Эти заболевания нарушают регуляторную функцию большого количества генов, которая может быть исправлена с

помощью воздействия одного или нескольких транскрипционных факторов.

Для понимания, какие транскрипционные факторы вовлечены в регуляторный процесс необходимо создание алгоритмов и программ для распознавания соответствующих сайтов.

В последнее время стали появляться новые типы биологических данных, таких как микрочипы, однонуклеотидные полиморфизмы и др. Эта информация наряду с последовательностью ДНК может быть использована для распознавания ССТФ и таким образом улучшить его.

Поэтому, в частности, является актуальной разработка новых алгоритмов и программных средств для анализа микрочиповых данных.

Цель работы

Целью данной работы являлась разработка новых и улучшение имеющихся алгоритмов и программ для приближенной идентификации подцепочек в последовательностях ДНК, называемых цис-элементами или сайтами связывания транскрипционных факторов с ДНК (ССТФ). Разрабатываемые алгоритмы в каждом конкретном случае ориентированны на специфическую информацию, которой обладает биолог.

В результате был разработан комплекс алгоритмов предварительной фильтрации и затем последующей идентификации цис-элементов и объектно-ориентированная среда, реализующая эти алгоритмы.

Все алгоритмы, рассмотренные в работе, разбиваются на три большие группы: алгоритмы предварительной обработки ДНК, алгоритмы последующей обработки и алгоритмы визуализации. В ряде алгоритмов осуществляется переход от нуклеотидного уровня анализа ДНК на уровень анализа сигналов.

Методы исследования

Методы объектно-ориентированного программирования,

проектирования и анализа алгоритмов и программ, разработки

человеко-машинных интерфейсов; методы обработки сигналов,

специального вида и приближенной идентификации подцепочек.

Также при разработке программно-аппаратных систем учитывалось требование платформенной независимости. В связи с тем, что системы создавались для работы проведения исследований

биологами-экспериментаторами, работающими на различных вычислительных системах. Большое внимание уделялось графическому представлению результатов анализа.

Научная новизна

Проведены исследования, направленные на изучение возможностей применения для анализа ДНК различных алгоритмов обработки сигналов. В частности, изучались корреляционные функции между сигналами, ассоциированными различными методами с ДНК, и сигналами, построенными на основе некоторых замечательных кодовых последовательностей.

В результате проведенных исследований был реализован ряд программных систем полезных для исследования генетической информации, базирующихся на алгоритмах приближенной идентификации подцепочек в последовательностях ДНК. Как результат, разработан набор алгоритмов поиска цис-элементов в регуляторных последовательностях ДНК которые используют экспериментальные биологические данные различных типов.

Предложена библиотека классов, функций и структур для обработки генетической информации: промоторов генов, цис-элементов, весовых матриц, промоторных моделей и др. На ее основе реализована программная система GRESA, нашедшая применение на практике.

Для анализа данных экспрессии генов и построения промоторной модели разработана программная система ExPlain. Система использует некоторую формализованную модель регуляторных генетических процессов в клетке.

Практическая ценность

Создан ряд алгоритмов, которые переданы отечественным и зарубежным заказчикам и применяются в коммерческих приложениях. В частности, программный продукт ExPlain внедрен и используется немецкой компанией Biobase.

По результатам работы была написана глава в книге "Analytical Tools for DNA, Genes and Genomes", изданной в издательстве "DNA Press".

Апробация работы

Результаты работы докладывались на различных конференциях: ЕССВ'2003 (Париж, Франция); Pacific Symposia on Biocomputing

(Гаваи, США); "Genome Informatics", (Cold Spring Harbor Laboratory); на Дне молодых ученых Samsung (Новосибирск); Конференции естественных вычислений ICNC05 (Чаныпа, Китай); Немецкой конференции по биоинформатике GCB'05 (Гамбург, Германия); конференции «Технологии Майкрософт в информатике и программировании» в 2004 - 2006 г.г. (Новосибирск).

Автором по теме диссертации опубликовано более 36 печатных работ.

Структура и объем работы

Диссертационная работа состоит из введения, трех глав и списка литературы. Объем диссертации - 142 стр. Список литературы содержит 38 наименований. Работа включает 56 рисунка и графика, полученных в результате расчетов на ЭВМ а также 10 таблиц.

Поиск шумоподобных сигналов на последовательности ДНК

Подходы к задаче распознавания ССТФ можно условно разбить на две группы: алгоритмы, использующие предварительную информацию об известных сайтах, и другие алгоритмы.

Алгоритмы первой группы используют информацию об известных цис-элементах, предварительно накопленную в базах данных, (например, БД Transfac, Biobase). Обычно в базе данных содержатся наборы последовательностей известных сайтов данного фактора. С одним сайтом может связываться несколько схожих транскрипционных факторов. Также играет роль и качество связывания, но информация об этой характеристике обычно не содержится в БД из-за сложности ее получения.

Для различных ТФ накапливается от 1-2 до 300 сайтов. Если учесть, что длина сайта обычно порядка 15-30 п.о., то можно сделать вывод, что данных об известных цис-элементах довольно мало. Это явилось причиной тому, что алгоритмы распознавания, использующие только эту информацию, имеют плохое качество распознавания, но более сложные модели для распознавания, например, методы марковских моделей, плохо применимы к решению этой задачи ввиду их переобучаемости.

Ситуация осложняется тем, что в БД границы сайта определены не четко. Вместо последовательности сайта в БД помещается последовательность большей длины (50-100 букв), содержащая этот сайт. Для построения метода распознавания зачастую необходимо выделить нужную подпоследовательность.

Алгоритмы второй группы используют как входные данные только последовательности регуляторных районов ДНК. Далее в этих районах ищутся статистически перепредставленные подцепочки. Если некоторая подцепочка является сайтом, то она будет часто встречаться в данной последовательности ДНК. Алгоритмы распознавания без информации о сайтах апеллируют к обратному предположению: если некоторая подцепочка часто встречается по сравнению с частотой встречаемости в некоторой фоновой выборке, то она будет являться сайтом.

Но это предположение не всегда верно. В ДНК большое разнообразие сигналов, не имеющих отношение к ССТФ. Например, структурные сигналы, сайты нуклеосомного взаимодействия, простой «шум», произведенный за счет дупликации последовательностей ДНК. ДНК-материал эукариот (организмов с ядром) избыточен. Это значит, что при эволюционном развитии организмы получали достаточно питания, для того чтобы дублировать генетический материал, не удаляя устаревшие, потерявшие свою функцию участки. Дупликация является наиболее частым вариантом мутации в эволюции. Все это, а также все растущее количество аннотированных в БД сайтов, делают алгоритмы первой группы наиболее предпочтительными.

Алгоритмы без использования БД не требуют дополнительных знаний о заранее известных сайтах и могут быть применимы для неизвестного ранее транскрипционного фактора.

Наиболее предпочтительным предполагается использование алгоритмов первой группы, с предварительной фильтрацией данных, с помощью различных методов обработки сигналов. Необходимо использование дополнительной биологической информации для увеличения корректности предсказания.

Шумоподобными сигналами (ШПС) называют такие сигналы, у которых произведение ширины спектра на длительность много больше единицы[25]. В системах связи с ШПС ширина спектра ШПС всегда много больше ширины спектра передаваемого сообщения. Предположительно аналогичная ситуация наблюдается и в ДНК: некоторые сообщения в ДНК «теряются» в шуме. Наличие сообщения в ДНК обуславливается специфическим геометрическим строением данного участка, электромагнитными и другими полями, создаваемыми этим участком. Так как ДНК состоит из нуклеотидов всего лишь четырех типов (A,C,G,T), то все эти свойства однозначно задаются нуклеотидным составом конкретного участка, поэтому мы можем рассматривать последовательность ДНК как шумоподобный сигнал.

Исследование кодирующих последовательностей ДНК с помощью автокорреляционной функции, а также некоторые свойства генетического кода, с точки зрения алгоритмов передачи сигналов, рассматривались ранее в работах Ратнера В.А. [26]. Он обнаружил некоторые интересные закономерности кодирования аминокислот с помощью нуклеотидных триплетов. Исследование именно регуляторных районов с помощью автокорреляционной функции не было найдено в литературе.

Нами были рассмотрены промоторные районы ДНК: какими свойствами должны обладать эти последовательности с точки зрения шумоподобных сигналов? Промоторные районы содержат сайты. К сайтам прикрепляются белки, называемые транскрипционными факторами. За время естественного отбора в эволюции изменялись как сайты, так и сами транскрипционные факторы. Ввиду того что различные транскрипционные факторы связываются с различными сайтами, напрашивается предположение, что сайты должны быть хорошо распознаваемы на ДНК и уникальны. Такие хорошо распознаваемые сигналы давно известны в теории шумоподобных сигналов, которая применяется в радиотехнике.

Анализ однонуклеотидных полиморфизмов в последовательностях ДНК

В данном параграфе рассматриваются статистические алгоритмы частотного анализа подцепочек различных типов. Рассматриваются подцепочки, определенные алгоритмом весовых матриц и значительно изменившие биологическую значимость с учетом произошедшей в этой цепочке замены.

С биологической точки зрения вводится понятие однонуклеотидного полиморфизма. Однонуклеотидные полиморфизмы (Single Nucleotide Polymorphism, SNP) - это мутации ДНК, обеспечивающие разнообразие особей внутри одного вида. Внутри одного вида геномы отдельных особей одинаковы на 99%. Различия между организмами определяют около 10-10 однонуклеотидных полиморфизмов. Среди полиморфизмов наиболее часты замены одного нуклеотида на другой. Также встречаются вставки и удаления нуклеотидов.

Некоторые однонуклеотидные полиморфизмы в некодирующих районах влияют на регуляцию генов. Влияние однонуклеотидных полиморфизмов на регуляцию генов может быть проанализировано.

Нами была разработана программная система, позволяющая обработать однонуклеотидные полиморфизмы и произвести анализ изменения регуляции генов, вызванной этими заменами.

Алгоритм поиска однонуклеотидных полиморфизмов

Пусть Е последовательность района, содержащего однонуклеотидный полиморфизм. Е составлена из двух ограничивающих последовательностей (фланков) Si и S2. Фланки соединяются с заменой, которая представлена в двух вариантах R\ и R.2. Тогда у различных особей в данном месте генома присутствует либо последовательность Ai=Si+Ri+S2, либо A2=Si+R.2+S2, где "+" обозначает конкатенацию строк. Последовательности А і и Аг называют аллелями.

Для каждого транскрипционного фактора F; произведем поиск сайтов Siy и Бгу на аллелях Ai и Аг соответственно. Поиск производится, например, с помощью метода весовых матриц, описанного выше. Следующий шаг - это определение регуляторной значимости данного транскрипционного фактора для этой замены.

С одним из аллелей транскрипционный фактор может связываться, а с другим - не связываться. В этом случае нарушается регуляция. Введем следующее правило: значимость транскрипционного фактора F; оценивается как ДІ=0, если wn SimaxH W2j Simax, иначе Ai = Simax - Simin, Если Simin = Ci!ower, иначе где Wii - вес сайта фактора Fj на аллеле Ai, W2i - вес сайта фактора Fj на аллеле Аг. Если на аллеле обнаружено больше одного сайта, то в качестве исследуемого сайта рассматривается сайт с максимальным весом.

Simax - это порог для веса Wj, подобранный так, чтобы в реальных последовательностях промоторов в среднем встречалось 2 сайта с весом Wj Simax на 1000 нуклеотидов. Simjn выбирался с расчетом на 10 сайтов на каждые 1000 нуклеотидов.

Вычисление оптимальных порогов Simin и Simax

Пороги Simin и Simax вычислялись следующим образом. Рассмотрим достаточно большую выборку промоторов {Рк}. Зафиксируем весовую матрицу Mj. В каждой последовательности выборки Рк методом скользящего окна произведем расчет весов матрицы Mj в каждой позиции t последовательности. Получим набор Wkj(t). Теперь введем последовательность di...d„ так, что dt d2 ... dn, di=0, d„=l и построим гистограмму (1)=(количество Wkj(t), попавших в [dt,l]).

Теперь расчет Simin и Simax сводится к выбору такого интервала [dt,l], что fj(t)=K 1000/L, где К=2 и К=10 соответственно, a L - суммарная длина всех последовательностей {Рк}. Статистические оценки распределения однонуклеотидных полиморфизмов в сайтах

Поиск транскрипционных факторов связывающихся с некодирующим районом содержащим заданный полиморфизм - очень важная задача для биологов-экспериментаторов. Не менее актуальной представляется задача анализа распределения полиморфизмов внутри сайтов. Сколько SNP попало в сайт определенного типа? Из этих исследований, возможно, удастся сделать вывод о некоторых базовых эволюционных принципах.

Для полиморфизма Е; и фактора Fj зададим Ду аналогично Д,-, заданному в предыдущем разделе. Введем ру относительную позицию SNP Е; в сайте матрицы Fj. Таким образом, для всех SNP, попавших в регуляторные районы, подсчитаем суммарный вес SNP по каждой позиции сайтов фактора Fj.

Построение базы данных консервативных некодируїощих последовательностей

Автором был реализован набор perl-скриптов для получения выравниваний и построения базы данных сайтов связывания по консервативным некодирующим последовательностям (КНП) группы Genome Pipeline. Первичная информация о КНП хранилась в таблице, содержащей около 70 000 записей. Каждая запись характеризовала положение КНП в геноме человека и геноме мыши. Выравнивания последовательностей хранились в текстовых файлах в виде выравниваний длиной около нескольких сотен тысяч символов, тогда как длина КНП около 1000 символов. Для получения выравнивания, соответствующего заданному КНП, было необходимо вырезать соответствующий участок выравнивания из файла фрагмента.

Такие КНП были представлены для сравнения человек-мышь и человек-крыса. После выполнения алгоритма филогенетического футпринта информация о сайтах связывания сохранялась в базе данных, к которой был создан дружественный пользовательский интерфейс доступа. Так же были вычислены некоторые статистические характеристики, позволившие проанализировать результаты.

Для оптимизации процесса разработки программ по анализу генетической информации возникла необходимость в системе представления биологической информации в виде системы классов, включающих такие объекты, как последовательность, матрица, сайт, наборы этих данных. Как прототип этой системы был разработан программный комплекс SNPResearch. Пакет SNPResearch доступен по адресу http://biorainbow.com/snp/index.php

Этот проект был запущен с несколькими целями: создать исследовательскую группу, способную выполнять исследования в междисциплинарных областях, создать прототип для будущей библиотеки инструментов анализа генетических текстов и, наконец, разработать систему, позволяющую производить анализ однонуклеотидных полиморфизмов в некодирующих участках ДНК. Все цели были достигнуты, программный пакет успешно функционирует и доступен по адресу http://biorainbow.com/snp/. Система классов пакета SNPResearch Пакет программ был написан на php. Ядро пакета составляют 13 классов.

Promoter и PromoterSet классы, представляющие последовательность промотора и набор последовательностей. Промотор имеет имя гена, которому он соответствует, длину, позицию старта транскрипции. Также в этот класс включены функции работы с последовательностью ДНК, такие как получение подпоследовательности, получение комплементарной последовательности и т.д. Класс PromoterSet содержит массив элементов типа Promoter и загрузчик набора промоторов из файла.

Matrix и MatrixSet классы, представляющие матрицу и набор матриц. Содержат представление весовой матрицы и загрузчик списка весовых матриц из файлов.

Site и SiteSet классы, представляющие сайты на последовательности. Также реализованы функции загрузки, сохранения.

SearchableMatrix класс, наследуемый от Matrix и содержащий алгоритм поиска матрицы на последовательности. Возвращает результат в качестве объекта SiteSet.

SNP, SNPSet классы, соответствующие однонуклеотидному полиморфизму и набору полиморфизмов. От них наследуются классы RsSNP и RsSNPSet, которые представляют полиморфизмы, хранящиеся в наиболее популярной базе данных dbSNP.

Класс Alignment для представления выравнивания последовательностей. Дополнительный класс ErrorReport для идентификации и обработки ошибок. Пакет также включает 28 регрессионных тестов.

Модуль research, соответствующий проведению статистической обработки данных по SNP, содержит 32 запускаемых файла, выполняющих различные варианты анализа: подбор порогов для сайтов, вычисление частот матриц и т.д. Этот модуль содержит 16 регрессионных тестов.

Пакет содержит модули utils (для вспомогательных функций), view и web для представления результатов и веб-приложений для анализа.

Заметим, что для реализации наборов последовательностей, сайтов, матриц не достаточно использовать стандартную функциональность, обеспечивающую хранение набора объектов. В каждом случае использовались свои функции загрузки, сохранения, хранения и индексирования, а в некоторых случаях и доступа. Работа программной системы Программная система реализована в форме веб-приложения, размещенного по адресу http://biorainbow.com/snp/. Анализ начинается с вызова окна выбора типа данных (рис. 27)

Реализация объединенной среды по анализу регуляторных последовательностей...

Пакет cissearch разработан с целью объединенного анализа генетической информации различными алгоритмами. Набор алгоритмов анализа подбирается в соответствии с набором данных, которыми располагает экспериментатор. Далее перечислены общие обозначения, а затем алгоритмы анализа.

Введем следующие обозначения. P={PI...PN} - набор последовательностей, Мі...Мк набор матриц, N(Mj,Pj) - количество распознанных сайтов матрицы Mj на последовательности Pj. L(Pj) - длина последовательности Pi

При загрузке нового профиля матриц рассчитываются фоновые частоты каждой матрицы Bj на основе фоновой выборки последовательностей Q={QI...QT}: В качестве фоновой выборки взят набор всех промоторов человека. Tj выбирается наименьшим таким, чтобы Щ#»Є0 MAXSITES, где MAXSITES - константа(равная 100 000). На основе промоторов пользователя P={PI...PN} вычисляются относительные частоты сайтов:

F_N(Mj,Pi) и l(Pi) Bj Эти частоты нормированы на фоновые частоты и, поэтому не зависят от количества сайтов, находимых в среднем с помощью этой матрицы.

Результатом работы каждого алгоритма является список матриц Mj с соответствующими им весами распознавания Wj. Он преобразуется в список факторов следующим образом.

Пусть с помощью матрицы Mj распознаются сайты для транскрипционных факторов Fkj, k=l...Kj. Тогда каждому фактору, распознающемуся хотя бы одной матрицей, подставим вес, равный максимальному из весов этих матриц. Получим список факторов с весами, характеризующими вероятность того, что фактор функционально значим в этом эксперименте.

Обработка микрочипов

На вход алгоритму подается набор промоторов Pj и набор величин Ej, соответствующих изменениям экспрессии генов в некотором эксперименте по отношению к контролю.

Вычисляются относительные частоты Fy. Затем для каждой матрицы Mj вычисляется корреляция Cj=corr(Fj,E) между столбцом относительных частот данной матрицы и столбцом экспрессии. Веса распознавания Wj=Cj.

Обработка списка промоторов генов

На вход подается набор промоторов Pj генов, которые высоко, или низко экспрессируются в данном эксперименте по сравнению с контролем.

Вычисляются относительные частоты Fy. Затем для каждой матрицы Mj 2 (Л0,А-) / вычисляется вес по формуле Wj=,=1 /N . Этот коэффициент / ы\ характеризует общую перепредставленность сайтов на промоторах этой группы генов.

Обработка однонуклеотидных полиморфизмов На вход подается набор однонуклеотидных замен Dj, i=l...N в регуляторных областях генов, характеризующих некоторый биологический процесс. Пусть T(Mj,Dj)=l, если сайт матрицы Mj распознается на одном из аллелей Dj и значительно хуже распознается на f,T(Mj,Di) другом аллеле. Тогда искомые веса зададим по формуле: Wj= =1 /ьі нм \ R где l(Mj) - длина матрицы Mj.

Обработка набора промоторов и клинических показаний Допустим, имеется набор промоторов разных индивидуумов Р, с их клиническими показаниями Е;. Такие данные обрабатываем аналогично анализу микрочиповых данных. Обработка набора гомологичных последовательностей Для набора гомологичных последовательностей. Пусть дан набор гомологичных последовательностей Pj. Для поиска группы факторов, общих для данной группы ±\\,Fij c, ,,, м 0,иначе последовательностей используем следующий алгоритм. Wf=—- . Константа с=1. Для выравнивания. Пусть дано выравнивание А набора последовательностей PI...PN. j N\Mj,Pi) Вычислим Wr- , где N (Mj,Aj) - количество сайтов матрицы Mj, 1-І распознанных на выровненной последовательности Pj филогенетического футпринта. помощью метода

Пакет cissearch, разработанный нашей группой в рамках программы «СТАРТ», написан на C++ и на данный момент представляет приложение с графическим интерфейсом, позволяющим обрабатывать различные типы данных: последовательности ДНК, гомологи, данные микрочиповых экспериментов, пути передачи сигналов.

Для анализа указанных данных используется пять алгоритмов: обработка микрочиповых данных, анализ набора генов, филогенетический футпринт, анализ единичных полиморфизмов и анализ аллелей.

Похожие диссертации на Алгоритмы и программные системы для анализа регуляторных последовательностей ДНК