Компьютерное моделирование локальных структур биополимеров, включая взаимодействие с лигандами Урошлев Леонид Андреевич

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Урошлев Леонид Андреевич. Компьютерное моделирование локальных структур биополимеров, включая взаимодействие с лигандами: диссертация ... кандидата физико-математических наук: 03.01.03 / Урошлев Леонид Андреевич;[Место защиты: Институт молекулярной биологии им.В.А.Энгельгарда РАН].- Москва, 2015.- 102 с.

Содержание к диссертации

Введение

Глава 1. Исследование бета-изгиба бета-шпильки IIs-типа 28

1.1. Структурные характеристики ЭНЗ-домена альфа-спектрина 30

1.2. Замыкание цикла путем перебора пар двугранных углов и оптимизации невязки 35

1.3. Замыкание цикла с использованием геометрии расстоянии 40

1.4. Оценка степени «запрещенное» конформации (3-изгиба П -типа 43

Глава 2. STRONG Универсальная процедура получения статистических потенциалов для бивалетных

катионов STRONG 47

2.1. Локализация ионов и определение типа ионов в структурах белковых глобул. Случай наиболее распространенных ионов (Zn2+, Са2+, Mg2+) 51

2.2. Сравнение с имеющимися методами 57

2.3. Соответствие полученных потенциалов экспериментальным данным 59

2.4. Предсказание наличия сайта связывания в структуре белка 62

2.5. Тестирование статистических потенциалов. Скользящий контроль 64

2.6. Ионы с ограниченной статистикой для обучения 65

2.7. Тестирование метода локализации ионов в апо-формах белков 69

2.8. Тестирование алгоритма для апо-форм белков, принадлежащих различным классам SCOR 75

2.9. Сравнение результатов расчета в апо-формах белков с результатами известных методов 77

2.10. Тестирование алгоритма для апо-структур белков, полученных в результате моделирования in silico 79

Глава 3. Локализация ионов и определение типа ионов в структурах РНК 83

Обсуждение 89

Выводы 90

Список принятых сокращений 91

Литература 92

Замыкание цикла путем перебора пар двугранных углов и оптимизации невязки
Оценка степени «запрещенное» конформации (3-изгиба П -типа
Соответствие полученных потенциалов экспериментальным данным
Тестирование алгоритма для апо-структур белков, полученных в результате моделирования in silico

Замыкание цикла путем перебора пар двугранных углов и оптимизации невязки

Таким образом, получается естественная система координат, привязанная к атомам боковой цепи. Так как орт-векторы системы координат могут быть легко получены с помощью выражения (2), можно легко переходить от одной координатной системы к другой. В оригинальной работе Go и Scheraga предполагали, что пептидная группа являлась плоской, однако при условии отличия пептидной группы от плоского состояния метод достаточно просто обобщается с помощью введения дополнительной координатной системы с нулем в Са атоме. Единственное, что требуется при таком переходе - знание двугранных углов между векторами, построенными на четверках атомов, один из которых является центром системы координат. Поэтому центром координат каждой из систем координат будут являться по очереди С, Са и N атомы полипептидной цепи. Из вышеперечисленных соотношений получаем алгоритм для замыкания шпильки: взять в качестве вектора г0 начало бета-шпильки, далее, используя соотношение (1), переходить от одной системы координат к другой в одну сторону, затем, используя аналогичные соотношения, выполнить переходы в обратную сторону, после чего сравнить координаты атомов, находящихся в вершине шпильки, полученные в результате прямого и обратного проходов. При этом необходимо перебрать все возможные комбинации углов для всех углов ф и ф, входящие в вершину шпильки.

При конкретной реализации фиксировались длины ковалентных связей между атомами, а так же величины плоских углов. Варьированию подлежали только двугранные углы, плоские же углы, задаваемые тройками атомов, входящими в ковалентное взаимодействие, считались фиксированными. При оптимизации проводился перебор углов ф, ф и со принадлежащих 47 и 48 аминокислотам, которые и составляют собственно бета-изгиб рассматриваемой шпильки. При этом в ходе оптимизации с помощью перебора углы ф и ф перебирались в диапазоне от -180 до 180, а углы со в диапазоне ±10 от значений соответствующих рентгеноструктурным данных. Шаг перебора равен одному градусу.

На следующем этапе исследований для нахождения точного решения использовались алгоритмы оптимизации, производилась оптимизация по четырем углам - двум углам ф и двум углам ф. С помощью алгоритмов оптимизации, основанные на методе Поуэлла (функция fsolve, входящая в пакет процедур для научных вычислений SciPy (Jones et al., 2001), для языка программирования Python), произведено решение уравнения с четырьмя переменными, а именно - уравнения невязки, которое зависит от четырех двугранных углов ф47, і/47, ф48, i/48. Выбор метода обусловлен прежде всего его нетребовательностью к минимизируемой функции (не требуется вычисление производных). Так как аналитически оценить гладкость частных производных функции невязки не представляется возможным, эта особенность и послужила основой для выбора метода минимизации.

Для запуска метода численной оптимизации необходимо начальное условие. В данном исследовании оно полагалось следующим: брались те двугранные углы ф47, і/47, ф48, i/48 (полученные при переборе двугранных углов), для которых RMSD между реальными и предсказанными положениями атомов меньше единицы. Так как полученное на предыдущем этапе приближение находится достаточно близко к положению атомов, полученному экспериментально, такое начальное приближение может привести к точному положению атомов.

Как можно видеть, помимо решения, соответствующего рентгеноструктурным данным, имеется еще только одно решение, в котором также реализуется «запрещенная» конформация. Поиск по всему банку данных PDB показал, что конформации, имеющие подобные двугранные углы, действительно могут быть экспериментально обнаружены, (см. табл. 4, отбирались лишь структуры с разрешением меньше или равным 3 А, чтобы исключить ошибки эксперимента).

1.3. Замыкание цикла с использованием геометрии расстоянии

Несмотря на показанную при решении задачи о замыкании цикла точность, метод перебора всех возможных углов ф и ф или метод оптимизации заданных углов является малоприменимым для задачи восстановления более длинных участков полипептидной цепи. В рассматриваемом случае «запрещенной» конформации SH3-домена перебиралось семь двугранных углов для двух аминокислот, из которых три угла омега перебирались в диапазоне ±10 от значений, наблюдаемого в эксперименте, а четыре угла ф и ф перебирались в диапазоне от -180.0 до 180.0. Для такой вычислительной схемы расчет одной шпилечной структуры производился в течение 27-28 часов, на вычислительном кластере с использованием 64 процессорных ядер.

Поэтому для корректного замыкания цикла перспективны методы геометрии расстояний (distance geometry). С помощью подходов геометрии расстояний можно восстановить конформацию (в том числе исследуемого фрагмента), зная лишь набор расстояний между атомами.

В эпоху меньших вычислительных возможностей, с помощью данной группы методов проводилось установление белковых структур, полученных с помощью ядерно-магнитного резонанса (ЯМР). С помощью геометрии расстояний определялся ансамбль возможных конформации интересующей белковой структуры. При этом, считался известным лишь набор расстояний между атомами. В настоящее время, с ростом вычислительных мощностей, ансамбль возможных конформации, как правило, восстанавливается с помощью методов молекулярной динамики, а методы геометрии расстояний несправедливо забыты. Так как в нашей задаче фиксированными являются края шпильки, а так же ковалентные связи между соседними атомами и расстояния между смежными атомами, методы геометрии расстояний являются хорошим способом проверки «запрещенной» конформации 5НЗ-домена на соответствие геометрии.

В данном исследовании для замыкания цикла мы использовали программу Mdjeep (Mucherino, Lavor, Liberti, 2013). Одним из главных преимуществ этой программы, по сравнению с такими программами, как TINKER (Ponder, Richards, 2004) или Dgsol (Liberti, Lavor et al., 2012), является оценка количества решений и возможность увеличения количества параметров определяющих конформацию. При построении модели, фиксировались расстояния между атомами, соединенными ковалентными связями внутри шпильки, а также расстояния между краями шпильки, а именно между атомом С 45 и атомом N 50, а так же N 46 и С 49. Рассмотрены атомы остова полипептидной цепи. Исследуемый фрагмент включал те же аминокислоты, что и в пункте 1.2. Как можно видеть из Табл. 5, построенные конформации практически не отличаются от наблюдаемых экспериментально. Вторым решением, полученным с помощью MDjeep (Mucherino, Lavor, Liberti, 2013) и имеющим то же значение функции правдоподобия, является зеркальное отражение решения, реализуемого в структуре (что свойственно геометрии расстояний).

Методы геометрии расстояний являются куда более эффективными, с вычислительной точки зрения, чем перебор всех возможных углов ф-1/ и дальнейший поиск точных значений двугранных углов с помощью алгоритмов решения систем нелинейных уравнений. Среднее время вычисления набора конформации для приведенных ниже случаев, на процессоре Intel CORE ІЗ с четырьмя ядрами, составляет доли секунды. Это позволяет использовать алгоритмы геометрии расстояний в задачах восстановления более длинных фрагментов полипептидной цепи.

Оценка степени «запрещенное» конформации (3-изгиба П -типа

Для разработки алгоритма предсказания расположения ионов в структурах белков мы используем подход, основанный на вычислении статистических потенциалов. В этом подходе оценка псевдоэнергии связывания иона и биополимера определяется как (Rakhmanov, Makeev, 2007): Е=Х ),где (3) 0;(d) - статистический потенциал, для заданного типа ионов, d - расстояние от точки, в которой вычисляется потенциал, до атома белка данного типа, а Е -псевдоэнергия связывания в некоторой точке около белковой структуры. Суммирование в формуле (3) ведется по всем атомам, входящим в структуру белка. Типы атомов белка определяются химическим элементом атома и аминокислотой, в которой находится данный атом. К примеру CA_Gly - это Са атом глицина.

Для получения статистических потенциалов необходимо оценить, насколько наблюдаемые в трехмерных структурах белка расстояния между ионом и атомами определенного типа статистически достоверно отличаются по сравнению с некоторым гипотетическим состоянием, в котором белковая глобула имеет ту же форму, что и в природе, и имеет те же точки связывания ионов, но распределение атомов внутри объема белковой глобулы однородно для всех типов атомов и не зависит от межатомных взаимодействий, и, в частности, от взаимодействий со связанными ионами. Для этого введем два распределения расстояний между ионом и определенным типом атома структуры: наблюдаемое, которое соответствует реальным структурам, и ожидаемое, которое соответствует пространственным структурам, в которых атомы всех типов распределены равномерно. Для оценки распределения наблюдаемых расстояний, для каждой из структур строится распределение расстояний между заданным ионом и каждым из наблюдаемых типов атомов структуры. Далее, распределение нормируется на количество атомов данного типа в структуре.

Для корректной оценки ожидаемого распределения необходим метод, принимающий во внимание геометрию структуры, для которой производится расчет. Для оценки ожидаемого в данной работе использовался метод взвешенных состояний (Reference State Method). При вычислении ожидаемого распределения расстояний этим способом вокруг каждой структуры из обучающей выборки создается сетка с равномерным шагом (шаг определяется пользователем). При этом необходимо отметить, что размеры сетки, создаваемой для каждой из структур, входящих в обучающую выборку, превышает габариты белковой глобулы на 4 А с каждой стороны. Далее, исходя из данных о контактах «атом структуры-ион», строится гистограмма распределения для контактов между точками сетки и атомами структуры, после чего полученная гистограмма нормируется на количество точек сетки. После нормировки на количество узлов сетки эта гистограмма и считается оценкой ожидаемого распределения контактов между ионом и белковой структурой. В результате получается гладкая гистограмма распределения контактов с минимальными значениями в районе О А, что очевидно из геометрии -вероятность найти точку около атома заданного типа растет пропорционально R2 где R - расстояние от точки сетки до атома структуры. При аналогичной процедуре подсчета и нормировки наблюдаемой частоты мы получим корректно определенный потенциал, близкий к бесконечности в районе нуля и стремящийся к нулю при достаточно больших расстояниях.

Стоит отметить, что для каждого типа атома каждой из аминокислот строится свой потенциал. Таким образом, для каждого из рассматриваемого типа иона мы получаем набор из 168 потенциалов - по количеству возможных типов атомов, встречающихся в белке. В текущей реализации алгоритма, каждый статистический потенциал при сохранении в файл представлен в виде таблицы значений функции, с шагом сетки 0.01, что, как показывает опыт, достаточно для применения в любой практически важной задаче.

После получения ожидаемого и наблюдаемого распределения для каждой из структур окончательные распределения контактов получаются с помощью усреднения ожидаемых и наблюдаемых распределений по количеству структур. Логарифмированное отношения между этими усредненными распределениями (4) и будет считаться статистическим потенциалом. NUOH_cemKa( d) - количество узлов сетки, находящихся на расстоянии d от иона, N количество-точек - количество узлов в сетке, NKom4ecmeo_amoMoe -количество атомов заданного типа в структуре, а скобки ()struct означает усреднение по всем структурам в обучающей выборке.

Получив потенциалы для каждого из атомов исследуемого типа структуры, мы можем оценить уровень псевдоэнергии в любой точке вокруг белка и, как следствие, выбрать точку с минимальным уровнем псевдоэнергии связывания иона. Так как псевдоэнергия является аппроксимацией энергии взаимодействия между ионом металла и структурой биополимера, то минимум псевдоэнергии является наиболее вероятным местом посадки иона. Отсюда следует алгоритм предсказания позиции иона: на пользовательскую структуру накладывается регулярная сетка, в каждом узле которой вычисляется псевдоэнергия связывания иона. Для вычисления псевдоэнергии в каждой точке сетки, суммируются значения ранее полученных статистических потенциалов. После чего все точки сетки ранжируются согласно посчитанной псевдоэнергии связывания, и выбираются наиболее низкоэнергетичные точки. На следующем шаге алгоритма вокруг выбранных низкоэнергетичных точек, сетка измельчается, а для каждой точки вновь измельченной сетки рассчитывается псевдоэнергия. Далее, из вновь измельченной сетки отбираются наиболее низкоэнергетические пробы, которые возвращаются пользователю в качестве результата. Количество проб, которые выдаются в файле с результатами, определяется самим пользователем через параметр командной строки.

При достаточно малом шаге сетки такой подход является достаточно эффективным, хотя и требующим значительного процессорного времени для вычисления псевдоэнергии в каждой точке. Очевидно, что процессорное время, требуемое для вычисления энергии в каждой точке белка, составляет порядка 0(тп), где т - число атомов в структуре, an- число точек сетки. Таким образом, при размере сетки 20 А по каждому из измерений и шаге 0.2 А, 20 20 20 получаем =1000000 точек сетки и, как следствие - несколько миллиардов операций. Проблема может быть решена с помощью переноса части вычислений на видеопроцессор, работающий в режиме параллельного вычислительного сопроцессора. При организации вычислений суммирование потенциалов в каждой точки сетки вокруг исследуемого белка обрабатывается в отдельном потоке, за который отвечает отдельное арифметико-логическое устройство на видеопроцессоре. Для каждой точки выделяется отдельная процедура, выполняющаяся параллельно остальным (в терминологии вычислений на видеокартах такая процедура называется потоком). Самой же затратной по времени процедурой является перенос информации из памяти компьютера (хост-памяти) в память видеокарты. Но так как вычисления псевдоэнергии для каждой из точек сетки, окружающей белковую структуру, не требуют информации о других точках, а потенциалы и координаты атомов структуры можно перенести в память видеокарты лишь однажды, то вычисления на видеокартах являются эффективными при решении данной задачи. Такой подход позволяет ускорить выполнение разработанного нами алгоритма минимум в 15-20 раз. Максимальное же ускорение вычислений зависит от класса видеокарты, а именно - от количества арифметико-логических устройств, способных выполнять параллельные подзадания, а так же от геометрии белковой структуры.

Стоит отметить, что в число атомов структур может быть включены атомы воды. Это значительно усиливает предсказательную способность разработанной нами модели, особенно для ионов магния и кальция, которые могут координироваться не только атомами самой белковой структуры, но и окрестным растворителем. Как будет показано в дальнейшем, существует большое количество белковых структур, в котором роль координирующих атомов играет кислород воды.

Соответствие полученных потенциалов экспериментальным данным

Помимо предсказания типа и позиции в данной работе решалась задача о возможности связывания белком иона заданного типа. Для того чтобы корректно решить эту задачу, необходимо описать характеристики места связывания иона. Очевидно, что в месте посадки иона псевдоэнергия связывания должна быть меньше, чем в любой другой точке структуры. Структура, не связывающая ион, не должна иметь точек с более низким уровнем псевдоэнергии, чем структура связывающая ион. Следовательно, бинарный классификатор, основанный на разработанных потенциалах, должен иметь два порога - по минимальной псевдоэнергии и по максимальной разнице между соседними значениями псевдоэнергии в вариационном ряду.

Для проведения теста из банка данных PDB были случайным образом выбраны 300 структур. Контролировалось, чтобы соотношение количества структур, связывающих и несвязывающих данный тип иона, оставалось таким же, как и во всем банке данных PDB. Для каждой структуры из тестового множества определялись 50 точек с минимальной псевдоэнергией. Разделение связывающих и несвязывающих структур производилось на основе следующего критерия "меньше ли минимум псевдоэнергии заданного порога" и "больше ли максимальная разница псевдоэнергий между соседними значениями в вариационном ряду заданного порога". Если структура удовлетворяет обоим критериям, классификатор дает ответ "да", в ином случае - "нет". ROC-кривая, для разных порогов для максимума псевдоэнергии, приведена ниже. где Np - количество структур связывающих ион, Nn - количество структур не связывающих ион. Np и Nn были оценены для каждого типа иона по банку данных PDB. Отношение Np/Nn оценивалось по банку данных PDB и составляло 0.1 для магния, 0.08 для кальция и 0.09 для цинка. Минимальный уровень ожидаемой доли ложных отклонений составляет 14% для магния, 15% для кальция и 12% для цинка.

Следующей целью работы является проверка обобщающей способности статистических потенциалов. Для этой цели использовался скользящий контроль (кроссвалидация)(КоЬауі et al., 1995). В данном методе всю обучающую выборку необходимо разделить на две подвыборки - обучающую и тестовую. Далее модель обучается на обучающей подвыборке, а предсказание выполняется на тестовой. При тестировании фиксируется отклонение полученного результата от правильного.

В диссертационной работе предложен алгоритм скользящего контроля, основанный на исключении из обучающей выборки отдельных суперклассов базы данных SCOP. Всего существует четыре больших суперкласса SCOP - а-белки, Р-белки, а+Р-белки, а/р-белки. Малые суперклассы, такие, как короткие пептиды и coiled-coil белки при проведении скользящего контроля не брались в рассмотрение.

Для проверки статистических потенциалов в качестве тестовой подвыборки по очереди брался каждый из суперклассов SCOP, обучение производилось на оставшихся трех суперклассах. На этапе предсказания оценивается среднеквадратичное отклонение в структурах белков, принадлежащих исключенному классу. Оценка происходила на множестве из 10 структур, выбранных случайным образом из исключенного суперсемейства. RMSD между реальным и предсказанным положением иона для статистических потенциалов, построенных по полной обучающей выборке и после исключения одного суперсемейства, приведено ниже.

Некоторые ионы, несмотря на их слабую представленность в банке данных PDB, могут быть весьма полезны при моделировании или разработке белков. К ним, относятся ионы железа, меди, весьма важные для моделирования амилоидных структур, никеля, необходимые для многих задач, связанных с промышленным использованием микроорганизмов и токсикологическими исследованиями, а также марганец, натрий и хлор, часто встречающиеся в трансмембранных и рибосомальных белках. Для этих ионов размер невырожденной обучающей выборки не превышает 1000 структур, а для некоторых (таких как железо, никель и медь) составляет всего около полутора сотен структур.

Из-за малой обучающей выборки в построенных гистограммах статистических потенциалов появляются достаточно длинные участки, заполненные нулями. Для улучшения качества построенных потенциалов необходимо их сгладить, достаточно близко аппроксимировав некой гладкой функцией. Для этой цели с помощью различных алгоритмов сглаживания было построено и проверено несколько наборов потенциалов. Сглаживалось распределение наблюдаемых расстояний, после чего полученное распределение делилось на ожидаемое распределение. Сглаживание гистограммы распределения наблюдаемых контактов было произведено с помощью трех различных методов - сглаживание по трем точкам, метод LOWESS и процедура, встроенная в пакет программ FBM (Neal, 2000). С помощью каждого из построенных таким образом потенциалов проводилось предсказание на множестве тестовых структур. Размер каждого из тестовых множеств равен 10 структурам. Как показало тестирование, наибольшую эффективность показывает простейшее сглаживание по трем точкам. Это объясняется тем, что более сложные варианты сглаживания объединяют различные пики в гистограмме в один общий пик, что приводит к некорректным результатам предсказания.

Стоит отметить, что построенные потенциалы для железа достаточно хорошо предсказывают не только отдельные ионы железа, которые входят в различные белковые структуры, но и атомы железа, объединенные в феррокластеры, в которые помимо железа входят молекулы серы. Роль феррокласстеров в белковых структурах заключается в формировании структуры внутри белка, а так же межбелковых комплексов. При этом ни один феррокласстер не входил в обучающую выборку, используемую для построения статистических потенциалов для железа - потенциалы строились исключительно по атомарному железу. В диссертационной работе рассматривались феррокластеры вида Fe3S4 (обозначение в банке данных PDB - F3S). Результаты приведены в табл. 10. Как видно из приведенной ниже таблицы, для всех структур RMSD между реальным и предсказанным атомом железа, входящим во взаимодействие со структурой, меньше единицы.

Тестирование алгоритма для апо-структур белков, полученных в результате моделирования in silico

Одной из основных сфер применения разработанного алгоритма и программы может считаться предсказания позиций ионов в структурах белков, полученных в результате in silico моделирования. Такие программы как CHED (Levy, Edelman, Sobolev, 2009) дают оценку факта связывания какого-либо иона на основе лишь первичной структуры белка, но, как было показано в табл. 12 -весьма приблизительную. Для задач аннотации той или иной белковой последовательности бывает необходимо определить тип связываемого иона исключительно по первичной структуре белка. При наличии хотя бы приблизительной структуры полученной по какому-либо алгоритму моделирования de novo, будет возможно воспользоваться разработанной нами программой. Поэтому весьма интересно было бы понять, как именно различные алгоритмы сворачивания белка влияют на точность расстановки ионов с помощью PIONCA.

Для предсказания трехмерной структуры белка, использовались программы сравнительного моделирования структуры SWISS-MODEL (Schymkowitz et al., 2005) и Raptor-X (Kallberg et al., 2012). Программы для моделирования структуры белков de novo не использовались из-за большого объема требуемого для вычисления процессорного времени (время, необходимое для сворачивания одного белка, состоящего из 150 аминокислот с помощью алгоритмов de novo, для web-сервиса CABS-fold (Blaszczyk et al., 2013) составляет около 15 часов, для сервиса IASSER (Zhang, 2008) - около двух суток). Кроме того, многие из методов моделирования de novo в качестве результата возвращают структуру, основную часть которой составляют длинные неструктурированные участки, что маловероятно для реально работающего белка.

Для предсказания трехмерной структуры случайным образом отбирались последовательности из базы данных NCBI-Protein. Для теста случайным образом выбирались те белковые последовательности, в аннотации которых присутствовали ключевые слова «Zinc ion binding», «Calcium ion binding» и «Magnesium ion binding». Для каждой из случайно выбранных последовательностей выполнялось предсказание трехмерной структуры программами SWISS-MODEL (Schymkowitz et al., 2005) и Raptor-X (Kallberg et al., 2012). После получения трехмерной структуры, для нее выполнялось предсказание типа иона, аналогичное приведенному в параграфе 2.1. Если предсказанный тип иона совпадал с типом, указанным в аннотации -предсказание считалось корректным, в ином случае в таблице фиксировался тип иона, который был предсказан той или иной программой.

Всего было свернуто in silico 25 белковых структур. Как можно увидеть из приведенных в табл. 13 результатов предсказания типа иона, точность предсказания составляет 88% для структур, смоделированных с помощью SWISS-PROT (Schymkowitz et al., 2005) и 84% для структур, смоделированных с помощью Raptor-X (Kallberg et al., 2012), что выше уровня точности, которые предоставляют другие программы, выполняющие предсказания исключительно по первичной последовательности (Shu, Zhou, Hovmoiler, 2008). Необходимо также отметить, что большую часть некорректных предсказаний занимает замена кальция на магний, что довольно часто имеет место в реальных клеточных процессах. Примеры такой замены уже неоднократно приводились в тексте диссертационной работы. Для той же тестовой выборки проверялась корректность предсказания для программы MetalloPred (Naik et al., 2011), производящая поиск наиболее вероятного типа связывания иона на основе лишь первичной последовательности белка. Подробнее об алгоритмах работы этой программы было сказано в секции обзора литературы. Как видно из приведенных в таблице результатов, данная программа обеспечивает только 11 корректно предсказанных структур из 25 (44% корректных предсказаний), что намного меньше, чем у разработанной нами программы.

Очевидно, что для получения структуры, для которой в дальнейшем будет производиться предсказание иона, подходит любой метод - от моделирования по гомологии до молекулярной динамики. Главное условие, налагаемое на метод, заключается в обеспечении моделирование структуры белка достаточно близкой к апо- или холо-форме в области сайта связывания иона.

В этой главе будут построены потенциалы для взаимодействия РНК с наиболее распространенными в банке данных PDB ионами. Как отмечалось выше, различные концентрации ионов в окрестном растворителе могут приводить к изменению конформации молекулы РНК и, как следствие, изменять ее функции. Кроме того, ионы магния и натрия являются структурными компонентами рибосомы.

С другой стороны - в случае с РНК мы сталкиваемся с проблемой, описанной в главе 2.6, а именно - со слишком маленькой выборкой, которая используется для построения распределения наблюдаемых контактов. Всего в банке данных PDB, на момент написания этих строк, находится 1093 РНК-структур. Наиболее часто среди всех структур РНК, связывающих какие-либо ионы, встречаются ионы калия, магния и натрия. Именно с ними мы будем в дальнейшем работать. Из всех РНК-структур, связывают ион магния - 215, ион натрия - 50, ион калия - 78, причем среди них присутствует множество не просто гомологичных, а повторяющихся структур, кристалл для которых формировался при различных экспериментальных условиях. Кроме того, одна и так же структура РНК может быть получена в одном эксперименте неоднократно. Примером повторяющихся структур можно считать структуры 3GX2, 3GX3, 3GX5, 3GX7, полностью идентичные по всем входящим в структуру РНК цепям. Все эти структуры связываются с одним и тем же типом иона - ионом магния. Очевидно, что даже столь малая обучающая выборка нуждается в тщательной фильтрации по гомологии. Для фильтрации по гомологии была использована программа BLAST (Myers, Altschul, Lipman, 1990). После фильтрации было получено 80 структур для иона магния, 33 структуры для иона натрия и 33 структуры для иона калия. Таким образом, методы сглаживания гистограмм, такие как экспоненциальное сглаживание, ядерное сглаживание или LOWESS, рассмотренные ранее для столь малой выборки, либо малоэффективны, либо бесполезны из-за больших «провалов» (областей в гистограмме, заполненных нулями, которые появляются из-за отсутствия информации о контактах на заданном расстоянии в обучающей выборке) в наблюдаемом распределении частот. Наиболее эффективно было бы оценить распределение наблюдаемых контактов, как гладкую дифференцируемую функцию, лишенную каких бы то ни было областей, в которых не будет информации о контактах. Поэтому распределение наблюдаемых контактов оценивалось с помощью программы FBM (Neal, 2000), которая возвращает в качестве результата взвешенную сумму гауссиан, количество которых определяется предварительной кластеризацией входных данных.

Из-за малого количества структур РНК в банке данных PDB сформировать корректную тестовую выборку не представляется возможным. Поэтому в данной работе мы воспользовались алгоритмом кроссвалидации, а именно, алгоритмом «складного ножа» (jack-knife). При тестировании из обучающей выборки исключается одна структура, для полученной выборки строится статистический потенциал, после чего выполняется предсказание для исключенной структуры. Исключение более значительных фрагментов из обучающей выборки не представляется возможным из-за чрезвычайно малого объема имеющихся в наличии РНК-структур. В табл. 14 приведены предсказания для некоторых РНК структур из банка данных PDB с использованием полноатомной модели статистических потенциалов. В полноатомной модели для исследования взаимодействия РНК-ион, было получено 85 статистических потенциалов.

Стоит отметить важную роль, отводимую атомам воды, окружающих молекулу РНК, в координировании разнообразных ионов. В отличие от ситуации для белков, в РНК молекулы воды являются основным координирующим элементами ионов металлов. Как можно увидеть на рис. 15, в качестве атомов, формирующих сайт связывания иона, служат исключительно атомы воды. Поэтому, как и в случае с белковыми структурами, в набор статистических потенциалов включается потенциал для окрестной воды. Стоит отметить, что в подавляющем большинстве случаев (65%, по данным анализа всех структур РНК связывающих магний в банке данных PDB) близкие контакты иона образуются именно с атомами воды. В 30% близкий контакт образуется с сахарофосфатным остовом молекулы РНК. Контакты с основания, если и образуются, то через посредство воды.