Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Применение методов контролируемой классификации для анализа биологических данных Крестьянинова Мария Александровна

Применение методов контролируемой классификации для анализа биологических данных
<
Применение методов контролируемой классификации для анализа биологических данных Применение методов контролируемой классификации для анализа биологических данных Применение методов контролируемой классификации для анализа биологических данных Применение методов контролируемой классификации для анализа биологических данных Применение методов контролируемой классификации для анализа биологических данных Применение методов контролируемой классификации для анализа биологических данных Применение методов контролируемой классификации для анализа биологических данных Применение методов контролируемой классификации для анализа биологических данных Применение методов контролируемой классификации для анализа биологических данных Применение методов контролируемой классификации для анализа биологических данных Применение методов контролируемой классификации для анализа биологических данных Применение методов контролируемой классификации для анализа биологических данных
>

Данный автореферат диссертации должен поступить в библиотеки в ближайшее время
Уведомить о поступлении

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - 240 руб., доставка 1-3 часа, с 10-19 (Московское время), кроме воскресенья

Крестьянинова Мария Александровна. Применение методов контролируемой классификации для анализа биологических данных : Дис. ... канд. физ.-мат. наук : 03.00.02 : Москва, 2003 136 c. РГБ ОД, 61:04-1/787

Содержание к диссертации

Введение

1. Обзор литературы 6

1.1. Биочипы: технология изготовления и область применения.6

1.1.1 Предпосылки к использованию микрочипов 6

1.1.2 Микрочипы фирм Affymetrix, Protogene, Nimble Gen 8

1.1.3 Матричные микрочипы с пре-синтезированными зондами 10

1.1.1. Методы обработки и анализа микрочипных данных 13

1.2.1 Методы представления, нормализации и трансформации данных в экспериментах с биомикрочипами 13

1.2.2 Анализ микрочипных данных методами неконтролируемой классификации 23

1.2.3 Анализ микрочипных данных методами контролируемой классификации 28

1.3. Специфика постановки экспериментов по экспрессии генов в течение клеточного цикла и возможные виды анализа результатов 32

1.4. Хранение и аннотирование данных о белковых последовательностях 35

2. Материалы и методы 41

2.1 Материалы 41

2.2 Методы 53

2.2.1 Индукционный алгоритм 53

2.2.2 Дискретизация по методу Fayyad и Irani 58

2.2.3 Определение характеристической выборки 60

2.2.4 Метод кривых рабочих характеристик 61

2.2.5 Подготовка и анализ данных 63

3. Результаты и обсуждение 70

3.1. Анализ данных по генной экспрессии методом контролируемой классификации 70

3.1.1 Поиск правил классификации 72

3.1.3 Классифицирующие правила 74

3.1.4 Верификация полученных правил 82

3.2. Идентификация наиболее информативных характеристических мотивов InterPro и исследование влияния качества мотивов на точность автоматической аннотации белковых последовательностей с помощью InterPro 86

Выводы 94

Введение к работе

На сегодняшний день усилия исследователей в области молекулярной биологии все больше смещаются от накопления экспериментальных данных о различных биологических объектах к описанию, классификации и анализу уже полученных результатов. В частности, ссквенирование геномов и крупномасштабные молекулярно-биологические эксперименты привели к необходимости создания методов анализа большого количества данных. Данная работа посвящена изложению одного из таких подходов, относящегося к классу методов контролируемой классификации, и проверке его эффективности на примере разного типа задач: для анализа результатов биомикрочипного эксперимента по экспрессии генов Saccharomyces cerevisiae в течение клеточного цикла и для функциональной аннотации неохарактеризованных белковых последовательностей.

Изучение генной экспрессии является одной из самых актуальных проблем функциональной геномики. Крупномасштабные (large-scale) эксперименты по генной экспрессии, позволяющие одновременно получать данные об экспрессии целого генома - это передовая и многообещающая технология в области реконструирования сетей регуляции генов. До настоящего момента было предложено множество способов предсказания исхода лечения, подтверждения или уточнения диагноза или определения потенциальных участников генных регуляториых сетей с применением методов контролируемой классификации. Диагностика рака, туберкулеза, предсказание исхода/влияния лечения являются примерами успешного применения этих методов. Отдельная область применения контролируемой классификации - предсказание функции генов или их продуктов.

Многочисленные успешные проекты по секвенированию геномных последовательностей организмов, самым ярким среди которых является проект «Геном человека», привели к постепенному смещению научно-исследовательской инициативы от геномики в область протеомики, где основной интерес в данный момент сконцентрирован на идентификации всего разнообразия белков и их функций, закодированных в уже известных геномных последовательностях. Основным направлением протеомики является определение/построение регуляториых белковых сетей. Практический выход таких исследований - это установление причин многих заболеваний, методы диагностики стадии заболевания, а следовательно, и обнаружение высокоспецифичных методов лечения с учетом их влияния на организм в целом. Увеличивающееся с каждым днем количество данных требует для их анализа консолидированных усилий специалистов различных областей знания. Здесь особенно важной становится возможность применения методов, позволяющих объединять научную информацию различного рода и делать на их основе точные выводы об исследуемом объекте. Поэтому, именно методы контролируемой классификации привлекают все большее внимание исследователей в области протеомики.

Методы представления, нормализации и трансформации данных в экспериментах с биомикрочипами

Какой бы чип ни выбрал экспериментатор для своих исследований, после проведения гибридизации перед ним встает задача просканировать полученный массив образцов, причем результаты сканирования (интенсивности флуоресценции в каждой из ячеек) должны быть представлены в формате, позволяющем их дальнейший анализ или сравнение [15]. Хотя результаты сканирования, с использованием различных программных пакетов, имеют количественное представление, они все еще не пригодны для анализа. Требуются некоторые преобразования, которые позволили бы исключить сомнительные или неточные измерения или, например, при изучении экспрессии и взаимосвязей между генами, отобрать для анализа те гены, экспрессия которых изменяется от образца к образцу (т.н. дифференциально экспрессированные гены - те, которые потенциально несут информацию об изменении состояний системы при изменении условий) [16]. Первое преобразование данных об экспрессии - это нормализация, позволяющая перевести результаты в общий непротиворечивый формат, т.е. когда интенсивности, полученные на разных микрочипах можно сравнивать между собой. Необходимость нормализации данных вызвана наличием разнообразных экспериментальных вариаций, связанных с различными источниками экспериментальных ошибок [2, 14]. При планировании микрочипного эксперимента обязательно принимают во внимание неизбежное присутствие вариаций, в таких процедурах как: сравнение профилей экспрессии одних и тех же генов в различных условиях; сравнение генной экспрессии двух клеточных линий, генотип которых различается по 1-3 известным генам (необходимо убедиться что эти линии изогенны); анализ генной экспрессии раковых клеток различных типов и генотипов; использование различных протоколов экстракции мРНК изучаемых клеток. Снизить риск вариаций, обусловленных различиями в условиях выращивания клеточных культур или неизогенностью клеточных линий, можно лишь установлением строгих общих стандартов проведения микрочииных экспериментов [15]. Источниками вариаций совершенно другой природы являются неоднородность подложки или концентрации иммобилизуемой ДНК, различие в размерах капель наносимых роботом на пластину и пр. [4] Стандартизация протоколов микрочипных экспериментов, конечно, существенно повышает качество экспериментов, но не отменяет необходимость проведения нормализации данных, полученных в различных лабораториях [5]. В настоящее время используется множество методов нормализации уровней/отношения уровней экспрессии.

Один из самых распространенных - это метод общей нормализации [1, 14, 17]. Рассмотрим экспериментальный массив с п ячейками [1]. Будем обозначать интенсивности изучаемого образца и контроля г и g соответственно, тогда отношение r/g представляет собой относительное изменение экспрессии. Легко заметить, что множеством значений такого отношения при увеличении экспрессии будет интервал от 1 до +« , а при уменьшении все возможные значения расположены в интервале от 0 до 1. Распределение значений, таким образом, сильно несимметрично относительно среднего. Поэтому, для удобства, в качестве меры изменения экспрессии зачастую используют log отношения r/g по основанию 2. Логарифмическая шкала позволяет сбалансировать распределение измеренных величин относительно среднего и проводить анализ с помощью привычных и разработанных статистических методик, основанных на симметричных распределениях, прежде всего нормальном. Предположим, что для сравнения двух образцов используют равные количества мРНК [17]. Учитывая, что каждый образец содержит миллионы копий молекул мРНК, предположим, что средняя масса каждой молекулы приблизительно одна и та же, и число молекул в каждом образце одинаково. Пусть в каждый момент времени экспрессия генов данного генома такова, что в одинаковой мере представлены гены с пониженной и с повышенной экспрессией. Таким образом, конечная интенсивность (сумма иптенсивностей всех ячеек чипа) гибридизации исследуемого и контрольного образцов примерно одинакова. Исходя из этого, фактором нормализации данных может являться отношение сумм интенсивностей изучаемого и контрольного образцов: где Tj и gj интенсивности /-ои ячейки в образце и в контроле, соответственно. Тогда нормализованная относительная экспрессия гена /-ой ячейки есть: Ng, Домножение значений отношений экспрессии на фактор нормализации дает среднее значение относительной экспрессии равное 1. Если рассматривать логарифм отношения по основанию 2, то эквивалентным действием будет вычитание log2(N). Существует множество различных вариантов этого типа нормализации, включая пересчет интенсивностей элементов так, чтобы средняя интенсивность не менялась в пределах одного образца или для разных образцов; или, напротив, при вычислении фактора нормализации рассматривают лишь часть генов (например генов, которые заведомо не изменяют характер экспрессии в заданном эксперименте) представленных на чипе [18]. Несмотря на широкую распространенность, вышеописанный метод имеет свои недостатки и ограничения [5].

Одно из них - это предположение о том, что количество суммарной мРНК в образцах всегда постоянно. Предположение хорошо работает в экспериментах по экспрессии целых геномов, особенно если это бактериальные геномы. В этом случае относительная экспрессия большинства генов не меняется, а для остальных, увеличение экспрессии компенсируется уменьшением экспрессии других. Очевидно, что это неверно, если целью эксперимента является получение профиля экспрессии небольшой группы генов (например, участников определенного каскада, который запускают какие-то изменения среды). Также, нельзя говорить о постоянстве суммарного количества мРНК при сравнении экспрессии генов в различных типах клеток. Существуют вариации метода, когда предполагают неизменность других параметров. Например, исходят их того что 90% тотальной РНК составляет рибосомальная РНК, которая экспрессируется в клетках конститутивно. Все подобные методы хорошо работают лишь в экспериментах определенного типа, и исследователь должен учитывать это обстоятельство при планировании эксперимента и выборе чипа. К примеру, предположение о конститутивной экспрессии рибосомальной РНК далеко не всегда верно, а уровни концентрации суммарной клеточной РНК могут сильно колебаться при изменениях среды или в экспериментах с разными типами клеток. Так, для линий клеток млекопитающих, возможны изменения концентрации РНК в 50 раз [18]. Помимо метода глобальной нормализации существует ряд альтернативных подходов, включая линейный регрессионный анализ, логарифмическое центрирование и др. методы [20, 21, 22]. К сожалению, большинство из них не учитывает систематической ошибки, всегда присутствующей в микрочипных данных (например ошибка при измерении интенсивности гибридизации низко экспрессированных генов) [23, 24]. Учесть такого рода ошибку позволяет предложенный недавно метод локально взвешенной линейной регрессии (ЛВЛР) [25]. Первым шагом этого метода является графическое представление log2(r/gv) как функции от log\o(rig\). Полученный график называют графиком относительных интенсивностей, рис 3, [17]. Отклонение множества полученных точек от прямой демонстрирует наличие систематической ошибки, величина которой зависит от интенсивности.

Специфика постановки экспериментов по экспрессии генов в течение клеточного цикла и возможные виды анализа результатов

Появление технологии микрочипов и развитие методов анализа крупномасштабных экспериментов сделало возможным более детальное изучение таких сложных процессов как дифференциация и деление клетки. С целью выяснить сложнейшую цепочку событий происходящих в клетке в процессе деления было проведено много как классических биологических экспериментов, так и модельных расчетов. Lee Hartwell, Paul Nurse, Tim Hunt и Kim Nasmyth работали в этой области с конца 60-х и внесли огромный вклад в изучение процесса деления, обнаружив главных участников и основные этапы деления в самом удобном для подобных исследований организме - Saccharomyces cerevisiae [59, 60]. В 1999г была предпринята попытка моделирования клеточного цикла дрожжей с применением дифференциальных уравнений [61]. С помощью предложенной модели авторы воспроизвели механизм синтеза и деградации циклинов (основных координаторов клеточного цикла) и, спустя два года, правильность их предсказаний была продемонстрирована классическими молекулярно-биологическими экспериментами [62]. Новым этапом исследований становится появление технологий, позволяющих наблюдать эксперессию многих генов (в случае Saccharomyces cerevisiae - всего генома) на протяжении клеточного цикла, и предсказывать/находить потенциальных участников процесса. Такие эксперименты были поставлены Paul Spellman и Raymond Cho. Spellman, объединив данные нескольких микрочипных экспериментов, проанализировал их с целью обнаружить те гены, экспрессия которых меняется периодически и согласованно в течение клеточного цикла [63, 64]. Очевидно, именно гены с периодическим характером экспрессии в первую очередь претендуют на роль участников периодического же процесса деления. Так было обнаружено около 800 генов ассоциированных с регуляцией клеточного цикла. Концепция клеточного цикла Для самовоспроизводства клетке необходимо дуплицировать все ее компоненты и равномерно поделить их между собой и дочерней клеткой с тем, чтобы обеспечить жизнедеятельность и способность к самовоспроизводству дочерней клетки [65, 66]. В S фазе вся ДНК клетки реплицируется, образуя две идентичные сестринские хроматиды. В течение М фазы клетка формирует веретено деления и в анафазе ДНК расходится к противоположным полюсам [67, 68]. Две фазы разделены между собой фазами G1 и G2.

Согласно концепции, предложенной Kim Nasmyth [70], клеточный цикл есть непрерывная смена двух состояний G1 и S/M. Несмотря на то, что эта гипотеза противоречит классической концепции, она была подтверждена экспериментально [69, 71]. На рис. 7 представлена общепринятая на сегодняшний день молекулярная модель регуляции клеточного цикла, основанная во многом на гипотезе Nasmyth. Основной контроль переходов G1= S= G2= M= G1 осуществляется циклинами On 1-3 и С1Ы-6 за счет их связывания с циклин-зависимой киназой (CDK), Cdc28. Циклины представлены или наоборот отсутствуют в клетке в зависимости от стадии клеточного цикла, в то время как Cdc28 экспрессируется постоянно и присутствует в избытке будучи активной лишь в связанном с циклином состоянии. В начале цикла в клетке присутствуют несколько молекул циклина СІпЗ, а факторы транскрипции SBF, MBF и Меті неактивированы. Активность Clb-зависимой киназы подавлена стехиометрическим ингибитором Sicl, а так же протеолизом Clb-циклинов. Cln3/Cdc28 комплекс представлен на низком и постоянном уровне в течении всего цикла, и в начале цикла именно он запускает цепь событий, приводящих к делению клетки. Последовательность событий можно проследить по рис 7 слева направо. Когда клетка достигает определенного размера, Cln3/Cdc28 и Вск2 активируют факторы транскрипции SBF и MBF циклинов С1п2 и С1Ь5. Причем Cln2/Cdc28 находится в активной форме сразу после инициации экспрессии циклина, а С1Ь5 является частью неактивного тримера Clb5/Cdc28/Sicl. Cln2/Cdc28 фосфорилирует Sicl, тем самым делая его доступным для расщепления SCF комплексом, что в свою очередь приводит к активации комплекса Clb5/Cdc28. Кроме того, Cln2/Cdc28 инактивирует Hctl, который в течении всей G1 фазы вместе с АРС (anaphase-promoting complex), обеспечивал постоянную деградацию С1Ь2. Разрушение Sicl и резкое возрастание активности Clb5/Cdc28 приводит клетку в S фазу. Концентрация активного комплекса Clb2/Cdc28 возрастает с некоторой задержкой, т.к. она автокаталитична, т.е. этот комплекс активирует свой собственный фактор транскрипции (Mcml/SFF). Clb2/Cdc28 выключает экспрессию С1п2, инактивируя его фактор транскрипции - SBF. Также, инактивируется комплекс MBF и концентрация С1Ь5 начинает падать. Активация Clb2/Cdc28 индуцирует митоз. Переход из метафазы в анафазу регулируется белками Hctl и Cdc20, которые обеспечивают распознавание белков, подлежащих расщеплению АРС. В метафазе они не активны, но как только репликация ДНК полностью завершена, Cdc20 становится активным и опосредованно способствует 1) разделению сестринских хроматид (анафаза А), 2) активации Hctl, который ответственен за протеолиз С1Ь2, а следовательно инициацию анафазы В и отделение дочерней клетки, 3) активации Swi5, фактора транскрипции Sicl. С появлением Sicl и дезактивации циклин-зависимой киназы (за исключением комплекса Cln3/Cdc28), клетка возвращается в G1 [59- 71]. Специфика экспериментов по анализу клеточного цикла Перед любым биологом, проводящим эксперимент по экспрессии генов в течении клеточного цикла неизбежно стоит задача синхронизации клеточной культуры. Существует множество способов синхронизовать клетки, которые могут быть условно разделены на два класса: использующие биохимические агенты и не использующие их [72]. К первому классу например, может быть отнесен метод ареста с сс-фактором. Добавление а-фактора к клеточной культуре приводит к дезактивации комплекса Cln2/Cdc28 и к аресту клеток в G1 фазе[82]. Среди других подобных методов можно назвать те, которые используют мимозин [83], ловастатин [84], тимидин [85], нокадозол и колцимид [86]. Все эти агенты хороши для остановки цикла клетки в определенный, заранее известный, момент, но к сожалению влияние их на метаболизм клетки изучено далеко не полностью, а следовательно, невозможно поручится за то, что исследователь наблюдает природную экспрессию генов, а не реакцию на действие постороннего вещества [87].

Был предложен ряд иных методов синхронизации: контактное ингибирование [88], отбор среды [89], температурный сдвиг [90], элютриация [91]. Первые два основаны на природных механизмах роста клеточной популяции. При достижении определенной плотности большинство клеток клеточной культуры пребывает в фазе G1, а последовательные отбор и добавление питательной среды приводит к остановке цикла в GO с последующей синхронизацией в G1 [89]. Несомненное преимущество этих методов перед описанными выше - это то, что вмешательство исследователя в механизмы роста и деления клеток сведено к минимуму, но как показывают исследования, на сегодня лишь метод элютриации позволяет быть уверенными в том, что экспрессия генов близка к их экспрессии в нормальной культуре [87]. Селекция клеток, находящихся в определенной фазе клеточного цикла методом элютриации (мягкое центрифугирование с отбором клеток определенного размера) не требует остановки цикла и в этом огромное преимущество метода. Тем не менее, некоторые исследователи отмечают недостаточно точную синхронизацию клеток этим методом [72]. Таким образом, при постановке биочипного крупномасштабного эксперимента по экспрессии генов в течении клеточного цикла стараются провести синхронизацию несколькими различными способами и доверяют лишь профилям полученным при различной синхронизации, предполагая что наличие в них артефактов минимально. Глава I.IV. Хранение и аннотирование данных о белковых последовательностях. Многочисленные успешные проекты по секвенированию геномных последовательностей многих организмов, самым ярким среди которых является проект «Геном человека», привели к постепенному смещению научно-исследовательской инициативы от геномики в область протеомики, где основной интерес в данный момент сконцентрирован на идентификации всего разнообразия белков и их функций, закодированных в уже известных геномных последовательностях. Основным направлением протеомики является определение/построение регуляторных белковых сетей. Практический выход таких исследований - это открытие причин многих заболеваний, методы диагностики стадии заболевания, а следовательно, и обнаружение высокоспецифичных методов лечения и учет их влияния на организм в целом.

Методы

Поскольку в данной работе использованы методы контролируемой классификации, то и основная терминология заимствована из этой области. Будем называть функцию, определяющую состояние транскрипционного аппарата гена, классификатором, а алгоритмы, строящие такие классификаторы на основе известных данных, индукторами или индукционными ачгоритмами. Те гены, состояния которых мы хотим предсказывать, будем называть предсказываемыми, а те, на основе данных об экспрессии которых делаются предсказания, - объясняющими. Профиль экспрессии объясняющих генов, т.е. столбец экспрессионной матрицы X, и приписанное ему соответствующее состояние предсказываемого гена называется примером (или примером правильной классификации) что буквально означает, что данному профилю экспрессии приписано верное состояние предсказываемого гена). Другими словами, данному набору характеристик приписан верный класс объекта, приписанный. Совокупность примеров, используемых алгоритмом для построения классификатора, есть обучающая выборка. Подгруппа примеров из этого множества, используемая для оценки точности классификации, есть тестовое множество примеров или тестовая выборка. Одной из решаемых в данной работе задач является идентификация тех генов, данные о которых содержат информацию, необходимую для предсказания состояния рассматриваемого гена. В классификационной терминологии, нам необходимо отобрать такие характеристики, на основе которых возможно верное предсказание исхода и отбросить те из них, которые не несут информации об исходе, и, следовательно, лишь затрудняют классификацию. Подмножество информативных характеристик называют характеристической выборкой, а процедуру отбора таких характеристик обычно называют проблемой определения характеристической выборки. II.ИЛ Индукционный алгоритм Индукционный алгоритм С4.5, использованный нами как ядро для анализа экспрессивных данных и аннотации белковых последовательностей, был предложен J. Ross Quinlan [106] и входит в состав многих программных пакетов, в том числе WEKA [109], который свободно распространяется через Интернет и использовался для расчетов в данной работе. Идея С4.5 заключается в индуктивном построении классификатора в форме дерева принятия решений. Алгоритм действует, обобщая информацию из примеров обучающей выборки. Последовательно перебирая характеристики, С4.5 выбирает наиболее информативную из них, ставит ее в корень дерева; далее, для новых вершин, повторяет процедуру выбора и т.д. В качестве критерия останова построения дерева служит эвристический критерий схожий с Принципом Минимальной Длины Описания (MDL - minimum description length principle).

Чтобы описать принцип работы алгоритма начнем с его предшественника, также разработанного Quinlan, под названием 1D3 [106]. Алгоритм работает только с дискретными характеристиками. Итак, пусть имеется 5 примеров обучающей выборки, на основе которых проводится классификация. Каждый из примеров принадлежит определенному классу. Рассмотрим случай двух классов "0" и "1" (который легко обобщить), тогда 5й примеров принадлежат классу "0" и S1 классу "1". Для простоты предположим, что каждая дискретная харатеристика X имеет два значения Xj и А , и соответственно может лежать либо в двух численных интервалах (если она численная) или принимать значение одного из двух символов (если она символьная). Очевидно, что все множество примеров обучающей выборки можно разбить на два подмножества Si и 5л соответствующие двум значениям характеристики. Каждое из них содержит примеры класса "0", Sj и S"/, и класса "1", S/ и .%7 соответственно. Информационный критерий состоит в подсчете разницы в информации, доступной для отнесения наугад выбранного примера обучающей выборки к определенному классу, с учетом и без учета выбранной характеристики. Без учета характеристики мы располагаем лишь частотами встречаемости определенного класса в наборе примеров обучающей выборки. Таким образом, доступная информация измеряется по формуле: InMS\Sl) = Log2 - -Log2y, S = S+S (1) Буквально это означает то, что мы принимаем решение о принадлежности объекта к какому-либо классу случайным образом в соответствии с вероятностью того, что наугад выбранный из обучающей выборки пример принадлежит определенному классу (вероятность в данном случае равна отношению количества объектов данного класса к общему количеству объектов). Теперь учтем наличие характеристики X. Информация, доступная после разбиения множества примеров с учетом значений X, равна: Здесь и далее под функцией Info понимается то же, что и в (1). Осталось взять разницу между (1) и (2) и мы получаем то количество информации, которое прибавилось с учетом X: Gain = Info(S\Sl) -InfoaS StUS XDw Было замечено, что при выборе характеристик на основе данного критерия предпочтение всегда отдается тем из них, которые принимают большее число дискретных значений. Действительно, если рассмотреть к возможных значений для X, то (3) примет вид: Gш« = //7/O(5 5,)-/ф([510,4S1I]v..,[0,1])(4) Соответственно, существенно повысится вероятность того, что в каждое из к подмножеств попадут лишь примеры одного класса "О" или "1", максимизируя таким образом выражение (4). Но такой выбор отнюдь не означает максимизацию точности. Например, при диагностике пациентов поликлиники на предмет определенного заболевания, учет их имен приведет к тому, что все остальные характеристики, в том числе и результаты медицинского анализа, будут отброшены. Имя как характеристика аккуратно и точно разделит множество пациентов ничего не говоря о состоянии их здоровья. С учетом этой особенности применяют модифицированный критерий, отражающий ту часть информации содержащейся в характеристике о классах обучающей выборки, которая релевантна для классификации: GainRatio = InMS0,Sl)-InM[St0,sX ,[Sk0X]) /и/эд,.--А) (5) Отметим что знаменатель (5) учитывает разбиение S согласно значениям характеристики X, а не согласно распределению классов. Поскольку имеется всего два класса, максимум числителя в (5) равен logz2= -l/2 log2(l/2) — l/2 log2(l/2) (в случае М классов максимум равен log2M). В случае с пациентами поликлиники значение знаменателя, если у всех пациентов разные имена, равно log2N, где N - количество пациентов. Очевидно, что если количество пациентов больше двух (больше М, в случае Л/ классов), то такой характеристике будет придана малая значимость согласно критерия (5). Для работы с непрерывными характеристиками достаточно добавить процедуру определения точки/точек разбиения интервала значений характеристики.

Если в обучающей выборке содержится S примеров, то очевидно каждая непрерывная характеристика принимает ровно S значений (среди которых могут конечно встречаться одинаковые). Таким образом, расположив эти значения в порядке возрастания мы получим (5-/)-но возможное положение точки разбиения (очевидно, все положения между двумя последовательными значениями характеристики эквивалентны). Осталось подсчитать значение формулы (5) для каждого из возможных положений и выбрать то, которое максимизирует (5). Таким образом, для каждой характеристики определяется оптимальное положение точки разбиения. Теперь каждая характеристика может быть рассмотрена как дискретная и мы возвращаемся к прежней процедуре. Разбиение множества значений непрерывных характеристик на оптимальное количество интервалов требует формулировки определенных критериев оптимальности. Действительно, с точки зрения точности классификации, может быть более выгодно дискретизовать характеристики согласно какого-то иного правила, чем просто разбиение на два интервала значений. Один из таких методов дискретизации, предложенный Fayyad/Irani [107] рассмотрен в следующем разделе. Для того, чтобы закончить описание индукционного алгоритма, необходимо определить критерии для остановки перебора характеристик, т.е. остановки роста дерева принятия решений. Как уже упоминалось, алгоритм действует индуктивно, выбирая в корень дерева самую "информативную" в смысле (5) характеристику, затем элиминирует ее из множества характеристик и повторяет процедуру отбора на каждом из образовавшихся подмножеств примеров (ветвях дерева) каждый раз добавляя новый уровень в дерево решений. Осталось решить где же следует остановиться в построении дерева. Тут привлекают так называемый принцип Минимальной Длины Описания, который частично происходит от т.н. принципа лезвия Оккама: из двух описаний объекта, имеющих одинаковую точность, предпочтительнее то, которое имеет меньшую длину описания.

Идентификация наиболее информативных характеристических мотивов InterPro и исследование влияния качества мотивов на точность автоматической аннотации белковых последовательностей с помощью InterPro

Так как начальной целью создания InterPro, вобравшей в себя характеристические мотивы, полученные 7-ю различными базами данных [76], использующих отличные друг от друга методы, было предсказание функции белка на основе его первичной последовательности, то возникает вопрос о том, в каких случаях стоит доверять результатам тех или иных методов, какие из них существенны для прогнозирования функции и могли бы служить консенсусными. От ответа на этот вопрос зависит качество и достоверность данных InterPro, а следовательно и функциональной аннотации, осуществляемой с помощью InterPro. Эта часть диссертации посвящена решению задачи определения характеристической выборки на примере аннотации (в данном случае, описания в терминах ключевых слов SWISS-PROT) белковых последовательностей SWISS-PROT и TrEMBL [74], классифицированных в InterPro. В данном контексте характеристическая выборка - это набор необходимых для корректной аннотации белка мотивов. Белковая последовательность в InterPro описывается в терминах характеристических мотивов (фингерпринтов, Марковских моделей и т.д.). Комбинация мотивов InterPro, их наличие и расположение относительно самой последовательности или других мотивов являются уникальными индивидуальными характеристиками белка. Для такой классификации необходимо лишь задать аминокислотную последовательность и проверить какие из мотивов в ней обнаружены. В то же время существует описание белков на основе биохимических экспериментов, примером такого описания являются ключевые слова SWISS-PROT. Если в качестве обучающей выборки взять белки SWISS-PROT, то белки TrEMBL (см. подробнее Материалы и Методы), описанные в InterPro, могут быть аннотированы автоматически с помощью методов контролируемой классификации в терминах ключевых слов. Белковые последовательности характеризуются не только наличием определенных мотивов, но и позициями этих мотивов, а также их положением друг относительно друга. Исчерпывающим, наиболее индивидуальным, описанием последовательности является т.н. Детальный вид InterPro (см. Материалы). Поэтому важно, чтобы информация, содержащаяся в этом графическом представлении, присутствовала в конечном .arff файле. Процедура кодирования Детального вида InterPro подробно описана в Материалах и Методах. Она позволила получить выражение для наличия характеристических мотивов в каждой из последовательностей и сформировать для всех ключевых слов SWISS-PROT свои обучающие выборки. Таким образом, каждый белок был представлен рядом характеристик, включающих в себя мотивы InterPro, обнаруженные в его последовательности, и информацию о приписанном этому белку ключевом слове. На основе этих данных были получены правила, по которым белку, в зависимости от сочетания обнаруженных в нем характеристических мотивов, приписывается то или иное ключевое слово.

Подготовка данных и обучающей выборки подробно описана в разделе Материалы и Методы. Далее по тексту этого раздела под обучающей выборкой понимается таковая для произвольного ключевого слова. Для построения точного классификатора требуется обучающая выборка, содержащая достаточное количество как положительных, так и отрицательных примеров. Количество белков, описанных заданным ключевым словом, как правило, отличается от количества белков, не связанных с этим словом, на 2-3 порядка. Такой дисбаланс примеров в обучающей выборке может привести к получению непригодных для аннотации классификаторов. Действительно, точность классификатора, который не приписывает ключевое слово ни к одному из белков, при таком соотношении примеров составит 99%. Для того, чтобы приписать ключевые слова SWISS-PROT описанным в InterPro аминокислотным последовательностям была разработана процедура фильтрации данных и методика применения кривых рабочих характеристик для подбора весов (см. Методы), необходимых для учета несбалансированности начальных данных. Все наименее специфичные слова были исключены из рассмотрения (см. Материалы и Методы). Для составления как можно более сбалансированной обучающей выборки, с минимальной потерей информативности для каждого набора положительных примеров (белков с приписанным ключевым словом), были отобраны белки, в которых встречаются те же характеристические мотивы, но нет соответствующего ключевого слова. Тем самым, множество белков, не ассоциированных с данным словом, сократилось до подмножества лишь тех, которые классифицированы в InterPro теми же характеристическими мотивами, что и белки в положительных примерах. Несмотря на вышеописанную фильтрацию, разница в числе положительно и отрицательно классифицированных объектов обучающей выборки осталась значительной и именно поэтому классификация белковых последовательностей алгоритмом С4.5 была проведена с учетом и оптимизацией различных весов, приписываемых отрицательным и положительным примерам. В то время как стандартная перекрестная проверка позволяет подсчитать точность, исходя из оценки абсолютного числа верно классифицированных примеров, вычисление точности методом кривых рабочих характеристик основано на доле верно классифицированных положительных и отрицательных примеров. Роль целевой функции в этом случае выполняет F=(TP/P +TN/N), где ТР и TN это количество верно классифицированных, а Р и N - общее количество положительных и отрицательных примеров соответственно. Значение F можно варьировать, приписывая различные веса примерам в обучающей выборке (рис 22). Так как каждое соотношение весов задает единственную точку характеристической кривой, то можно установить однозначное соответствие между этим соотношением и точностью классификации положительных и отрицательных примеров. Поскольку нашей целью является сбалансировать точность классификации, то оптимальным решением (в отсутствие априорных предположений о весах) будет та точка характеристической кривой, в которой сумма (ТР/Р +TN/N) максимальна, т.е. где угол наклона касательной к кривой равен 45 град. Следует еще раз отметить, что такой выбор оптимальной точки обусловлен постановкой задачи. Нашей задачей является определение максимально точных правил принятия решений, содержащих рассматриваемый характеристический мотив.

Основываясь на оценке точности правила, можно судить о качестве/информативности мотива, порождающего это правило, т.е. о его пригодности для автоматической аннотации белковых последовательностей в InterPro. Для сравнения, при построении правил для аннотации белков SWISS-PROT, оптимумом параметров является точка ТР/Р- тах при FP/N=0, т.к. при значительном дисбалансе между Р и N даже низкий уровень FP/N приводит к многочисленным ошибкам в аннотации. Так, если ключевое слово должно быть приписано 100 белкам и не приписано 100 тыс. белков, то значения FP/N=1%; ТР/Р=90% соответствуют 90 белкам с верной аннотацией и 1000 - с неверной. Полученные правила были использованы для отбора наиболее информативных мотивов InterPro, а также была исследована зависимость точности классификаторов от метода построения (происхождения) характеристического мотива. Всего было получено 1499 правил для описания белковых последовательностей в терминах 378 ключевых слов. В качестве обучающей выборки был использован банк данных SWISS-PROT. Точность правил оценена прямым сравнением результатов применения правил и исходных данных. 1420 правил классифицируют белковые последовательности с точностью ТР/Р 80%, см. рис 23. На рис 24, на двух диаграммах, представлена зависимость информативности характеристического мотива от метода его построения. Как видно из рисунка, мотивы, построенные методами PROSITE или Pfam почти однозначно определяют ключевые слова, соответствующие данной последовательности, и в правилах они чаще всего встречаются отдельно от мотивов, построенных другими методами. В то же время TIGRFAMs и SMART практически всегда служат лишь дополнением к информации, превносимой другими методами. Скорее всего, такие результаты говорят о том, что в то время как PROSITE или Pfam важны для собственно построения правила (т.е. достаточно информативны сами по себе), наличие TIGRFAMs и SMART критично для уточнения и построения многоуровневой иерархической системы, близкой к реальной системе отношений между группами эволюционно-близких белков. Мотивы PRINTS являются в равной степени и основой правила, и уточняющим фактором. Правила, в которые вошли лишь мотивы построенные каким-то одним из методов, представляют те из них, которые не являются избыточными, т.е. те, которые наиболее важны для специфичной и полной характеризации последовательностей.

Похожие диссертации на Применение методов контролируемой классификации для анализа биологических данных