Автоматический анализ научных текстов для создания семантических сетей белков Пономаренко Елена Александровна

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Пономаренко Елена Александровна. Автоматический анализ научных текстов для создания семантических сетей белков : диссертация ... кандидата биологических наук : 03.00.28 / Пономаренко Елена Александровна; [Место защиты: Науч.-исслед. ин-т биомед. химии им. В.Н. Ореховича РАМН].- Москва, 2009.- 109 с.: ил. РГБ ОД, 61 09-3/830

Содержание к диссертации

Введение

2. Обзор литературы 8

2.1. Интеллектуальный анализ биомедицинских текстов 9

2.1.1. Распознавание названий белков (генов) в публикациях 11

2.1.2. База данных белков UniProt 14

2.1.3. Применение ИАТ для выявления белковых взаимосвязей 17

2.1.4. Оценка релевантности документов 22

2.1.5. База данных MEDLINE и поисковая система PubMed 27

2.2. Семантические модели молекулярной биологии 31

2.2.1. Онтология генов Gene Ontology 32

2.2.2. Энциклопедия метаболических путей KEGG 37

2.2.3. UMLS - унифицированная система медицинского языка 38

2.3. Семантические сети генов и белков 39

3. Материалы и методы 47

3.1. Алгоритм построения и анализа семантических сетей 47

3.2. Выборки белков 48

3.3. Методика работы с реферативной базой данных 50

3.4. Идентификация названий белков

3.5. Мера семантического сходства между белками 53

4. Результаты и обсуждение 58

4.1. Контекстный поиск названий белков в текстах рефератов 58

4.2. Матрица семантического сходства 64

4.3. Семантические сети белков 71

4.4. Сопоставление сетевых подграфов с разделами KEGG и с аннотациями GO 80

4.5. Сопоставление сетевых подграфов с видовой принадлежностью белков 88

5. Заключение 91

6. Выводы 96

7. Список литературы 97

Благодарности 105

Распознавание названий белков (генов) в публикациях
Онтология генов Gene Ontology
Методика работы с реферативной базой данных
Матрица семантического сходства

Введение к работе

Постоянное увеличение количества научных статей в области биомедицины все больше усложняет поиск необходимой исследователю информации [Stapley В., Benoit G., 2000]. Сложности особенно очевидны в случае, если речь идет об анализе информации о функциях белков и генов, поскольку эти данные изложены в свободной форме на естественном языке и плохо поддаются структурированию. Необходимость выполнения широкомасштабного анализа опубликованных сведений о белковых функциях становится особенно актуальной при исследовании молекулярных взаимодействий в клетке.

Функционирование клетки обеспечивается за счет взаимодействия белков, примерами которого являются метаболические и регуляторные пути. Полагают, что взаимодействие белков в биологических процессах можно определить экспериментально с использованием высокоэффективных экспериментов в области транскриптомики [Al-Shahrour F. et al, 2006]. Кластеризация профилей ко-экспрессии генов позволяет сделать только предварительные предположения о молекулярных взаимосвязях, лежащих в основе исследуемого биологического процесса. Проверка предположений проводится в ходе изучения ассоциированной с названиями белков (или кодирующих их генов) нау^июй литературы или с использованием аннотаций в белковых базах данных типа UniProt [Boutet Е. et al, 2007]. Ознакомление с соответствующими литературными источниками занимает длительное время и не всегда обеспечивает полноту анализа. Это обуславливает необходимость создания средств семантического анализа, предназначенных для повышения эффективности обработки результатов высокопроизводительных транскриптомных [Beissbarth Т., 2006] и протеомных экспериментов [UniProt Consortium, 2009].

Результаты транскриптомных и протеомных экспериментов в общем случае представляют собой соответственно либо выборки генов с измененным уровнем экспрессии или списки идентифицированных белков. Обработка экспериментально полученных выборок должна проводиться с учетом современного уровня знаний в области молекулярной биологии. Автоматизация процесса сопоставления экспериментальных данных с уровнем знаний в предметной области возможна при условии их формализации. Необходимый уровень формализация знаний поддерживается за счет получения экспертной оценки профильных наз^ных публикаций. Результаты экспертной оценки размещаются в общедоступных базах данных и базах знаний, например, таких как база данных метаболических путей KEGG или база данных онтологии генов Gene Ontology (далее — GO, Harris М. et al, 2004).

В основе онтологии генов лелшт семантическая сеть - формализованное описание объектов и процессов молекулярной биологии. Семантическая сеть представляет собой ориентированный граф, вершинами которого являются объекты предметной области, то есть гены и белки, а ребра задают отношения между ними. В системе GO поддерживается контролируемый словарь молекулярно-биологических терминов. С использованием этих терминов форлшруются аннотации генов, причем если гены выполняют сходную функцию или участвуют в одном биологическом процессе, то соответствующие им аннотации содержат одинаковые термины [Beissbarth Т., 2006].

Повсеместное применение системы GO для интерпретации транскриптомных и протеомных данных, привело к осознанию ее недостатков [Zheng В., Lu X., 2007]. Во-первых, белкам в составе общего метаболического или регуляторного пути зачастую присваиваются разные аннотации, что затрудняет их использование для автоматической обработки данных. Во-вторых, анализ только аннотаций, без изучения статей, не всегда позволяет понять биологический смысл анализируемого явления. В связи с этим, авторы ряда работ предлагают проводить семантический анализ функциональных взаимосвязей генов и белков, напрямую обращаясь к публикациям [Анапько Е. с соавт., 2000; Homayouni R., et al, 2005; Bundschus М. et al., 2008].

В работе [Homayouni R., et al., 2005] с применением семантического индексирования рефератов MEDLINE проводили кластерный анализ генов с целью аннотирования генома человека. Были получены кластеры генов, характеризующиеся выраженной семантической связностью, однако, не был исследован вопрос, насколько хорошо эти кластеры соотносятся с информацией в системах bCEGG или GO. Другие исследователи предложили методы определения семантической связности на основе ассоциированных с белками биомедицинских статей. Bundschus и соавторы [Bundschus М. et al., 2008] предложили метод автоматического распознавания наименований заболеваний в текстах статей и определили ассоциативные связи между 4939 генами и 1745 патологиями. Рейчардхаури и Альтман [Raychaudhuri S., Altman R., 2003] продемонстрировали на примере задачи идентификации функциональных кластеров генов эффективность применения семантической метрики, чувствительность которой при сравнении с данными системы GO составила
96%. Этот подход получил развитие в работе [Zheng В., Lu X., 2007], где тематическая декомпозиция научных статей позволила получить графы, узлами которых являются не только белки, но и процессы молекулярной биологии - например, апоптоз. Наряду с описанием новых вычислительных подходов в вышеуказанных работах отмечается важность автоматического распознавания в текстах анализируемых документов специальных терминов, в том числе названий белков [Jenssen Т. et al., 2001].

В данной работе рассматривается методика сопоставления результатов высокопроизводительных протеомных экспериментов с информацией, представленной в виде множества рефератов научных публикаций в базе MEDLINE. В работе используются как публикации, найденные контекстным поиском по названию белка (релевантные), так и наиболее близкие им по смыслу
(родственные). Предлагаемая методика основана на оценке семантической связности между белками, которая рассчитывается как функция от количества одинаковых релевантных или родственных публикаций, найденных для двух белков. Вычисленные значения семантической связности заносили в матрицу семантического сходства, которую затем отображали в виде неориентированного графа. Полученные в составе семантического графа изолированные подграфы сопоставляли с распределением белков по разделам базы данных KEGG и по категориям системы GO.

Целью работы являлась разработка метода представления информации о взаимосвязях между белками в виде семантической сети, построенной на основе автоматического анализа научных текстов. Для достижения цели решались задачи:
1. Для каждого из белков выборки, состоящей из пяти произвольно отобранных метаболических путей, сформировать специфичный семантический профиль релевантных публикаций.

2. Дополнить полученные профили родственными публикациями, найденными в результате автоматической оценки смыслового сходства документов.

3. Рассчитать меру семантической связности между белками как функцию пересечения множеств публикаций, входящих в состав релевантных и родственных профилей. На основе рассчитанной меры семантической связности построить семантическую сеть, отражающую белок-белковые взаимосвязи.

4. Выделить в полученной семантической сети изолированные подграфы и сравнить их с распределением белков по разделам базы данных метаболичес1сих путей KEGG и по категориям онтологии генов GO.

Распознавание названий белков (генов) в публикациях

Распознавание названий объектов чаще всего применяется для поиска названий белков и генов, реже - для нахождения названий патологических процессов, лекарственных препаратов или названий химических соединений [Erhardt R. et al, 2006,]. Отсутствие устоявшейся номенклатуры [Fukuda К. et al, 1998] и исчерпывающего словаря названий белков и генов, а также различия в терминологии и обозначениях в статьях, делают задачу распознавания названий объектов достаточно сложной. Тем не менее, конечный результат применения ИАТ во многом зависит именно от качества распознавания названий белков и генов в тексте. Значительное число синонимов и аббревиатур, встречающихся среди названий белков и генов, и неоднозначная интерпретация обозначений привели к возникновению разнообразных методов, применяемых для поиска названий генов и белков в текстах научных публикаций. В работе [Jenssen. Т. et al, 2001] было показано, что около 40% ошибок при реконструкции метаболических сетей с применением ИАТ было связано с некорректной идентификацией названий биомолекул. При этом в 85% случаев ошибки возникали из-за распознавания аббревиатур или терминов, одинаковых по написанию с названиями белков или генов. В качестве одного из способов минимизации ложноположительных результатов предлагали проводить анализ контекста, в котором употребляется потенциальное название белка или гена.

Среди основных методов идентификации названий белков и генов в текстах выделяют поиск с использованием словарей, поисковых шаблонов и методов, основанных на правилах и предварительном обучении.

Наиболее простым является поиск названий белков и генов путем сравнения найденных в тексте терминов с терминами из заранее известного словаря. В этом случае любой термин, совпавший с названием из словаря, считается обозначением белка или гена. Преимуществом идентификации названий белков и генов с использованием словарей является высокая скорость работы и простота реализации алгоритма.

При создании словарей названий применяются различные стратегии. В работе [Jensen L. et al, 2003] для создания словаря использовали данные о номенклатуре, доступные в системах EntrezGene и UniProt. Для 32 777 генов было найдено более 168 тыс. названий, среди которых 4 930 названий не удалось однозначно сопоставить с каким-либо геном. Разработчики системы Chilibot [Chen Н., Sharp В., 2004] использовали для распознавания в текстах названий белков и генов словарь, созданный на основе данных б информационных ресурсов: HUGO, LocusLink, OMIM, GDB, SwissProt и SGD. Из созданного словаря кураторами вручную были удалены слова, не относящиеся к названиям белков или генов, например «fragment», «partial cDNA».

Другой подход, применяемый для идентификации названий белков и генов, базируется на поиске с использованием синтаксических и лингвистических шаблонов. Для некоторых генов, например генов дрожжей или генов надсемейства цитохромов Р450 [Nelson D., 2006], существует устоявшаяся номенклатура, позволяющая конструировать специфичные поисковые шаблоны. Так, гены дрожжей обычно обозначаются короткими трехбуквенными кодами с цифрой в конце термина; в названии цитохромов Р450 также существует унификация в обозначении генов — указание надсемейства «CYP», затем идут код семейства (одна или несколько цифр), подсемейства (буква) и код вида организма. Тем не менее, для подавляющего большинства белков сложно выявить явные закономерности в номенклатуре. Chang и соавторы [Chang Let al. 2004] предложили использовать для поиска названий белков унифицированные поисковые шаблоны. Одним из указаний на название белка-фермента, считали суффикс «-аза», например «киназа», «фосфорилаза», «трансфераза» и «топоизомераза», указывающий на каталитические свойства фермента. Исследователи провели поиск среди всех англоязычных слов с суффиксом «-аза» и установили, что только 196 слов не являлись названиями белков или генов. Суффикс «-ин» («актин», «миозин», «тубулин» и т.д.) также может быть использован как дополнительный поисковый шаблон для идентификации названий белков и генов. Другие шаблоны учитывали присутствие в одном термине заглавных и строчных букв, цифр, а также упоминание термина совместно с некоторыми ключевыми словами, указывающими на название белка или гена. К таким ключевым словам относили «активатор», «рецептор», «транспортер», «ингибитор» и т.д.

Обозначения биомакромолекул являются именами существительными или словосочетаниями с присутствием существительных, что позволяет проводить идентификацию названий белков и генов после разметки предложения по частям речи (Part Of Speechagging). Разметка выполняется либо по аналогии с заранее размеченными текстами (система с обучением), либо на основании лексических правил. Разработанные в этой области программные решения позволяют верно идентифицировать названия белков и генов в 95% случаев [Brill Е., 1995]. Недостатками систем на основе обучения является необходимость создания достаточно разнообразной обучающей выборки текстов. Применение правил тоже требует наличия обширной библиотеки лексем и развитых предметно-ориентированных алгоритмов компьютерной лингвистики.

Анализ контекста употребления названий белков или генов показал, что можно выделить определенные семантические конструкции, используемые в текстах и указывающие на название гена или белка [Brill Е., 1995]. В качестве примера можно привести конструкцию вида «The gene ... is expressed under...», наличие которой в тексте указывает на описание регуляции генной экспрессии. Группа Chang и соавторы [Chang J. et al. 2004] определили перечень слов, наиболее часто встречающихся в контексте описания белка или гена. Среди них: «gene», «mRNA», «protein», «promoter», «expression» и «transcripts»; предлоги «or», «by», «with», «to» и «in» наоборот указывают на отсутствие в предложении обозначений белков и генов.

В том случае, если гены или белки относятся к большому семейству, весьма вероятно, что их названия будут однокоренными. Например, поиск с учетом морфологических особенностей терминов может быть использован для идентификации названий белков семейства анкиринов. Все белки этого семейства в названии содержат корень «ank», и использование поиска по этому корню позволяет выявлять ген ankl (ankyrin 1, erythroid), ank2 (ankyrin 2, brain), and ank3 (ankyrin 3, epithelial). Тем не менее, до настоящего времени метод идентификации белков и генов на основе морфологических особенностей их названий не получил широкого распространения [Raychaudhuri S., 2006].

Онтология генов Gene Ontology

GeneOntology [Harris M. et al., 2004] (GO, www.geneonthology.org/) является наиболее широко используемой в молекулярной биологии геноцентричной онтологией, содержащей описания генов и их продуктов — белков. С увеличением количества биологической информации возникла существенная проблема качественной стандартизованной аннотации и классификации биологических объектов. Разработчики некоторых баз данных выбрали собственные стратегии описания и классификации новых данных, предоставляя конечному пользователю все более и более запутанную систему терминов. Консорциум GeneOntology [Ashbumer. М. et al, 2000] образовался в 1998 г. с целью создания универсального структурированного словаря, в терминах которого была бы возможна аннотация молекулярных характеристик биологических объектов. В этот консорциум исходно вошли исследовательские группы, занимающиеся аннотацией геномов трех модельных организмов: Mus Muscidus, Drosophila melanogaster и Saccharomyces cerevisiae. Впоследствии к Консорциуму присоединились разработчики баз данных по геномам других организмов.

Проект GO ведется совместно в рамках зонтичного проекта ОВО (Open Biological Ontologies). На январь 2008 года количество терминов, предлагаемых в GO для описания широкого круга молекулярных процессов и явлений, составило около 25 тыс. Основой для развития онтологии и аннотации генов в терминах GO являются литературные данные. Каждый элемент онтологии GO представлен в виде идентификатора (состоит из буквенной и цифровой части), названия, синонимов и описания.

GO можно условно разделить на две части: первая — контролируемый словарь терминов, включающий набор онтологии по трем разделам: клеточные компоненты, молекулярные функции и биологические процессы. Вторая часть GO содержит аннотации генов или их продуктов (РНК и белков). Согласно этому разделению решаются две независимые задачи, первая из которых — обновление онтологии, а вторая — аннотирование белков и генов.

Для аннотирования в системе GO предоставляются три раздела терминологии. Раздел «молекулярная функция» содержит сведения о том, какие биохимические функции выполняет продукт гена (белок или РНК), при этом дается только общая характеристика без указания дополнительной информации об условиях функционирования (например, «фермент», «лиганд», «транспортер», «аденилат циклаза»). В рамках раздела «биологический процесс» приводится описание биологических функций белка в более широком смысле (например, «клеточный рост», «передача сигнала», «метаболизм пуринов»), но не дается указания на конкретный метаболический процесс, в котором участвует белок. В третьем разделе указывается локализация белка, включая клеточные структуры и макромолекулярные комплексы (например, «рибосома», «протеосома», «ядерная мембрана»).

Структура раздела GO представляет собой направленный ациклический граф, отражающий иерархию терминов. Например, в разделе «молекулярная функция» термин «трансмембранный рецептор тирозин-киназы» является дочерним термином по отношению к понятиям «трансмембранный рецептор» и «тирозин киназа».

Связи между терминами GO могут быть двух типов - вертикальные и горизонтальные. Вертикальные связи «is а» указывают, что дочерний термин является примером (частным случаем) родительского термина. Например, словарь клеточных компонентов содержит: «mitotic chromosome» is а «chromosome», то есть «митотическая хромосома» является частным случаем более общего понятия - «хромосома». Вертикальные связи — «part of» — характеризуют дочерние термины как часть (компоненту) родительского термина. Например, теломера входит в состав хромосомы. Дочерние термины могут находиться в разных типах отношений между собой в зависимости от родительских терминов. Термины онтологии GO иерархически выстроены сообразно принятой в биологии системе понятий и снабжены соответствующими ссылками на литературные данные, подтверждающие правильность их отбора и адекватность установленных связей с дочерними и родительскими терминами.

Система GO является примером удачной формализации данных в области молекулярной биологии. Наличие формализованного описания всех генов и их продуктов в соответствии со строго определенной терминологией открывает перспективу для совершенствования автоматических алгоритмов обработки данных, основанных на ИАТ. Использование унифицированной терминологии в научных статьях позволяет эффективно анализировать электронные библиотеки, избегая ошибок, связанных с некорректной машинной интерпретацией текстовой информации.

Применение GO для аннотации результатов высокопроизводительных экспериментов. Интерпретация данных, полученных в результате высокопроизводительных экспериментов, является одной из основных задач биоинформатики. Для решения этой задачи используются два типа данных — информация о профиле экспрессии, полученная в эксперименте, и биологические аннотации генов (в частности, согласно онтологии GO). Согласно [Eisen М. et al, 1998], те гены, экспрессия которых изменяется совместно, скорее всего, обладают сходными функциональными характеристиками.

Традиционно для каждой группы дифференциально-экспрессируемых генов определяют общие аннотации, то есть, интерпретация транскриптомных экспериментов осуществляется в два этапа: (а) на основании полученных в эксперименте результатов формируют группы ко-экспрессирующихся генов; (б) для каждой группы определяют функциональную аннотацию, описывающую роль данной группы генов при заданных экспериментальных условиях [Sun Н. et al, 2006]. Для такого рода анализа разработано большое количество программных средств, например, Onto-Express, GoMiner, DAVID, FatlGO и др. Так, программа FatiGO (Fast Assignment and Transference of Information using GO) [http://fatigo.org] позволяет выявлять достоверные различия в распределении аннотаций GO между двумя группами генов [Al-Shahrour et al, 2004]. В одной анализируемой группе должны присутствовать названия генов с измененным уровнем экспрессии, а в другой группе — произвольно выбранные гены того же организма. Для генов каждой группы загружаются аннотации согласно онтологии GO. Учитывая иерархический принцип организации системы GO, сравнение групп между собой проводят на одном уровне онтологии (уровне абстракции). Для оценки достоверности различий в аннотациях используют тест Фишера. Результаты работы программы выводятся в виде списка генов, отсортированного по уменьшению значимости различий между группами.

Особенности реализации существующих программ заключаются, во-первых, в объеме используемых аннотаций GO. Часть программ использует аннотации во всех категориях, часть — аннотации только выбранной категории. Во-вторых, полученные результаты зависят от уровня абстракции: большинство программ используют только самые детализированные аннотации.

Методика работы с реферативной базой данных

В работе использовали реферативную базу данных MEDLINE. Доступ к рефератам осуществляли через поисковый сервер PubMed. Поиск контекстной строки / проводили путем направления к серверу PubMed запроса Q(0 по протоколу HTTP: «entrez?db=pubmed& cmd=search&term=Y ». Различия между строчными и прописными буквами в поисковой строке не учитывали. Каждой отвечающей запросу Q(t) библиографической записи MEDLINE сопоставляли релевантный идентификатор PubMed, далее обозначаемый pmid. Для релевантного идентификатора pmid из поля «Related Links» загружали множество сходных по тематической направленности (родственных) публикаций: Q(pmid) = (pmid }.

На рисунке 3 приведен пример обработки запроса в поисковой системе PubMed. По запросу названия белка «альдегид дегидрогеназа» в системе выводится список релевантных публикаций (рис. 3(a). В каждой выведенной записи содержится название публикации и другие библиографические данные, а также уникальный идентификатор pmid. Таким образом, результатом выполнения поискового запроса в PubMed является множество идентификаторов научных статей. Идентификатор в свою очередь может служить поисковым термином, как это проиллюстрировано на рисунке 3(6). В этом случае система PubMed выводит текст реферата статьи, справа от которого приведен список из пяти названий родственных по смыслу публикаций. Каждая из них, в свою очередь, также имеет уникальный идентификатор, обозначаемый со штрихом pmid . Белки обозначали согласно кодам доступа в базе данных UniProt (далее код обозначается — нп). В совокупности коды составляли исходное множество идентификаторов белков М. Каждому идентификатору сопоставили множество обозначений {рп}ип согласно перечню альтернативных и синонимичных белковых названий, указанных в одноименных полях записи UniProtKB с соответствующим кодом доступа гт. Релевантные и родственные публикации в системе PubMed: (а) релевантные публикации, полученные в результате поиска публикаций по запросу «aldehyde dehydrogenase», (б) родственные публикации, полученные по запросу идентификатора статьи «19245216». Автоматическую процедуру определения названий белков в текстах рефератов верифицировали путем сравнения результатов поиска в PubMed с опубликованными в литературе данными о частоте употребления названий белков в статьях в области протеомики [Petrak J. et al., 2008]. В автоматическом режиме из UniProtKB отобрали записи, отвечающие поисковому запросу [«organism: "Human [9606]"»] и [«Protein existence: «evidence at protein level»], то есть белки человека, экспрессия которых была подтверждена на уровне протеома (масс-спектрометрической идентификацией или иными методами).

Для определения названий белков в текстах статей формировали подстроку поиска, в которую входили общепринятые названия и синонимы белка, а также идентификаторы и коды доступа к этим белкам в системе UniProtKB. Multifunctional enzyme thaias wel as Its role in glycolysis, plays a part m vane such as growth control, hypoxia tolerance and allergic responses. May also fur» intravascular and pericellular fibrinolytic system due to its ability to serve as a re activator of plasminogen on the con surface of several cellypes such as leukot neurons MBP! binds to the c-myc promoter and acts as a transcriptional repn» May be a tumor suppressor ЕКЮ1 is identified as an autoantigen in Hashimoto encephalopathy (H) a rare; disease associated with Hashimoto thyroiditis HT). HT is e disorder in which de processes overcome the potential capacity of thyroid replacement leading to hyi Antibodies against alpha-enolase are present in sera from patients with cancer retinopathy syndrome (CAR), a progressiva blinding disease which occurs in the systemic tumor growth, primarily small-call carcinoma of the lung and other male

Фрагменты информационной записи в системе UniProt для белка альфа-енолаза: (а) отметка о прохождении экспертизы; (б) номер доступа в системе UniProt; (в) идентификатор белка в системе UniProt; (г) рекомендованное названии белка; (д) альтернативные названия белка и синонимы; (е) функциональная аннотация белка и взаимосвязь с развитием заболевания.

Поиск названий белков проводили среди 99 полнотекстовых статей, отобранных из журнала Proteomics за 2004-2006 г.г. Названия статей были любезно предоставлены доктором И.Петраком (Институт гематологии и переливания крови, Чехия). Публикации, включая таблицы, названия таблиц и подписи к рисункам, преобразовывали в текстовый формат. Дополнительные материалы к статьям не анализировали.

Обозначением белка считали любые встречающиеся в тексте слова, совпадающие с подстрокой поиска. Если отсутствовало однозначное соответствие между найденным названием и идентификатором белка в базе знаний UniProtKB (например, если одно и то же название белка встречалось в разных записях), то найденный термин как белковый идентификатор не рассматривали. Выборочную оценку качества идентификации названий белков проводили путем анализа контекста (предложения), в котором было идентифицировано название белка. Количество автоматически идентифицированных названий белков сравнивали с количеством белков, отмеченных в той же публикации экспертом.

Матрица семантического сходства

Матрицу семантического сходства строили на основе расчета меры семантического сходства между белками. Меру семантического сходства вводили как функцию количества одинаковых публикаций в составе семантических профилей сопоставляемых белков [Bedur et al., 2003].

Для расчета матриц каждому белку сопоставляли семантический профиль, то есть набор идентификаторов статей, относящихся к данному белку. Семантический профиль включал в себя как публикации, найденные по названию белка — релевантные публикации, так и родственные публикации, найденные при использовании в качестве запроса документов из числа релевантных публикаций (см. рис. 5). Для каждого документа загружали пять наиболее сходных по содержанию текстов. Для обозначения статей использовали уникальные идентификаторы pmid. Список идентификаторов релевантных публикаций формировали на основе статей, найденных по названиям белка в системе PubMed [Stapley В., Benoit G., 2000]. Методика определения релевантных и родственных публикаций основана на применении стандартного запроса Q(t) (см. п.3.3.).

В самом простом случае два белка можно считать взаимосвязанными, если среди найденных по запросам названий каждого из этих белков присутствуют одинаковые документы, что эквивалентно поиску обозначений двух белков с использованием логического оператора «И». Тем не менее, возможна и другая ситуация, когда ни в одном реферате названия не упоминаются совместно, однако в перечнях родственных для каждого белка статей присутствуют одинаковые публикации. Как будет показано далее, такой набор публикаций может отражать скрытый характер взаимосвязей между белками.

Например, в таблице 4 показана матрица семантического сходства, отражающая количество публикаций, в которых названия обоих белков (указаны в строке и столбце таблицы) встречаются совместно. Рассматривая характер взаимосвязей между шестью белками, на основании этой матрицы можно указать на существование взаимосвязи между первыми тремя белками с кодами P0AFG8, Р06959, Р0А9Р0, поскольку в соответствующих этим белкам ячейках (см. первые значения перед дробью) содержатся ненулевые значения. Также взаимосвязь прослеживается между белками Р25437, Р36938 и Р62707. Нулевые значения, соответствующие белку глутатион-трансферазе (код Р25437), показывают, что этот фермент в явном виде не связан с другими белками. Однако, значения семантической связности, полученные для глутатион-дегидрогеназы с учетом родственности публикаций (см. значения после дроби), ненулевые. Например, для белков Р0А9РО и Р25437 совпало 28 родственных статей.

Матрица семантического сходства была получена для 148 белков из различных метаболических путей человека. Всего контекстным поиском в системе PubMed для белков данной выборки нашли 65,9 тыс. релевантных рефератов. Идентификаторы этих рефератов вошли в состав семантических профилей каждого белка. В среднем профиль содержал 445 идентификаторов релевантных статей, причем для 40% белков в семантический профиль вошли менее 100 статей.

Родственные публикации получали с использованием функции оценки смыслового подобия документов в системе PubMed. После выполнения поискового запроса по идентификатору pmid сервер PubMed отображал вебстраницу, на которой под заголовком «Related Links» было выведено несколько гипертекстовых ссылок на родственные публикации (см. рис.3 и рис.5). Для них извлекали идентификаторы родственных рефератов и сопоставляли белкам из анализируемой выборки. Таким образом, каждому белку соответствовал семантический профиль из релевантных и родственных публикаций.

Это множество состояло из 9838 элементов и обозначалось Раь согласно выражению (2). При создании семантического профиля по родственным публикациям учитывали условие (4), в результате чего в профиль включали только те идентификаторы, которые не вошли во множество Р. При таком условии для 65,9 тыс. релевантных рефератов из системы PubMed было отобрано 196,7 тыс. идентификаторов родственных статей. В среднем семантический профиль по родственным рефератам содержал 1525 идентификаторов pmid , при этом для 40% белков в составе профиля насчитывалось менее 400 статей. Как показано на рисунке 7, существует прямая зависимость между количеством совпадающих для пары белков релевантных и родственных публикаций. Из соотношения Q(pmid) =\pimd v..pmid \ следует, что в среднем количество родственных публикаций в пять раз больше, чем релевантных для одного белка. Однако, при сравнении семантических профилей двух белков получили, что количество совпадающих родственных публикаций превышает аналогичное значение для релевантных только в 3,7 раза. При этом, как можно заметить из зависимости на рисунке 7, если названия каких-либо двух белков встречаются в публикациях совместно, то среди близких по смыслу публикаций обязательно будут совпадающие. Другими словами, количество совместного упоминания двух белков в одной публикации коррелирует с количеством совпадающих для этих белков родственных статей.

Расчет меры семантической связности был произведен для каждой пары белков с использованием отдельно профилей по релевантным и по родственным публикациям. Полученные две матрицы попарного семантического сходства были симметричными относительно диагонали и содержали (148 147)/2 = 10 878 элементов3, соответствующих парам белков. Из этого количества значений для случая релевантных публикаций 1147 ячеек матрицы имели ненулевые значения. Таким образом, для -10% пар белков нашлась как минимум одна публикация, в реферате которой встретились названия обоих белков. Для родственных публикаций доля заполненных ненулевыми значениями ячеек матрицы семантического сходства оказалась выше (более чем в три раза) и составила -34%.

Использование родственных публикаций для расчета семантического а — матрицу рассчитывали без учета диагонали для уникальных 148 белков (два белка входили одновременно в состав двух метаболических путей). сходства позволило установить 72% взаимосвязей, которые в явном виде содержались в релевантных публикациях. Кроме того, обработка родственных публикаций выявила дополнительные сведения о семантической связности между 2829 парами белков (-25% от общего количества пар), для которых информация о взаимосвязях отсутствовала в рефератах релевантных публикаций. Например, белки Р49189 (альдегид-дегидрогеназа) и A8YXX4 (глутамин-синтаза) совместно не встречаются ни в одной публикации MEDLINE, однако, в родственных профилях этих белков обнаружили 5 одинаковых статей.

Автоматический анализ научных текстов для создания семантических сетей белков Пономаренко Елена Александровна

Распознавание названий белков (генов) в публикациях

Онтология генов Gene Ontology

Методика работы с реферативной базой данных

Матрица семантического сходства

Похожие диссертации на Автоматический анализ научных текстов для создания семантических сетей белков