Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Математические модели и алгоритмы в исследованиях связи между структурой и свойствами органических соединений Скворцова Мария Ивановна

Математические модели и алгоритмы в исследованиях связи между структурой и свойствами органических соединений
<
Математические модели и алгоритмы в исследованиях связи между структурой и свойствами органических соединений Математические модели и алгоритмы в исследованиях связи между структурой и свойствами органических соединений Математические модели и алгоритмы в исследованиях связи между структурой и свойствами органических соединений Математические модели и алгоритмы в исследованиях связи между структурой и свойствами органических соединений Математические модели и алгоритмы в исследованиях связи между структурой и свойствами органических соединений Математические модели и алгоритмы в исследованиях связи между структурой и свойствами органических соединений Математические модели и алгоритмы в исследованиях связи между структурой и свойствами органических соединений Математические модели и алгоритмы в исследованиях связи между структурой и свойствами органических соединений Математические модели и алгоритмы в исследованиях связи между структурой и свойствами органических соединений Математические модели и алгоритмы в исследованиях связи между структурой и свойствами органических соединений Математические модели и алгоритмы в исследованиях связи между структурой и свойствами органических соединений Математические модели и алгоритмы в исследованиях связи между структурой и свойствами органических соединений
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Скворцова Мария Ивановна. Математические модели и алгоритмы в исследованиях связи между структурой и свойствами органических соединений : диссертация ... доктора физико-математических наук : 05.13.18 Москва, 2007 272 с., Библиогр.: с. 241-252 РГБ ОД, 71:07-1/314

Содержание к диссертации

Введение

ГЛАВА 1. Методы построения моделей связи «структура-свойство» на основе базисных инвариантов и базисных подграфов молекулярных графов 44

1.1. Введение 44

1.2. Базис инвариантов графов (определение 1), его свойства и применение для моделирования связи «структура-свойство» (метод № 1) 46

1.3. Базис инвариантов графов (определение 2) и его свойства 70

1.4. Модификация базисных инвариантов, введенных в 1.3, и их применение для моделирования связи «структура - свойство» (метод №2) 75

1.5. Базис инвариантов графов (определение 3), его свойства и применение для моделирования связи «структура-свойство» (метод № 3) 78

1.6. Базисные подграфы и их применение для моделирования связи «структура - свойство» (метод №4) 86

1.7. Основные результаты и выводы 101

ГЛАВА 2. Система автоматической генерации инвариантов графов для моделирования связи «структура - свойство» 111

2.1. Введение 111

2.2. Описание алгоритма конструирования инвариантов графа 113

2.3. Основные топологические индексы как результат реализации алгоритма генерации инвариантов графа 124

2.4. Метод построения корреляций «структура-свойство» на основе алгоритма генерации инвариантов графов и результаты его тестирования 128

2.5. Основные результаты и выводы 137

ГЛАВА 3. Методы определения области применимости модели связи «структу ра - свойство» 140

3.1. Введение 140

3.2. Вероятностный метод определения области применимости линейной модели связи «структура-свойство» 140

3.3. Определение области применимости модели связи «структура - свойство во» на основе базисных инвариантов 144

3.4. Основные результаты и выводы 149

ГЛАВА 4. Обратные задачи в исследованиях связи «структура-свойство»: теоретико-графовый подход 154

4.1. Введение 154

4.2. Обратная задача для индекса Рандича 155

4.3. Обратная задача для «каппа»-индексов Кира 168

4.4. Обратная задача для информационных топологических индексов 175

4.5. Обратная задача для индекса Хосойя 179

4.6. Основные результаты и выводы 192

ГЛАВА 5. Построение моделей связи «структура-свойство» и прогнозирование свойств химических соединений на основе концепции молекулярно го подобия 196

5.1. Введение 196

5.2. Общая аналитическая формула для произвольной меры подобия молеку лярных графов и следствия из нее 196

5.3. Метод прогнозирования свойств соединений, основанный на оптималь ном подборе меры молекулярного подобия 201

5.4. Построение оптимальной меры подобия молекулярных графов при про гнозировании свойств соединений по методу «ближайшего соседа» 207

5.5. Формализация постулата «близкие структуры имеют близкие свойства» и его анализ 210

5.6. Основные результаты и выводы 212

ГЛАВА 6. Алгоритмы на графах, используемые для их кодирования, идентификации и исследования структурных особенностей 217

6.1. Введение 217

6.2. Алгоритм поиска канонической нумерации вершин графа и его группы автоморфизмов, основанный на спектральной теории графов 217

6.3. Алгоритм установления изоморфизма графов и поиска его группы сим метрии 224

6.4. Алгоритм нахождения в графе заданных подграфов 226

6.5. Основные результаты и выводы 234

Выводы 236

Список цитированной литературы 241

Список публикаций по теме диссертации

Введение к работе

  1. АКТУАЛЬНОСТЬ ТЕМЫ. Проблема моделирования связи между структурой и свойствами органических соединений является одной из важнейших математических задач современной теоретической химии. Найденные закономерности позволяют, минуя эксперимент, прогнозировать свойства новых химических соединений непосредственно по их структуре и могут быть использованы для планирования целенаправленного поиска соединений с заданными свойствами.

К настоящему времени синтезировано огромное количество химических соединений (около 20 млн.), которые интенсивно вовлекаются в сферу практического использования. Однако экспериментальное определение различных свойств этих веществ (физико-химических, разных видов биологической активности) часто связано со значительными трудностями, возникающими, например, при получении достаточного количества вещества, его очисткой, возможной нестойкостью, токсичностью и т. д., и, кроме того, не всегда возможно. Такие исследования требуют значительных финансовых и временных затрат. В связи с этим разработка любых теоретических методов расчета свойств веществ по их структуре, минуя эксперимент, является актуальной научно-практической задачей. Следует отметить, что выявленные закономерности могут быть использованы и при разработке новых теорий о связи свойств веществ с их строением, а также при изучении механизмов действия биологически активных соединений.

Приведем краткую характеристику наиболее распространенного современного подхода к моделированию связи «структура-свойство». Имеется выборка соединений с известными численными значениями некоторого свойства этих соединений. Структура соединений описывается при помощи набора молекулярных параметров x1,…,xn , в качестве которых используются топологические, электронные, геометрические характеристики молекул или значения каких-либо физико-химических свойств. Как правило, математическая модель связи «структура-свойство» в рамках этого подхода имеет вид уравнения, связывающего численные значения исследуемого свойства y и молекулярных параметров x1,…,xn при помощи некоторой функции f:

y=f(x1,…,xn). (1)

Вид функции f предполагается известным, однако f зависит от ряда подгоночных параметров. Эти параметры подбираются по известным численным значениям рассматриваемого свойства соединений заданной выборки так, чтобы соотношение (1) выполнялось бы как можно более точно на этой выборке.

Модели связи «структура-свойство» могут иметь и другую форму, отличную от уравнения (1). Например, используются модели, определяемые заданием некоторой количественной меры молекулярного подобия d(S1,S2) пары соединений S1 и S2, характеризующей количественно степень их сходства. Принцип расчета свойств соединений в рамках этого подхода базируется на постулате «близкие структуры имеют близкие свойства»: для оценки свойства какого-либо соединения S0 в базе данных находят соединение S, ближайшее к S0 по мере d, и полагают, что значения свойств этих соединений равны.

Важное место в вышеуказанных исследованиях занимают способы количественного описания структуры молекул, т.е. выбор параметров х1,…,хn. От этого выбора значительно зависит эффективность модели. Параметры х1,…,хn могут быть как экспериментальными, так и расчетными. Использование расчетных параметров в моделях связи «структура-свойство» более предпочтительно, т. к. они могут быть вычислены даже для гипотетических структур. Для получения этих параметров в качестве основы используется классическая структурная формула молекулы, которую можно рассматривать как меченый граф. По структурной формуле могут быть построены другие меченые графы. Вершины таких графов, называемых молекулярными, обычно соответствуют атомам (или фрагментам), а ребра – химическим связям молекулы. Метки вершин кодируют атомы различной химической природы, а метки ребер – связи разного типа. Метки типа буквенных символов характеризуют атомы и связи качественно, а числовые метки (веса) – количественно. Веса вершин и ребер могут быть взяты как из литературы (например, заряды ядер или ковалентные радиусы атомов), так и рассчитаны при помощи специальных стандартных программ, позволяющих определить электронные и геометрические характеристики молекул (например, могут быть найдены потенциалы ионизации, межатомные расстояния или рассчитаны заряды на атомах). На рис.1 в качестве примера приведена структурная формула 1,3-дихлорфенола и соответствующий ей меченый граф, в котором вершины соответствуют атомам углерода, а их метки A, B, C кодируют атомы углерода, в зависимости от присоединенных к ним фрагментов H, Cl или OH.

Рис.1.

Таким образом, каждой молекулярной структуре могут быть сопоставлены различные инварианты x1,…,xn соответствующего молекулярного графа (т.е. числа, вычисляемые по графу, не зависящие от способа нумерации его вершин). Инварианты графов, для построения которых использовалась лишь информация о топологии молекулы и, возможно, литературные данные о количественных характеристиках атомов и связях разного типа, в теоретической химии обычно называют топологическими индексами. Инварианты графов, связанных с пространственными моделями молекул, называют геометрическими дескрипторами. Если же для вычисления весов графа использовались квантово-химические методы, то соответствующие инварианты называют квантово-химическими дескрипторами. При построении молекулярного графа возможна и комбинация этих подходов. Отметим, что все вышеуказанные молекулярные параметры, имеющие различную химическую интерпретацию и различные способы их построения, имеют единую математическую основу – это инварианты меченых графов.

В последние десятилетия опубликовано большое число работ, посвященных моделированию связи «структура-свойство». В подавляющем большинстве случаев для описания молекулярной структуры используются разнообразные топологические индексы, что связано с относительной простотой их вычисления. Область научных исследований, связанная с математическим моделированим связи «структура-свойство», возникла на стыке органической химии, дискретной математики, регрессионного анализа, программирования и ее иногда рассматривают как часть математической химии или химической информатики. Многочисленные работы, посвященные этой тематике, публикуются в таких международных журналах, как Journal of Chemical Information and Computer Science, Journal of Computational Chemistry, Journal of Mathematical Chemistry, Computers and Chemistry и. т. д. Интенсивное развитие данного направления связано, прежде всего, с широким внедрением ЭВМ в химические исследования, созданием баз данных по структурам и свойствам соединений, а также доступностью вычислительной техники для химиков. Все это делает возможным проводить статистический анализ накопленной информации с целью выявления различных скрытых закономерностей. Наличие многочисленных примеров успешного применения вышеуказанного подхода для моделирования связи «структура-свойство» как для физико-химических свойств, так и для разных видов биологической активности, показывающих эффективность применяемого метода, также способствует развитию данного направления.

Однако, несмотря на наличие большого числа отдельных, частных результатов в этой области, полученных для конкретных свойств и выборок соединений, общие, универсальные, теоретически обоснованные методы построения и исследования моделей вида (1) в настоящее время не разработаны. В задачах такого типа заранее неизвестно, от каких именно структурных особенностей зависит данное свойство, и каким образом. Поиск моделей обычно происходит путем перебора некоторого ограниченного числа стандартных вариантов, причем, как правило, обнаруживаются корреляции между различными молекулярными параметрами. Поэтому разработка и обоснование общих подходов к моделированию связи «структура-свойство», применимых к произвольным свойствам и классам органических соединений и допускающих компьютерную реализацию и автоматизацию, является актуальной задачей. Основой для разработки таких подходов может служить общая математическая природа изучаемых химических объектов (структурных формул органических соединений) – все они представляют собой меченые графы, а также возможность рассматривать различные наблюдаемые свойства соединений (в предположении, что они зависят лишь от структуры молекул) как некоторые инварианты соответствующих графов.

2. ЦЕЛИ РАБОТЫ. При моделировании связи «структура-свойство» вышеописанным методом возникают следующие проблемы:

1) Выбор весов вершин и ребер молекулярного графа в конкретной задаче. Для решения этой проблемы нет определенных, обоснованных методов;

2) Выбор функции f (или меры молекулярного подобия d) и инвариантов х1,…,хn для описания структуры молекул в конкретной задаче. Отметим, что число инвариантов графов бесконечно даже для одного, фиксированного способа взвешивания графа. Как правило, большинство инвариантов, используемых в теоретической химии, получают при помощи формальных математических операций с графами, поэтому им трудно дать достаточно ясную физико-химическую или структурную интерпретацию. Заранее не известно, от каких именно структурных особенностей зависит данное свойство, и каким образом. Поэтому никаких четких правил выбора молекулярных параметров x1,…,xn и аппроксимирующей функции f (или меры d) для построения модели не существует;

3) Оценка области применимости модели связи «структура-свойство». Очевидно, что любая математическая модель, построенная по ограниченному набору данных, имеет свою область применимости. В связи с этим возникает задача определения области применимости модели связи «структура-свойство», т. е. определения того класса химических соединений, свойства которых могут быть рассчитаны при помощи построенной модели с заданной точностью. Прогнозирование свойств соединений без учета области применимости модели может привести к неверным результатам;

4) Разработка методов компьютерной генерации химических структур, обладающих заданной величиной свойства, на основе модели типа (1) (обратная задача в проблеме связи «структура-свойство»). Как отмечалось выше, основная цель построения моделей типа (1) - прогнозировать численные значения свойств других соединений из некоторого заданного набора, минуя эксперимент, и находить среди них соединения с требуемыми свойствами. Однако могут существовать соединения (возможно, еще не синтезированные), не входящие в этот набор, которые имеют требуемое значение рассматриваемого свойства. Такие новые, перспективные соединения не будут обнаружены при вышеописанном подходе. В связи с этим в рамках исследований связи «структура-свойство» естественно сформулировать так называемую обратную задачу, заключающуюся в исчерпывающей генерации структур, обладающих заданным значением свойства y0. При наличии модели типа (1), где x1,…,xn - инварианты графов, эта проблема может быть сведена к математической задаче исчерпывающей генерации графов (возможно, определенного класса) с заданным значением инварианта f(x1,…,xn) и решена теоретико-графовыми методами. Однако уравнения типа (1) могут иметь разный вид, зависящий от функции f и инвариантов x1,…,xn. Отдельные методы решения обратных задач для конкретных случаев уравнения (1), учитывающие их специфику, не применимы к другим случаям. В связи с этим необходима разработка алгоритмов решения таких задач для наиболее типичных или общих случаев уравнения (1).

Цели работы связаны с указанными выше проблемами. Они таковы:

1) Разработать и теоретически обосновать ряд общих детерминированных методов построения теоретико-графовых моделей связи «структура-свойство» вида (1), применимых к различным свойствам и классам соединений, для случая, когда их структуры представлены произвольно мечеными графами. Провести тестирование предложенных методов моделирования связи «структура-свойство».

2) Разработать систему автоматической генерации инвариантов графов разнообразной природы, моделирующую логику действий человека, конструирующего инварианты для вышеуказанных задач (систему «искусственного интеллекта»), и исследовать ее возможности. Разработать на основе этой системы подход к моделированию связи «структура-свойство», альтернативный указанному выше детерминированному подходу, когда подходящий набор параметров для модели отбирается из конечного, достаточно большого числа инвариантов, сгенерированных автоматически с использованием процедуры случайного выбора. Провести тестирование предложенного метода построения моделей связи «структура-свойство».

3) Разработать обоснованные подходы для конструктивного определения областей применимости моделей вида (1) некоторых специальных типов и провести их тестирование.

4) Разработать алгоритмы решения обратных задач в проблеме связи «структура-свойство» на основе уравнений (1) различных видов и провести их тестирование .

5) Разработать методы построения моделей связи «структура-свойство» и прогнозирования свойств химических соединений на основе концепции молекулярного подобия и провести их тестирование.

6) Разработать ряд комбинаторных алгоритмов на графах, применяемых в компьютерной химии и химической информатике (алгоритмы поиска канонической нумерации вершин графа, установления изоморфизма графов, поиска группы симметрии графа, нахождения всех заданных подграфов в графе).

Диссертационная работа посвящена разработке и обоснованию математических методов решения основных задач, возникающих при моделировании связи «структура-свойство» органических соединений: построения моделей, определения их областей применимости, конструирования химических соединений с заданными свойствами на основе построенных уравнений. В качестве исходных данных для такого моделирования используются базы данных по структурам и свойствам химических соединений. Обработка этих данных позволяет выявить скрытые закономерности между структурой и свойствами органических соединений. В качестве математических моделей химических соединений используются произвольно меченые графы. В диссертации:

1) Разработан и обоснован ряд новых методов построения моделей связи «структура-свойство» в терминах инвариантов молекулярных графов. Эти методы носят общий характер, применимы к произвольным свойствам и к произвольным выборкам химических соединений, представленных произвольно мечеными графами. Методы строго детерминированы и допускают компьютерную реализацию. Проведено тестирование предложенных подходов для моделирования связи «структура-свойство» для разнообразных свойств (физико-химические, биологическая активность, вычисляемые молекулярные параметры) и классов соединений, показавшее их практическую применимость и эффективность.

2) Разработана интеллектуальная система, предназначенная для автоматического конструирования произвольных наборов инвариантов графов различной природы для построения корреляций «структура-свойство». В этой системе реализовано моделирование действий человека, конструирующего инварианты графа для вышеуказанной задачи. Предполагается, что выбор варианта действий в этом алгоритме в процессе конструирования происходит случайным образом. Использование случайного выбора позволяет освободиться от элементов субъективизма и выйти за рамки стандартного мышления в процессе такой деятельности. Проведено исследование возможностей этой системы. Показано, что основные, известные из литературы инварианты молекулярных графов (называемые в теоретической химии топологическими индексами) могут быть получены в рамках разработанной схемы. В то же соответствующий алгоритм позволяет получить принципиально новые пути построения инвариантов графов, в том числе и такие, которые практически не могут быть разработаны человеком «вручную». Предложенная схема, позволяет строить автоматически сколь угодно много инвариантов графов разного типа. Эти инварианты могут быть использованы при решении различных задач химической информатики, математической и компьютерной химии, в том числе при моделировании связи «структура-свойство». Следует отметить, что аналогов предложенной системы нет.

3) На основе разработанной схемы конструирования инвариантов графов предложен новый метод построения моделей связи «структура-свойство», а также проведено его тестирование для построения корреляций «структура-свойство» для физико-химических свойств и биологической активности органических соединений различных классов, показавшее его практическую применимость и эффективность.

4) Проведено исследование задачи определения области применимости модели связи «структура-свойство» для заданной допустимой погрешности расчета свойств соединений, а также предложен ряд методов ее решения. Проведено тестирование этих методов, показавшее, что использование областей применимости моделей при прогнозировании свойств соединений, определенных в соответствии с разработанными подходами, позволяет сократить долю ошибочных прогнозов.

5) Разработаны алгоритмизированные методы решения различных обратных задач в исследованиях связи «структура-свойство». Эти методы позволяют провести исчерпывающую генерацию химических структур определенного класса, имеющих заданное значение y0 рассматриваемого свойства (или заданный интервал (y1, y2) значений свойства), на основе предварительно построенной модели вида y=f(x1,...,xN), связывающей значения рассматриваемого свойства у и некоторые инварианты молекулярных графов x1,...,xN. Рассмотрены базовые корреляционные уравнения, содержащие различные инварианты, широко используемые при моделировании связи «структура-свойство» и допускающие определенную структурную интерпретацию. Проведено тестирование предложенных методов.

6) Предложены модели связи «структура-свойство» нового типа, которые отражают широко распространенный в химии постулат «близкие структуры имеют близкие свойства», позволяющие в ряде случаев оценивать свойство соединения на основе его сходства с другим соединением, для которого значение изучаемого свойства известно. Эти модели имеют следующий вид: |yi-yj|=d(Gi,Gj), где yi, yj – значения свойств i–ого и j–ого соединений, представленных графами Gi и Gj, а d(Gi,Gj) - некоторая симметричная функция двух аргументов Gi и Gj, значения которой количественно характеризуют степень подобия Gi и Gj. Предложен метод оптимального подбора меры d(Gi,Gj) в этом соотношении, а также способ оценки свойств соединений на основе такой модели. Проведено тестирование метода, а также его сравнение с двумя другими методами, использующими другие меры подобия. Это сравнение показывает, что предложенный в работе метод дает более точный результат, чем остальные методы.

7) Разработан алгоритм оптимального подбора меры подобия при прогнозировании свойств соединений по методу «ближайшего соседа». Предлагаемый подход позволяет построить меру подобия, дающую наилучший результат при вышеуказанном способе прогнозирования свойств соединений, по крайней мере, для исходной выборки соединений. Проведено тестирование метода и его сравнение с другими методами оценки свойств соединений, основанными на других мерах подобия. Это сравнение показывает, что предложенный в работе подход дает более точный результат, чем остальные методы.

8) Разработаны новые комбинаторные алгоритмы на графах, используемые при решении различных задач теоретической, компьютерной и математической химии, связанных с кодированием, идентификацией и анализом структурных особенностей графов. Эти алгоритмы позволяют строить каноническую нумерацию вершин графа, находить группу симметрии графа, устанавливать изоморфизм пары графов, находить все подграфы графа, изоморфные заданному подграфу. Алгоритмы математически обоснованы и применимы к графам произвольного вида, имеющим любые веса вершин и ребер.

9) Определены три новых класса прикладных задач в теории графов, имеющих практическое применение в области химии, а также предложены методы их решения или исследования. Полученные теоретико-графовые результаты являются основой алгоритмов моделирования связи «структура-свойство», разработанных в диссертации.

Первый класс задач связан с восстановлением аналитического вида инварианта меченых графов некоторого множества по всем или некоторым его значениям на графах этого множества. Для решения или исследования задач такого типа в работе предложена новая стратегия, основанная на введении и использовании понятия базиса инвариантов меченых графов. Предложены три определения базиса инвариантов графов, доказан ряд теорем о свойствах базисов, дана химическая интерпретация полученных математических результатов, предложены варианты наборов базисных инвариантов.

Второй класс задач связан с проблемой определения такого набора подграфов меченого графа (названных базисными подграфами), по которому граф восстанавливается однозначно. Предложена стратегия решения этой задачи, основанная на использовании ряда результатов спектральной теории графов. Получены теоретические результаты, позволяющие выявить один из возможных наборов таких подграфов.

Третий класс задач связан с нахождением аналитического вида произвольной симметричной меры подобия меченых графов. Выведена аналитическая формула для такой меры, из которой получен ряд важных следствий. Найденная формула позволяет строить меры подобия, удовлетворяющие определенным условиям и адаптировать их к конкретным химическим задачам.

10) Предложена формализация постулата «близкие структуры имеют близкие свойства», являющегося основой некоторых методов прогнозирования свойств соединений, и проведено теоретическое исследование его справедливости. Указаны общие случаи, когда вышеуказанное утверждение будет заведомо верным или заведомо неверным. Актуальность таких исследований связана с широким внедрением компьютеров в химические исследования, что приводит к необходимости формализаций различных понятий и эмпирических правил, разработанных в химии. Кроме того, анализ этого постулата важен для обоснования методов прогнозирования свойств соединений, которые на нем основаны.

Таким образом, в работе предложен ряд новых математических моделей и алгоритмов в рамках исследований связи между структурой и свойствами органических соединений для случая, когда структура молекул представлена произвольно мечеными графами. Проведено тестирование предложенных методов, показавшее их практическую применимость и эффективность. Предложенные алгоритмы могут быть реализованы в виде компьютерных программ. Эти программы могут использоваться как самостоятельно, так и в составе уже имеющихся комплексов программ, предназначенных для исследования связи «структура-свойство». Следует отметить, что для решения одной и той же задачи (например, построения модели связи «структура-свойство», определения области ее применимости) в работе предлагается сразу несколько методов. Их совместное использование позволит повысить достоверность получаемых результатов.

Разработанные методы имеют большое практическое значение для моделирования связи между структурой и свойствами органических веществ, прогнозирования свойств соединений по их структуре, целенаправленного поиска соединений с заданными свойствами в области медицины, сельского хозяйства, промышленности, техники и т. д. Предложенные методы могут быть рекомендованы к внедрению в научно-исследовательских институтах, лабораториях и других организациях, занимающихся поиском соединений с определенным набором свойств разного профиля.

Полученные результаты могут быть включены в спецкурсы по математическому моделированию в химии, медицинской химии, теории графов, прикладной математике. Ряд приведеных в работе результатов был использован автором при чтении спецкурса по дисциплине «Теория графов» в МИТХТ им. М. В. Ломоносова.

4. ЛИЧНЫЙ ВКЛАД АВТОРА. Постановки задач, рассматриваемых в Главах 1-5, методы их решения, а также алгоритмы на графах из 6.2, 6.4 Главы 6 разработаны автором. Алгоритм из 6.3 Главы 6 разработан совместно с д.х.н. Трачом С. С. Теоретические результаты (определения, теоремы 1.1-1.12, 5.1-5.3) получены лично автором. Тестирование предложенных методов и алгоритмов в ряде случаев выполнено автором самостоятельно, а в ряде – совместно с соавторами публикаций по теме диссертации. Проведение компьютерно-статистических экспериментов по проверке гипотез о свойствах графов, описанных в 1.3-1.5, выполнено совместно с Федяевым К.С. В разработке компьютерных программ участвовали: Баскин И.И., Словохотова О.Л., Федяев К.С., Пасюков А.В., Дозор И.Н., Трач С.С., Гальперн Е.Г.

5. АПРОБАЦИЯ РАБОТЫ. Основные результаты диссертации были представлены на следующих конференциях и симпозиумах: Всесоюзной конференции «Использование вычислительных машин в химических исследованиях и спектроскопии молекул» (Рига, 1986); Всесоюзной школе-семинаре по автоматизации химических исследований (Тбилиси, 1988); Межреспубликанской научно-практической конференции «Синтез, фармакология и клинические аспекты новых психотропных и сердечно-сосудистых средств» (Волгоград, 1989);VIII - ой Всесоюзной конференции «Использование вычислительных машин в спектроскопии молекул и химических исследованиях» (Новосибирск, 1989); Межвузовских конференциях «Молекулярные графы в химических исследованиях» (Одесса, 1987; Калинин,1990); I-ой Всесоюзной конференции по теоретической органической химии (ВАТОХ) (Волгоград,1991); Symposium “QSAR and Molecular Modeling: Concepts, Computational Tools and Biological Applications” (Spain, Barcelona, 1995); 11-th European Symposium on Quantitative Structure - Activity Relationships: Computer-Assisted Lead Finding and Optimization, (France, Lausanne, 1996); International Conference on Inverse and Ill- Posed Problems (IIPP-96), (Russia, Moscow, 1996); International Symposium CACR - 96, (Russia, Moscow, 1996); IV-ом Российском научном конгрессе «Человек и лекарство» (Москва, 1997); I-ой, II-ой, III-ей, IV-ой Всероссийских конференциях «Молекулярное моделирование» (Москва, 1998г, 2001 г., 2003 г., 2005); Ninth International Workshop on Quantitative Structure-Activity Relationships in Environmental Sciences, (Bulgaria, Bourgas, 2000); International School-Seminar on Computer Automatization and Information, (Russia, Moscow, 2000); II-ом Международном симпозиуме «Компьютерное обеспечение химических исследований», (Москва, 2001); Memorial International Symposium “Modern Trends in Organometallic and Catalitic Chemistry. Mark Vol’pin (1923-1996)” (Russia, Moscow, 2003); Fourth Indo-US Workshop on Mathematical Chemistry (With Application to Drug Discovery, Environmental Toxicology, Chemoinformatics and Bioinformatics), (Pune, Maharashtra, India, 2005); 11-ой Международной конференции «Математические модели физических процессов» (Россия, Таганрог, 2005); XIX Международной научной конференции «Математические методы в технике и технологиях» (Россия, Воронеж, 2006).

Научные исследования по теме диссертации были поддержаны следующими грантами: INTAS-93-32-33 («Development of New Technique for Quantitative Structure-Activity Relationships and Molecular Design»); INTAS-00-03-63 («Virtual Computational Chemistry Laboratory – CCLAB»); РФФИ - №95-03-09696а («Разработка новых нейросетевых методов исследования связи между структурой и свойствами органических соединений. Компьютерное конструирование и синтез соединений с заданными свойствами»); РФФИ - № 98-03-32955а («Разработка новых методов компьютерного дизайна органических соединений с заданными свойствами на основе искусственных нейросетей. Конструирование и синтез перспективных структур»); РФФИ- №96-03-33003а («Математические модели, алгоритмы и программы решения задач дизайна органических реакций»).

6. ПУБЛИКАЦИИ. По теме диссертации опубликовано 73 работы, среди которых 35 статей в журналах и сборниках (в том числе 24 статьи в журналах, рекомендованных ВАК), 34 тезиса докладов на конференциях, 2 главы в монографиях, 2 учебно-методических пособия.

7. СТРУКТУРА И ОБЪЕМ ДИССЕРТАЦИИ. Диссертация состоит из введения, шести глав, выводов, списка цитированной литературы (210 наименований), списка публикаций автора по теме диссертации (73 наименования) и Приложения. Работа изложена на 272 стр., содержит 35 таблиц, 49 рисунков. Каждая глава посвящена отдельной тематике, рассматриваемой в рамках общей задачи исследования связи «структура-свойство», и имеет логическую завершенность. В Главе 1 разработан ряд детерминированных методов построе-ния моделей связи «структура-свойство» на основе базисных инвариантов и базисных подграфов молекулярных графов. В Главе 2 описана система автоматической генерации инвариантов графов для моделирования связи «структура-свойство», использующая элементы случайного выбора. В Главе 3 рассматриваются различные методы определения областей применимости моделей связи «структура-свойство». Глава 4 посвящена алгоритмам решения обратных задач в исследованиях связи «структура-свойство» на основе различных базовых моделей связи «структура-свойство». В Главе 5 предложены модели, связывающие степень близости свойств и степень сходства химических соединений, отражающие постулат «близкие структуры имеют близкие свойства». Глава 6 посвящена описанию ряда алгоритмов на графах, используемых для их кодирования, идентификации и исследования структурных особенностей. Приложение содержит краткие описания некоторых из компьютерных программ, использованных для тестирования разработанных методов.

Базис инвариантов графов (определение 1), его свойства и применение для моделирования связи «структура-свойство» (метод № 1)

Определение 1. Набор инвариантов (gj (j=l,...,M) графов множества {GJ (i=l,...,N) назовем базисным, если любой инвариант/графов этого множества однозначно представляется в виде линейной функции от них, т.е.: м f(G)=Zajgj(G), (G{GJJ=1,...,N), н где a, (1=1,...,М) - некоторые константы, не зависящие от G, а зависящие только от/ ТЕОРЕМА 1.1. (необходимые и достаточные условия на набор инвариантов, при которых они образуют базис).

Набор инвариантов (gj) (j=l,...,M) образует базис множества инвариантов графов {GJ (i=l,...,N) в смысле определения 1 тогда и только тогда, когда M=N и detB O , где В=(Ъф - матрица с элементами bij—g/G), і, j=l,...,N.

Доказательство.

А) Пусть M=N и detB O. Рассмотрим систему N уравнений относительно N неизвестных alt...,aN /(С)= /С)а=1,...,М) (1.2) или, в матричном виде: f=Ba, где a=(ai,...,aN), f=(f(Gj),...,f(GN)) - вектора-столбцы. Так как detB O, то эта система имеет единственное решение a=B 1f. Следовательно, набор инвариантов {gj (j=l,...,N) - базис в смысле определения 1.

Б) Пусть набор инвариантов {gj (j=l,...,M) - базис, т.е. система уравнений вида (1.2) имеет единственное решение aj,...aM . Однако, из курса линейной алгебры известно, что система iV линейных уравнений относительно М неизвестных имеет единственное решение тогда и только тогда, когда M=N и detB O. Теорема доказана.»

ТЕОРЕМА 1.2.(описание множества всех базисов инвариантов).

Пусть {gj} (j l,...,N) - некоторый базис инвариантов графов множества {Gjj (i=l,...,N) в смысле определения 1, А - произвольная невырожденная квадратная матрица размера N. Построим набор инвариантов {Щ (j=l,...,N) по формуле: h=Ag, (1.3) где g=(gi, ...,gN), h=(hu ...,hN) - вектора - столбцы. Тогда: 1) Инварианты {hj (/=1, ...,N) также являются базисом инвариантов графов в смысле определения 1; 2) Любые два базиса h и g связаны между собой при помощи формулы (1.3) с некоторой невырожденной матрицей А.

Доказательство.

1) Надо доказать, что detB 0, где B =(bij )=(hi(Gj)) (ij=1,...,N). Однако В =АВ, где detArf), detB O. Поэтому detB Ю.

2) Формулу (1.3) для Gi (i=l,...,N) можно записать в виде В =АВ, где B =(hj(Gi), B=(gj(Gi)) (i,j=l,...,N). Очевидно, что матрица Л, связывающая h и g, определяется следующим образом: А=В В . Теорема доказана. ТЕОРЕМА 1.3. (о существовании базиса инвариантов, равных числам вхождения в граф определенных подграфов).

Существует такой набор подграфов Щ (j=l,...,N) данных графов {GJ (i=l, ...,N), что инварианты g/G), равные числам вхождения подграфа Я, в граф G, образуют базис. Назовем соответствующие подграфы базисными.

Доказательство. Упорядочим графы {GJ (i=1,...,N) по убыванию чисел вершин и ребер в них. Графы с одинаковым числом вершин и ребер нумеруются произвольно. Положим Hj=Gj (/=1,...,N). Тогда bjj=gj(Gi)=0, если j i; Ьц=1. Следовательно, В - верхнетреугольная матрица, у которой на диагонали стоят единицы. Поэтому detB=l. Следовательно, инварианты {gj} (j-1,...,N) образуют базис. Теорема доказана.

ТЕОРЕМА 1.4. (о существовании базиса инвариантов, часть которых постоянна на выделенном подмножестве графов).

Пусть в множестве графов {GJ (i=l,...,N) выделено подмножество {GJ (i=l,...,k), где k N. Тогда существует базис {fp} (p=l,...,N) инвариантов графов множества {GJ (i=l,...,N), такой, что его N-k+І элемент fp (p=l,...,N-k+l) постоянен на подмножестве {GJ (i=l,...,k). При этом N-k+І - максимальное число базисных инвариантов, обладающих вышеуказанным свойством.

Доказательство. Обозначим через / произвольный инвариант, постоянный на подмножестве {GJ (i=l,...,k). Тогда можно разложить / по некоторому заданному базису {gj} (j=l,...,N): и написать систему к-1 уравнений: N N N Ъ &(вд=Ъ &(вг)=---=Ъ М)(в1) j=i j=i j=i Перейдем от этой системы к эквивалентной ей: \a,(gl(G1)-g1(Gl))+...+aN(gN(G1)-gN(Gl())=0 (1.4) Mgi(Gk-,)-gi(Gk))+...+aN(gN(Gk-i)-gN(Gk))=0 Очевидно, что существует взаимно-однозначное соответствие между искомыми инвариантами/и решениями аі,...,а этой системы. При этом число линйно-независимых искомых инвариантов равно числу линейно независимых решений этой системы уравнений. Покажем, что у матрицы этой системы существует невырожденная подматрица размера (к-1)х(к-1) .

Рассмотрим матрицу B=(gj(G)) (i,j=l,...,N).TaK как {gj (j=l,...,N) - базис, то detB O. Построим из В матрицу В і, вычитая в В к-ую строку из первых (к-1) строк, а остальные строки не изменяя. Тогда, очевидно, detBj O. Легко видеть, что подматрица матрицы В], образованная первыми (к-1) строками и всеми N столбцами, есть в точности матрица системы (1.4).

Рассмотрим все миноры М(іі,...ік-і) матрицы В], стоящие в первых (к-1) строках и столбцах с номерами іі,...,ік.і. Обозначим через М (іі,...,ік-і) алгебраические дополнения миноров М(і],...,і\.і) в В].Тогда по теореме Лапласа detB,= Щіь-Л-і) М (іі,...,ік.{) iiS-.ік-і Так как detB]?fl, то существует хотя бы один набор номеров ii,...ik-i, такой, что M(i],...ik-i) 0. Итак, у матрицы системы (1.4) существует невырожденная подматрица, образованная (к-1) строками и столбцами ii,...,ik-i. Следовательно, к-1 неизвестных среди a\,...,aN являются главными (с номерами //,...,4./), а остальные N-k+І - свободными. Следовательно, размерность пространства решений системы (1.4) равна N-k+І, и число линейно-независимых инвариантов, постоянных на {GJ (i=l,...,k), также равно N-k+І. Для их нахождения надо найти фундаментальную систему решений системы (1.4) обычным способом.

Основные топологические индексы как результат реализации алгоритма генерации инвариантов графа

(1) ТИ, являющиеся функциями степеней вершин (без учета связности вершин)[10]: Mi=Ev i\Р=Ши I=Zvu Для построения этих ТИ на 1-ом этапе алгоритма выбран вариант Сп.1(2)+Сп.2(2) и построена окончательная матрица А=(ху), где Xu=vh Ху=0. Затем на 2-ом этапе выбран вариант Сп.10(1) щ&/]=х ,/]=1хц,/1=Пхц, а /2=0 . (2)ТИ, являющиеся функциями степеней вершин (сучетом связности)[Щ: F=Z(Vi+Vj-2) (индекс Платта); M2=Z(ViVj) (индекс Гутмана); 1/7 Х=(ур) (индекс Рандича); (в этих формулах суммирование распространено на все ребра (ij)). Для построения этих ТИ на 1-ом этапе алгоритма выбран вариант: Сп. 1(2)+Сп.2(2); затем проведена модификация весов по варианту: Сп.3(5)+Сп.4(4). При этом для ду=1 для смежных пар (ij), ду=0 для несмежных пар (ij); локальные инварианты пути (т.е. ребра) определяются формулами: /=х,%, / (хцх 05, /=хц+Ху -2, соответственно, а новый вес ребра Ху =/ а для несвязных пар вершин (ij) ху =0. Далее построена матрица А=(ху ) и 1-ый этап закончен. На 2-ом этапе выбран вариант Сп.10(1), ще/]=0, /2=Zxy (суммирование идет по всем парам (ij)). (2) ТИ, связанные с матрицей расстояний D=(dy) или с матрицей путей наибольшей длины к=(ку) [10,47,163-168]. 1. W(p)=Idijр (пркр=1 - индекс Винера, прир=-1 - индекс Харари ); 2. r(G)=min max dy; 3. W =Zdij р (dy - четные или нечетные элементы, р - любое число); 4. WW=0.25(W(1)+W(2)); 5. P=IIdu; 6. J=[q/(l+cJ)Z(di dj , c=q-n+l (с - число циклов; q - число ребер графа), /,=2 (индекс Балабана); 7. D(k)=(Zgi ik)/(Zgj)1/k, к-1,2..., где gt - число пар верши на расстоянии /.

Для ТИ 1-5 на 1-ом этапе выбран вариант Сп.1(1)+Сп.2(3) и построена матрица расстояний D=(dy). Затем на 2-ом этапе выбран вариант Сп.10(1); в случае ТИ 3 элементы dy разбиты на классы: «четные/ нечетные» и взяты функции от dy только определенного типа. Для ТИ 6, как и в предыдущих случаях, сначала построена матрица расстояний D. Затем проведена трехкратная модификация весов по схеме: (Сп.3(4)+Сп.4(6)) — (Сп.4(1)+Сп.3(6)) - (Сп.4(4)+Сп.3(6); выбрано д0=О, если /=/ , dv=l, если /#). Затем перешли ко 2-ому этапу, выбрав вариант Сп.10(1) и построив J =Exi/ . Наконец, построили ТИ как функцию от q, п, J (т.е. выбрали вариант Сп.12(4)). Для ТИ 7 на 1-ом этапе строится матрица расстояний D, затем ее элементы разбиваются на классы по значениям, gt - число элементов, равных /. Затем, на 2-ом этапе выбран вариант Сп.Ю (3); для построения ТИ использована функция от (gi,g2,...).

8. B=Eh? (центрический индекс Балабана, определенный для деревьев; /г, -число вершин на / -ом шаге процедуры обрезки деревьев).

Для ТИ 8 на 1-ом этапе выбран вариант Сп.1(3)+ Сп.2(2), строим матрицу Л и этап заканчиваем. Затем, на 2-ом этапе выбираем вариант Сп.Ю(З): числа разбиваем на классы по их значениям, /г, -число вершин с весом і; индекс В - симметричная функция от этих величин. 9. Полный индекс Винера W"=ZW(G .

Для ТИ 9 на 2-ом этапе выбран вариант Сп.12(2); рассмотрены все подграфы графа; локальный ТИ, определяемый для подграфа - это индекс Винера.

10. со =1Ау (аналог индекса Винера, определяемый по матрице путей наибольшей длины).

Для ТИ 10 на 1-ом этапе выбран вариант Сп.1(1)+ Сп.2(4), построена матрица А=А=(Ау) и этап закончен. Далее процедура построения этого ТИ аналогична процедуре построения индекса Винера. 11. W =(l/6)Ikij dtj (dij+l)(dij+2), Xij - число кратчайших путей, соединяющих вершины / и/.

Для ТИ 11 первоначально построены матрицы А]=Л=(Хф и A2=zD=(dij) (см. Сп. 4(4), где выбраны кратчайшие пути). Далее, по ним построена новая матрица А с элементами Ху=(1/6)Х у@у+ l)(dijJr2) (см. Сп.5 (4) , выбор //Не очевиден), Хц=0 при всех і. ТИ 11 строится по этой матрице на 2-ом этапе согласно варианту Сп. 10(1).

Определение области применимости модели связи «структура - свойство во» на основе базисных инвариантов

Пусть дано множество соединений, представленных графами {GJ (i=l,...,N), и выборка соединений из них {GJ (i=l,...,k) с известными значениям некоторого свойства {уJ (i=1,...,к), используемая далее для построения модели связи «структура-свойство». Предположим, что {gjj (j=l,...,N) - некоторый базис инвариантов графов множества {GJ (i=l,...,N). Пусть по этому базису построен новый базис (fjj (j=l,...,N), такой, что N-k+І его элементов постоянны на выборке графов {GJ (i=l,...,k). Предположим без ограничения общности, что эти постоянные инварианты имеют номера k,...,N. Пусть в базисе {fj} (j=l,...,N) построено точное уравнение связи «структура-свойство» по выборке {Gi}(i=l,...,k): к-1 N y=Ih/p(G)+ a0(a0=2hpCp, cp=fp(GJ=const ;(i=l,...,k)) p=l p=k

Коэффициенты в этом уравнении однозначно определяются по исходным данным. На всем полном множестве графов {GJ (i=l,...,N) точное уравнение связи «структура-свойство» имеет вид: N y=Ztpfp. р=1

Однако, коэффициенты ар (p=k,...,N) в принципе не могут быть определены по исходным данным.

Предположим, что задана допустимая точность расчета свойств соединений є 0 и из точного уравнения получено приближенное путем замены некоторых инвариантов , (р=1,...,к-1) на их средние значения Ър=(1/к)Щв,) по выборке графов {Gi}(i=l,...,k). Предположим без ограничения общности, что в приближенном уравнении оставлены инварианты с номерами 1,...,т (т к-1), а остальные заменены на их средние значения, т.е. приближенное уравнение имеет вид: т к-1 y=Ua/p(G)+A0 (A0=a0+Zapbp). p=l p=m+l

На основании теоремы 1.8 и следствия из нее, приведенных в Главе 1, можно предложить следующий метод определения ТОП последнего уравнения, связанный с понятием базисных инвариантов. Как было доказано в Главе 1, для конструктивного определения ТОП необходимо выдвинуть ряд гипотез относительно рассматриваемого свойства. Одним из возможных и естественных вариантов таких гипотез, согласно следствию из теоремы 1.8 , является предположение о независимости рассматриваемого свойства на исходном множестве графов от ряда базисных инвариантов fp (p=k,...,N) , т.е. предположение, что ар=0 при некоторых значениях p=k,...,N. Дальнейшее определение ТОП существенно зависит от этих гипотез. Опираясь на следствие из теоремы 1.8 , будем полагать, что ТОП вышеуказанного уравнения образуют те и только те графы G, для которых fp(G)=cp для остальных номеровp=k,...,N, и, кроме того, выполнено неравенство: /Iap(fp(G)-bp)l s. р=т+ Пример 2.

Рассмотрим множество всех алканов С2-С7 (число соединений N=21) с известными значениями температуры кипения у, приведенными в таблице 3.2 [182]. Представим их простыми молекулярными графами G{ (1=1,...,21), в которых вершины соответствуют атомам углерода, а атомы водорода игнорируются. Используем первые 7 структур из таблицы 3.2 для построения модели связи «структура-свойство» на основе базисных инвариантов. Таким образом, здесь к=7. Обозначим через gj инвариант графа, равный числу вхождения графа G, в G (j=1,...,21). Как было доказано ранее в Главе 1, инварианты gj (j=l,...,21) образуют базис инвариантов графов исходного множества. Построим матрицу B=(b =(gj(G ) (і, )=1,...,21) (см. таблицу 3.3). Построим на основе базиса {gj} (j=l,...,21) другой базис fj ()=1,...,21), в котором ровно N-k+l=15 инвариантов постоянны на обучающей выборке. Для этого сначала построим матрицу В(1)=(Ьу(1)) , где by )=(gj(Gi)-gj(G-j)) (см. таблицу 3.4). Затем найдем 15 базисных решений однородной системы уравнений вида В(1)а=0 относительно неизвестных a=(aj,...,a]5), выбрав в качестве главных неизвестных ai,...,a6. Далее, используя найденные базисные решения, построим 15 базисных инвариантов, постоянных на обучающей выборке, имеющих следующий вид: /= /+...+ 2/ 2/ В данном случае искомые инварианты таковы:

Обратная задача для информационных топологических индексов

Предположим, что для некоторой выборки соединений и некоторого свойства "у" построено корреляционное уравнение у=1ырас1&ао (4.9) где /, (i=l,...,p) - какие-либо информационные инварианты вида (4.8) одного фиксированного порядка к 1 или некоторые функции от них, a,- (i=l,...,p) -соответствующие коэффициент уравнения.

Изложим методологию решения обратной задачи для уравнения (4.9) в некотором классе соединений, структурно-близких соединениям исходной выборки. Эта задача заключается в компьютерной генерации на основе уравнения (4.9) всех молекулярных структур вышеуказанного класса, свойства которых У лежат в заданном интервале уі у у2 Определим следующий класс соединений {G}, структурно-близких соединениям исходной выборки. Это соединения, содержащие атомы только тех т типов, которые имеются в исходных соединениях (тип атома характеризуется картиной к - ого окружения) и, кроме того, количество атомов j -oro типа в этих соединениях, g/G), удовлетворяет ограничениям: gjmin gj(G) gr (J=l-,m) (4.10) где числа gf"n (gjmax) определяются как минимум (или максимум) величины gj по структурам исходной выборки. Подобные ограничения можно обосновать, опираясь на идеологию математической статистики. Как известно, основная задача статистики состоит в том, чтобы на основании знания некоторых свойств выборки элементов, взятой случайным образом из некоторого множества (генеральной совокупности), сделать какие нибудь утверждения о свойствах этого множества. В корреляционном анализе связи «структура-свойство» решается задача такого же типа - уравнение, установленное по некоторой выборке молекулярных графов, затем переносится на определенный класс графов, образующих область применимости соответствующей модели (на языке статистики - являющийся генеральной совокупностью для исходной выборки). Пусть исходная выборка состоит из к графов, а некоторый структурный параметр Хь являющийся случайной величиной, принимает на выборке значенияxit m(xi) - число значений, равныхxh г.p(Xj)=m(Xj)/k - частота появления значения х,- среди прочих значений случайной величины X. Тогда на основе исходных данных р(х)=0 при всех х: x min х,- и х тах х,-. Можно считать, что эмпирическая функция распределения случайной величины X, построенная по исходной выборке (т.е. по числам р(хд) является приближением истинного распределения величины X в генеральной совокупности (т.е. p(Xj) -это приближенная вероятность того, что X примет значение х,). Таким образом, вероятность того, что Хв генеральной совокупности примет значения x min х,-и х тах ХІ, близка к нулю. Таким образом, на основе этих соображений можно считать, что в области применимости модели связи «структура-свойство» значения х случайной величины X лежат в интервале minXj x maxxh а другие значения х маловероятны.

Будем предполагать, что описанный выше класс соединений {GJ образует область применимости уравнения (4.9). Отметим, что класс может быть расширен. Это можно сделать, например: 1) добавляя к множеству атомных типов и те типы, которые не встречаются в исходных соединениях; 2) расширив границы неравенств (3). Однако при чрезмерном расширении класса {G} возрастает доля структур, для которых уравнение (4.9) не является справедливым, и, кроме того, при генерации структур в процессе решения обратной задачи возможен «комбинаторный взрыв». Отметим, что класс {GJ можно и сузить, потребовав, например, чтобы все структуры содержали общий фрагмент определенного вида.

Алгоритм решения сформулированной выше 03 состоит из следующих основных пяти основных этапов.

1) Задаем число атомов п и число циклов с в молекуле (параметр с задается только в случае вхождения в уравнение (4.9) инвариантов, для вычисления которых необходимо знание числа связей q в молекуле), учитывая, что Zjgj n Zjgj

2) Разбиваем число п всем способами на сумму т слагаемых n=Ej=imgj {gj 0, /=7,...,m), проверив выполнение ограничений (4.10).

3) Для каждого набора {gj вычисляем инварианты 7, (i=l,...,p) , а затем и величину у по уравнению (4.9). Проверив условие уі у у2, отбрасываем лишние варианты.

4) Пусть элементарный структурный фрагмент (ЭСФ) - это фрагмент, состоящий из одного атома с заданным распределением типов связей. По числам gj (f=1,...,т) находим числа разных ЭСФ и подаем их на вход генератора структур по набору ЭСФ [143,144]. Для уменьшения сокращения перебора предварительно проверяем необходимые и достаточные условия существования связного мультиграфа с заданным распределением степеней вершин и отбрасываем лишние варианты.

5) Для построенных на предыдущем этапе структур определяем число циклов с и gj (j=l,...,m) и отбираем среди них те, что обладают заданным

числом с и для которых выполнено условие уі у у2. Эти структуры и дают решение рассматриваемой 03 в классе соединений {G} с фиксированными числами атомов и связей.

Пример.

Для выборки, состоящей из 28 первичных аминов, не содержащих циклов, с известными значениями «у» их температур кипения (в С) [200], нами получено уравнение вида у=-701.7+1.160 TIC2+724.7SIC2+177.1 CIC2 (N=28, R=0.994, s=7.8) Для построения инвариантов, входящих в это уравнение, атомы соединений выборки (включая атомы водорода) были разбиты на классы в соответствии с их координационными сферами 2-ого порядка. В соединениях выборки были обнаружены атомы 45 вышеуказанных типов и найдены ограничения (по выборке) на число атомов каждого типа. Поставим следующую обратную задачу: найти все первичные ациклические амины с 19 атомами (включая атомы водорода), удовлетворяющие найденным ограничениям на числа атомных типов, для которых 90 утеор 100 (С). В результате были получены 6 структур, представленных на рис. 4. 11:

Похожие диссертации на Математические модели и алгоритмы в исследованиях связи между структурой и свойствами органических соединений