Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Поиск, идентификация и распознавание информационных портретов кредитоспособных клиентов банка при управлении банковской системой Кыркунов Евгений Александрович

Поиск, идентификация и распознавание информационных портретов кредитоспособных клиентов банка при управлении банковской системой
<
Поиск, идентификация и распознавание информационных портретов кредитоспособных клиентов банка при управлении банковской системой Поиск, идентификация и распознавание информационных портретов кредитоспособных клиентов банка при управлении банковской системой Поиск, идентификация и распознавание информационных портретов кредитоспособных клиентов банка при управлении банковской системой Поиск, идентификация и распознавание информационных портретов кредитоспособных клиентов банка при управлении банковской системой Поиск, идентификация и распознавание информационных портретов кредитоспособных клиентов банка при управлении банковской системой Поиск, идентификация и распознавание информационных портретов кредитоспособных клиентов банка при управлении банковской системой Поиск, идентификация и распознавание информационных портретов кредитоспособных клиентов банка при управлении банковской системой Поиск, идентификация и распознавание информационных портретов кредитоспособных клиентов банка при управлении банковской системой Поиск, идентификация и распознавание информационных портретов кредитоспособных клиентов банка при управлении банковской системой Поиск, идентификация и распознавание информационных портретов кредитоспособных клиентов банка при управлении банковской системой Поиск, идентификация и распознавание информационных портретов кредитоспособных клиентов банка при управлении банковской системой Поиск, идентификация и распознавание информационных портретов кредитоспособных клиентов банка при управлении банковской системой
>

Данный автореферат диссертации должен поступить в библиотеки в ближайшее время
Уведомить о поступлении

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - 240 руб., доставка 1-3 часа, с 10-19 (Московское время), кроме воскресенья

Кыркунов Евгений Александрович. Поиск, идентификация и распознавание информационных портретов кредитоспособных клиентов банка при управлении банковской системой : Дис. ... канд. техн. наук : 05.13.10 : СПб., 2004 175 c. РГБ ОД, 61:04-5/3577

Содержание к диссертации

Введение

1. Управление планированием и организацией банковского процесса кредитования. Постановка научной задачи

1.1. Управление планированием и организацией банковского процесса кредитования 10

1.2. Содержание и объем задач и функций системы управления банком 14

1.3. Скоринг как метод оценки кредитоспособности 20

1.4. Искажение информации как источник рисков при

предоставлении займов физическим лицам 25

1.5. Структура исходных данных, специфика и используемые обозначения 34

1.6. Правовые аспекты кредитования 46

Выводы 66

2. Традиционные методы оценки кредитоспособности 69

2.1. Экспертные оценки 69

2.2. Регрессионный анализ 71

2.3. Дискриминантный анализ 76

2.4. Методы сравнения с образцом 82

Выводы 88

3. Современные технологии data mining -перспективный подход к оценке кредиспособности 91

3.1. Общие представления о Data Mining 91

3.2. Нейросетевой подход 99

3.3. Эволюционные и генетические алгоритмы 103

3.4. Алгоритмы поиска логических закономерностей в данных 109

Выводы 117

4. Построение базы информационных портретов кредитоспособных заемщиков 119

4.1. Характеристика экспериментальных данных 119

4.2. Оценка кредитоспособности с помощью традиционных методов 122

4.3. Сравнительные оценки кредитоспособности с применением различных конкурирующих алгоритмов 127

4.4. Информационные портреты заемщиков банка 130

4.5 Оценка эффективности распознавания информационных портретов кредитоспособных клиентов банка 155

4.6 Рекомендации по внедрению результатов работы 160

Выводы 162

Заключение 165

Библиографический список

Введение к работе

Актуальность темы. На современном этапе развития национальной экономики страны важнейшей является проблема совершенствования кредитной банковской системы. От решения этой проблемы в значительной степени зависят перспективы, возможности и темпы роста экономики.

Одной из основных задач банков является качественное кредитование как юридических, так и физических лиц. Качественное и своевременное решение вопросов кредитования в определенной степени зависит от организации данного процесса в самом банке.

Процесс кредитования в современном банке представляет собой сложную кибернетическую систему с большим количеством элементов и связями между этими элементами, обладающую замкнутой системой управления. При этом задачи управления слабо структурированы и формализованы, имеется неоднозначность, противоречивость и неполнота начальных данных и знаний о физическом лице. Как правило, не удается учесть все факторы и условия, влияющие на принятие решения и все последствия от их принятия. Это связано в первую очередь с тем, что процесс кредитования в банке находится в постоянном движении, вызванном внутрисистемными противоречиями и влияниями извне, то есть экономическим состоянием.

Внутрисистемные противоречия являются неизбежным проявлением эволюционирования всех элементов системы, замены консервативных, изживших себя форм организации и управления процессом кредитования, и новыми прогрессивными технологиями. Влияния извне связаны с тем, что банк не может функционировать автономно, независимо от экономики страны. В условиях реформирования экономики это влияние становится особенно ощутимо.

В связи с этим возникает необходимость оперативно реагировать на изменяющуюся обстановку, умело и гибко управлять процессом кредитования.

Средства автоматизации и соответствующие информационные

технологии (ИТ) оказывают большое влияние на качество принимаемых

решений. Под ИТ, следует понимать совокупность методов, (способов)

выполнения функции управления с помощью средств ВЫЧИСЛИТЕЛЬНОЙ ТЕХНИКИ (СЕПТ).

Лицо, принимающее решение (ЛПР), обычно стремится к оптимальному использованию имеющейся информации чтобы, взвесив все возможные варианты решений, постараться найти среди них наилучший. Основная сложность состоит в том, что решение следует принимать с учетом многих критериев, отражающих их разнородные, а часто, и противоречивые цели. Для повышения степени обоснованности принимаемого решения необходимо использовать знания и опыт не только лица, принимающего решение, но и экспертов - специалистов в данной области. В связи с этим появляется потребность в разработке программных продуктов, которые бы упростили процесс принятия решений, и придали бы полученным выводам большую надежность.

Технология планирования кредитования - это не только трудоемкий технический процесс, объект механизации и автоматизации с использованием ПЭВМ, но и акция оптимального управления с очевидным ожидаемым экономическим эффектом. Организация и планирование процесса кредитования - многокритериальная задача. Решение ее методами классической математики и оптимизацией точными методами математического программирования не имеют перспектив в рамках современных вычислительных возможностей.

Определение кредитоспособности клиента банка, под которой в настоящей работе понимается желание, соединенное с возможностью

юридического или физического лица своевременно погасить заем, производится двумя основными способами.

Первый опирается на экспертную оценку при анализе личных характеристик и финансового состояния потенциального заемщика. На основе имеющейся информации о клиенте, собственном опыте и интуиции специалист банка составляет "обобщенный образ" заявителя на ссуду и сравнивает его со "стандартными образами" заемщиков, которые ассоциируются с различным уровнем кредитного риска.

Второй более распространенный метод определения

кредитоспособности частных заемщиков получил название "скоринговой" системы отбора кредитных заявок. В нем используется та или иная формальная математическая модель для оценки потенциальных заемщиков, построенная на основе статистического анализа ранее накопленной информации о "хороших" и "плохих" случаях кредитования. Скоринг позволяет автоматизировать процедуру принятия решения ив присутствии клиента, обратившегося в банк и заполнившего специальную анкету, дать ответ о возможности выдачи ссуды в течение нескольких минут с учетом оперативно получаемой от кредитного бюро информации.

В настоящее время наиболее часто используется линейная скоринговая модель, которая представляет собой взвешенную сумму обрабатываемых характеристик. В результате вычисляется интегральный показатель каждого клиента, который сравнивается с определенным порогом, или линией раздела. Клиентам с интегральным показателем выше этой линии выдается кредит, клиентам с интегральным показателем ниже'этой линии - нет.

Линейная модель, на первый взгляд, выглядит просто и логично. Однако такой упрощенный подход недостаточно учитывает специфику обрабатываемой информации и системную сложность объекта исследования - человека. Этим обусловлена актуальность диссертационной работы, направленной на поиск и разработку новых математических моделей оценки

кредитоспособности с помощью новейших технологий анализа данных о клиентах банков.

Целью работы является совершенствование управления банковской системой кредитования физических лиц, на основе современных информационных технологий.

Для реализации поставленной цели в работе решались следующие задачи:

Изучить специфику исходных данных, для выбора адекватной математической модели скоринговой оценки.

Исследовать различные математические подходы к оценке кредитоспособности, для оценки применимости к данной задаче; (экспертные оценки, регрессионный анализ, дискриминантныи анализ, методы сравнения с образцом)

Построить модели оценки кредитоспособности физических лиц с использованием традиционных статистических методов и современных технологий Data Mining;

Создать базы информационных портретов заемщиков с помощью методов поиска логических закономерностей в исторических данных, для оценки их кредитоспособности.

Оценить эффективность, предложенной скоринговой системы;

Дать рекомендации для совершенствования управления банковской системой кредитования физических лиц.

Методы исследования. В работе используются методы математической статистики, теории принятия решений, искусственного интеллекта.

Научная новизна состоит в том, что впервые:

1. Выявлены логические закономерности в характеристиках кредитоспособных клиентов банка и построена база информационных портретов кредитоспособных клиентов банка, составляющая основу для

принятия решений при предоставлении кредитов физическим лицам, на основе современных технологий Data Mining.

  1. Предложен подход, основанный на алгоритмах поиска ассоциаций, для выявления общих характеристик базы знаний информационных портретов кредитоспособных клиентов банка.

  2. Даны рекомендации по совершенствованию управления банковской системой кредитования физических лиц.

Теоретическая значимость работы заключается в том, что расширены границы использования методов теории управления и принятия решений для конструирования автоматизированной системы планирования и организации банковского процесса кредитования.

Практическая значимость работы состоит в том, что внедрение в банковскую систему кредитования скоринговой системы отбора кредитных заявок и новых информационных технологий позволяет увеличить число клиентов банковской системы кредитования, тем самым повышая доходность банка, открыть широкие возможности кредитования для потребителей, повысить уровень доверия к банковской системе.

Достоверность результатов исследования подтверждается адекватностью предлагаемого подхода к реальным условиям.

На защиту выносятся следующие положения:

  1. Логические закономерности в характеристиках кредитоспособных клиентов банка и база информационных портретов кредитоспособных клиентов банка, составляющая основу для принятия решений при предоставлении кредитов физическим лицам, на основе современных технологий Data Mining.

  1. Подход, для выявления общих характеристик базы знаний информационных портретов кредитоспособных клиентов банка, основанный на алгоритмах поиска ассоциаций.

3. Рекомендации по совершенствованию управления банковской системой кредитования физических лиц.

Апробация работы. Результаты работы докладывались на Всероссийской научно-практической конференции «Информатика и информационные технологии в образовании» (ИИТО-2003), СПб, 2003; конференции «Инфокоммуникации. Подготовка кадров и кадровая политика», (СПбГУТ), СПб, 2003., на расширенном заседании кафедры математика СЗАГС 2003г.

Публикации. Основные результаты диссертации опубликованы в 3 печатных работах.

Структура и объем работы. Диссертация состоит из введения, четырех глав, заключения и списка литературы. Общий объем работы 175 страниц с рисунками и таблицами.

Содержание и объем задач и функций системы управления банком

Организационное устройство коммерческих банков соответствует общепринятой схеме управления акционерного общества. Высшим органом коммерческого банка является общее собрание акционеров, которое должно проходить не реже одного раза в год. На нем присутствуют представители всех акционеров банка на основании доверенности. Общее собрание правомочно решать вынесенные на его рассмотрение вопросы, если в заседании принимает участие не менее трех четвертей акционеров банка.

Общее руководство деятельностью банка осуществляет совет банка. На него возлагаются также наблюдение и контроль за работой правления банка. Состав совета, порядок и сроки выборов его членов определяет общие направления деятельности банка, рассматривает проекты кредитных и других планов банка, утверждает планы доходов и расходов и прибыли банка, рассматривает вопросы об открытии и закрытии филиалов банка и другие вопросы, связанные с деятельностью банка, его взаимоотношениями с клиентами и перспективами развития.

Непосредственно деятельностью коммерческого банка руководит правление. Оно несет ответственность перед общим собранием акционеров и советом банка. Правление состоит из председателя правления (президента), его заместителей (вице-президентов) и других членов.

Заседания правления банка проводятся регулярно. Решения принимаются большинством голосом. При равенстве голосов голос председателя является решающим. Решения правления проводятся в жизнь приказом председателя правления банка. При правлении банка обычно создаются кредитный комитет и ревизионная комиссия.

В функции кредитного комитета входят: разработка кредитной политики банка, структуры привлекаемых средств и их размещения; разработка заключений по предоставлению наиболее крупных ссуд (превышающих установленные лимиты); рассмотрение вопросов, связанных с инвестированием, ведением трастовых операций.

Ревизионная комиссия избирается общим собранием участников и подотчетна совету банка. В состав ревизионной комиссии не могут быть избраны члены совета и правления коммерческого банка. Правление банка предоставляет в распоряжение ревизионной комиссии все необходимые для проведения ревизии материалы. Результаты проведенных проверок комиссия направляет правлению банка. В целях обеспечения гласности в работе коммерческих банков и доступности информации об их финансовом положении их годовые балансы, утвержденные общим собранием акционеров, а также отчет о прибылях и убытках должны публиковаться в печати (после подтверждения достоверности представленных в них сведений аудиторской организацией).

В целях оперативного кредитно-расчетного обслуживания предприятий и организаций - клиентов банка, территориально удаленных от места расположения коммерческого банка, он может организовывать филиалы и представительства. При этом вопрос об открытии филиала или представительства коммерческого банка должен быть согласован с ГУ ЦБ РФ по месту открытия филиала или представительства.

Для качественного и своевременного решения банком своих задач необходима организация управления его деятельностью. В целях обеспечения эффективного управления всю совокупность работ в области управления необходимо расчленить на отдельные элементы, то есть должны быть определены функции управления.

Функция управления может быть определена как отрасль работы, представляющая собой совокупность решений, действии или процессов, объединенных общностью объекта и решаемых задач по управлению. Для банка характерны следующие основные функции управления: - прогнозирование; - планирование; - организация; - контроль и учет; - оперативное управление;

Перечень функций управления не зависит от масштаба и характера банка. Функции едины для различных банков, т.е. их состав и сущность в основном одинаковые для различных банков. Однако объем работ и порядок их проведения при осуществлении той или иной функции в этих банках могут быть различны.

Каждая функция управления при своей реализации предусматривает выполнение работ, которые могут быть сгруппированы по определенным признакам. В частности, для функции планирования и организации деятельности банка и подразделений все выполняемые работы можно сгруппировать по аспектам деятельности. Специфика деятельности банка и содержание функций управления в значительной степени определяют принципы организации управлением как банком, так и процессом банковского кредитования. Для банка целесообразно сочетание линейного и функционального управления. Линейное управление обеспечивает реализацию принципов централизма и единоначалия и предусматривает выработку и передачу управляющих воздействий в соответствии с имеющейся иерархией сверху вниз. Оно позволяет обеспечить единство руководства, поднимает ответственность начальника за работу подчиненного ему подразделения. Эффективность линейного управления будет выше, если число ступеней иерархии управления минимально, а управляющие воздействия передаются сверху вниз последовательно без пропуска (обхода) какого-либо прямого руководителя, находящегося в иерархии управления между отдающим распоряжение (приказ, указание и т. и) и тем, кому это распоряжение предназначена.

Необходимость функционального управления в банке обусловлена целесообразностью разделения обязанностей между начальниками при осуществлении функций управления. Функциональное управление обеспечивает управление деятельностью соответствующих органов управления по ограниченному кругу вопросов, относящихся компетенции той или иной функции.

Регрессионный анализ

Как отмечалось в предыдущей главе, при применении методов скорринга в распоряжении аналитика имеется большой объем разнообразной информации о клиентах. В целях построения математической модели сначала формируется выборка заемщиков банка, о которых уже известно, как они себя зарекомендовали. Такая выборка называется "обучающей". Выборка подразделяется на две группы: "хорошие" и "плохие" клиенты. Эта терминология оправдана в том смысле, что при принятии решения о предоставлении кредита на первом этапе выбирает из двух вариантов: предоставлять или не предоставлять. При всей "детскости" определений "хороший 7"плохой", это именно те термины, которые наиболее часто используются аналитиками и экспертами.

Определение "плохого" клиента может быть разным в зависимости от политики организации, оказывающей ту или иную услугу. Например, в банках Западной Европы "плохим" обычно считается клиент, задерживающийся с очередной выплатой на три месяца. Иногда к "плохим" относятся клиенты, которые слишком рано возвращают кредит, и банк не успевает ничего на них заработать.

Скоринг в терминологии прикладной статистики представляет собой задачу обучения с учителем, где исходя из имеющейся информации необходимо получить функцию, наиболее точно разделяющую выборку клиентов на "плохих" и "хороших", или проранжировать клиентов от самых "плохих" до самых "хороших".

Для преобразования разнородной информацию в форму, поддающуюся количественному анализу применяют два основных подхода, которые пригодны для работы как с количественными, так и с качественными характеристиками:

Сопоставляют значениям (интервалам значений) каждого признака отдельную двоичную переменную. Этот подход неудобен в том плане, что приводит к большому количеству переменных, хотя он не навязывает никаких дополнительных отношений между зависимой и независимыми переменными.

Преобразовывают каждую характеристику в переменную, которая принимает значения, соответствующие отношению числа "плохих" клиентов с данным значением признака к числу "хороших" клиентов с этим же значением признака. Более усложненный вариант - логарифм этого отношения. Таким образом, значения каждого признака кодируется числом, соответствующим уровню его "рискованности".

Самым популярным для решения задачи скоринга является подход, основанный на модели линейной множественной регрессии. В регрессионном анализе критериальный показатель z (оценка кредитоспособности) рассматривается как "зависимая" переменная (как правило, ранговая или количественная), которая выражается функцией от "независимых" признаков xjt ... , хр . Линейная функция множественной регрессии записывается следующим образом zi =w0 +WTX. +,.. wo называется свободным членом, а элементы весового вектора w = (wi,..., wp) называются коэффициентами регрессии. ,

Для оценки эффективности регрессионного уравнения вводится вектор остатков, который отражает влияние на z совокупности неучтенных случайных факторов либо меру достижимой аппроксимации значений z,-.

Различают два подхода к определению параметров уравнения множественной регрессии в зависимости от происхождения матрицы данных. В первом считается, что признаки детерминированы и случайной величиной является только зависимая переменная z. Этот подход используется наиболее часто. Во втором подходе полагается, что и независимые признаки xj и z — случайные величины, имеющие совместное распределение. В такой ситуации оценка уравнения регрессии есть оценка условного математического ожидания случайной величины z в зависимости от случайных величин Xj. 1. Каждый из приведенных подходов имеет свои особенности. Вместе с тем, показано, что они отличаются только статистическими свойствами оценок параметров уравнения регрессии, тогда как вычислительные аспекты этих моделей совпадают [7, 22, 52].

В уравнении множественной регрессии обычно полагают, что величины s,(i = ljf) независимы и случайно распределены с нулевым средним и дисперсией т], а оценка параметров VC0HW производится с помощью метода наименьших квадратов (МНК). Ищется минимум суммы квадратов невязок

Это приводит к нормальной системе уравнений со следующим решением: w = S-1c„; w0 -mz -wTmx, где cM - вектор оценок ковариации между внешним критерием z и признаками х\,... ,хр ; mz - оценка среднего значения z ; mx и S - вектор средних значений и матрица ковариации признаковх\,... ,хр. Основным показателем качества уравнения множественной регрессии является коэффициент детерминации (квадрат коэффициента множественной корреляции) 2 R = No] - А2 Na2z а\ - оценка дисперсии прогнозируемой переменной

Статистический смысл коэффициента детерминации заключается в том, что он показывает, какая доля дисперсии зависимой переменной z объясняется построенной функцией регрессии. Например, при коэффициенте детерминации 0,49 регрессионная модель объясняет 49 % дисперсии внешнего критерия, остальные же 51 % считаются обусловленными факторами, не отраженными в регрессионное уравнение.

Эволюционные и генетические алгоритмы

Прежде всего, необходимо упомянуть, что не все ученые признают наличие эволюции. Многие религиозные течения (например, свидетели Иеговы) считают учение об эволюции живой природы ошибочным. Не вдаваясь в полемику относительно доказательств за и против, отметим, что даже, если авторы не правы в своих взглядах, объясняя эволюционные алгоритмы как аналоги процессов, происходящих в живой природе, никто не сможет сказать, что эти алгоритмы неверны. Они находят большое применение в современной науке и технике, и показывают подчас впечатляющие результаты.

Первые случаи применения генетических алгоритмов находят в образцах, возраст которых более 1 млрд. лет. Речь идет о живых организмах, исследование процессов размножения которых легло в основу данного оптимизационного алгоритм.

Предвестницей применения естественных алгоритмов в повседневной деятельности человека, явилась работа Чарльза Дарвина "Происхождение видов", написанная в 1859 году. В этой работе четко обозначены три столпа, на которых базируются современные генетические алгоритмы -наследственность, изменчивость и отбор. Однако, если отбор — процесс отбраковки нежизнестойких видов в целом не вызывал дискуссий, то механизм который отвечал за сохранение в потомках черт предков и обеспечивал способность к приспособлению под новые условия окружающей среды, стал понятен гораздо позднее - в 1944 году О. Эйвери, К. Маклеод и М. Маккарти опубликовали результаты своих исследований, доказывавших, что за наследственные процессы ответственна "кислота дезоксирибозного типа". Однако первые сведения о том, как работает ДНК, весь мир узнал еще позднее - 27 апреля 1953 года в номере журнала "Нэйчер" вышла статья Уотсона и Крика, впервые предложивших модель двухцепочечной спирали ДНК.

Раскрытие механизмов, отвечающих за создание и работу таких сложных систем, как живые организмы вдохновило многих исследователей на моделирование этих процессов при помощи компьютеров. В настоящее время существует широкий спектр различных алгоритмов, в той или иной степени моделирующих естественные процессы. В качестве основных направлений можно назвать генетические алгоритмы и классификационные системы Голланда, опубликованные в начале 60-х годов и получившие всеобщее признание после выхода в свет книги, ставшей классикой в этой области, - "Адаптация в естественных и искусственных системах" [77]. В 70-е годы Растригиным Л.А. в рамках теории случайного поиска, был предложен ряд алгоритмов, которые моделировали различные аспекты поведения живых организмов. Дальнейшее развитие эти идеи. получили в работах Букатовой И.Л. [16], посвященных эволюционному моделированию. Развивая идеи Цетлина М.Л. о целесообразном и оптимальном поведении стохастических автоматов, Неймарк Ю.И. предложил осуществлять поиск глобального экстремума на основе коллектива независимых автоматов, моделирующих процессы развития и элиминации особей. Большой вклад в развитие эволюционного программирования внесли Фогель и Уолш [64]. При всей разнице в подходах, каждая из этих "школ" взяв за основу ряд принципов, существующих в природе, упростила их до такой степени, чтобы их можно было реализовать на компьютере.

Из основных особенностей эволюционных алгоритмов, можно отметить их некоторую сложность в плане настройки основных параметров (вырождение, либо неустойчивость решения). Поэтому, экспериментируя с ними, и получив не очень хорошие результаты, пытаются опробовать его при других настройках. Данный недостаток следует из основной эвристики -можно "уничтожить" предка самого лучшего решения, если сделать селекцию слишком "жесткой" (не зря ведь биологам давно известно, что если осталось меньше десятка особей исчезающего вида, то этот вид сам по себе исчезнет из-за вырождения). Генетический алгоритм (ГА) Генетический алгоритм является самым известным на данный момент представителем эволюционных алгоритмов, и по своей сути является алгоритмом для попытки нахождения глобального экстремума многоэкстремальной функции. ГА представляет собой модель размножения живых организмов [69, 79].

Для начала представим себе целевую функцию от многих переменных, у которой необходимо найти глобальных максимум или минимум: f(xl,x2, хЗ, ...,xN) Для того чтобы заработал ГА, необходимо представить независимые переменные в виде хромосом - цепочек символов, с которыми и работает ГА.

Первым шагом является преобразование независимых переменных в цепочки бит, которые содержат всю необходимую информацию о каждой создаваемой особи.

Сравнительные оценки кредитоспособности с применением различных конкурирующих алгоритмов

Исследование системы AnswerTree (SPSS) Программа AnswerTree показала наилучшие результаты классификации результатов займов при использовании алгоритма "Exhaustive CHAID". Этот алгоритм является модификацией известного алгоритма CHAID, основанного на критерии хи-квадрат. Модификация заключается в добавлении в алгоритм дополнительного перебора для определения признака и его наилучшего (по критерию хи-квадрат) ветвления дерева решений.

В табл. 4.3 приведены результаты классификации 1000 анкет заемщиков (цена ошибок была принята одинаковой для двух классов).

Как следует из табл. 4.6, ошибка классификации получилась довольно высокой (0,24). При этом хорошо видно, что основная доля ошибки приходится на неправильную классификацию заемщиков из класса "плохие" - почти половина объектов этого класса неверно относится к классу "хорошие".

Вместе с тем, дополнительную интересную информацию о причине данного явления можно почерпнуть из графического отображения структуры построенного дерева решений. В целом дерево решений получилось не слишком кустистым (всего 15 веток, а, значит, 15 соответствующих ifhen правил). Оно отображено на рис. 4.8. Внимательное рассмотрение листьев дерева дает основание предположить, что "хорошие" заемщики образуют несколько довольно внушительных группировок с выраженными портретами (по анкетным данным). Так, один из узлов дерева "насыщен" хорошими объектами и дает соотношение "хороших" и "плохих" объектов 136 к 3 в абсолютных величинах или 97,8% к 2,2% в относительных значениях (рис. 3.9). Этому узлу соответствует ifhen правило: IF (баланс_в_банке IS NULL) OR (баланс_в_банке 3)) AND ((еще_займы IS NULL) OR (еще_займы 2)) AND (кредитнаяистория = 4 OR кредитная_история = 1 OR кредитнаяистория = 0) THEN Результатзайма "хороший" Однако подобных насыщенных и с хорошим соотношением узлов на построенном дереве наблюдается весьма немного.

Система WizWhy обладает рядом достоинств, делающих ее использование предпочтительным для решения задач, требующих многоаспектного отражения функциональных взаимоотношений в данных.

Как уже отмечалось, авторы WizWhy акцентируют внимание на следующих общих свойствах системы: Выявление ВСЕХ ifhen правил Вычисление вероятности ошибки для каждого правила Определение наилучшей сегментации числовых переменных Вычисление прогностической силы каждого признака Обобщение полученных правил и зависимостей Выявление необычных феноменов в данных Использование обнаруженных правил для прогнозирования Выражение прогноза в виде списка релевантных правил Вычисление ошибки прогноза Прогноз с учетом стоимости ошибок В качестве достоинств WizWhy дополнительно отмечают такие: На прогнозы системы не влияют субъективные причины Пользователям системы не требуется специальных знаний в прикладной Более точные и быстрые вычисления, чем у других методов Data Mining

Для большей убедительности авторы WizWhy противопоставляют свою систему неиросетевому подходу и алгоритмам построения деревьев решений и утверждают, что WizWhy, обладая более высокими характеристиками, вытесняет другие программные продукты с рынка Data Mining. Это не лишено оснований, хотя с методологической точки зрения система имеет недостатки, которые мы подробно разобрали в аналитическом обзоре главы 3.

Всего система WizWhy обнаружила 583 логических правила, образующие типовые портреты определенных групп заемщиков. Ниже приводятся такие портреты, представившиеся нам наиболее интересными в семантическом аспекте. Перед найденными портретами заемщиком представлены параметры поиска этих портретов, от которых существенным образом количество найденных логических закономерностей и их качество (точность и полнота)

Похожие диссертации на Поиск, идентификация и распознавание информационных портретов кредитоспособных клиентов банка при управлении банковской системой