Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Автоматическое рубрицирование и реферирование текстовой информации Абрамов Валерий Евгеньевич

Диссертация, - 480 руб., доставка 1-3 часа, с 10-19 (Московское время), кроме воскресенья

Автореферат - 240 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Абрамов Валерий Евгеньевич. Автоматическое рубрицирование и реферирование текстовой информации : в том числе на иностранных языках : автореферат дис. ... кандидата технических наук : 05.25.05 / Абрамов Валерий Евгеньевич; [Место защиты: Рос. научно-техн. центр инфор. по стандар., метрол.]. - Москва, 2008. - 27 с. РГБ ОД,

Введение к работе

Актуальность темы исследования В современных автоматизированных

информационных системах (АИС) широко используются технологии автоматической классификации и реферирования информации, которые способствуют повышению эффективности информационного поиска, что существенно улучшает характеристики этих систем Эти технологии нашли применение в бурно развивающейся в последнее десятилетне сети Интернет

Методы автоматической классификации и реферирования информации появились в начале 50-ых годов прошлого века Однако результаты исследований в силу ограниченности средств вычислительной техники и отсутствия сетевых технологий не получили широкого распространения, оставаясь в рамках лабораторий и отдельных предприятий. В 50-х годах прошлого века появился термин «информационный взрыв», характеризующий лавинообразный рост научных публикаций, которые должен воспринять и хранить ученый в процессе своей деятельности Развитие Интернет способствовало небывалому росту объемов информации на электронных носителях, что привело к трудностям ее поиска В наше время сохраняется угроза информационного взрыва, однако современные технологии автоматической классификации, реферирования и поиска информации позволяют существенно их снизить

Классификация позволяет проводить систематизацию информации, что способствует повышению эффективности ее поиска Мы будем рассматривать один из видов классификации - рубрицирование информации, те распределение документов по тематическим рубрикам, определенным заранее и организованным в виде некоего справочника- рубрикатора

Классическое реферирование - процесс сжатия текстового документа и получение реферата, в котором сохраняется смысл оригинала В последние годы получают распространение методы реферирования набора документов, результатом которых является обзорный реферат, содержащий основные положения из всех документов набора Человек усваивает значительно больший объем информации, изучая рефераты вместо оригиналов документов, что позволяет эффективнее работать с большими объемами информации Автоматизация процессов рубрицированкя и реферирования текстов является перспективным направлением, которое нужно развивать, чтобы справляться с огромными потоками документов Этим определяется актуальность темы диссертационной работы, посвященной разработке методов и алгоритмов автоматического рубрицирования и реферирования текстовой информации Тема диссертационного исследования соответствует формуле специальности «Информационные системы и процессы, правовые аспекты информатики», область исследования - «Лингенетическое обеспечение информационных систем и процессов»

Диссертация выполнена в рамках работ ФГУП «НИЦИ при МИД России» по теме «Создание подсистемы информационного взаимодействия абонентов автоматизированных систем»

Целью исследования являлась разработка лингвистических методов, повышающих эффективность решения задач рубрицирования и реферирования текстов на разных языках в системах автоматической обработки текстовой информации В соответствии с указанной целью в работе поставлены следующие основные научные задачи

• провести анализ основных современных подходов и методов, применяющихся при решении задач автоматического рубрицирования и реферирования текстовой информации,

• разработать инструментарий для проведения морфологического и концептуального анализа текстов, обеспечивающий решение задач автоматического рубрицирования и реферирования,

• разработать метод автоматического рубрицирования, опирающийся на словари слов и словосочетаний, составленные с учетом и без учета контекста окружающих слов;

• разработать систему автоматического рубрицирования текстов на русском, английском, немецком и французском языках на основе предложенного метода, • разработать методы реферирования, для отдельного текста документа на основе результатов автоматического рубрицирования и обзорного реферирования по набору текстов документов,

• разработать методику оценки результатов автоматического реферирования,

• провести экспериментальные исследования для выявления зависимости длины обзорного реферата от количества документов в наборе и суммарного объема текстов документов

Объектом исследования являлись общественно-политические тексты на ряде европейских языков (русском, английском, немецком и французском)

Предметом исследования являлась семантико-синтаксическая структура общественно-политических текстов на русском, английском, немецком и французском языках

Методы исследования. В работе использованы методы компьютерной лингвистики, теории вероятностей, теории графов, теории информационного поиска и современные технологии программирования

Научная новизна. К основным результатам работы, отличающимся научной новизной, относятся

1 Метод автоматического составления обзорного реферата по набору документов, основанный на анализе семантико-синтаксической структуры текстов, учитывающий анафорические связи, а также неинформативную лексику и вводные слова и предложения

2 Методика оценки качества обзорного реферата, позволяющая определить степень покрытия исходного набора документов составленным рефератом

3 Результаты экспериментальных исследований по выявлению зависимости длины обзорного реферата от количества документов и суммарного объема текстов документов в наборе, позволяющие дать количественную оценку ресурсов при использовании метода в реальных условиях, например, в Интернете Эксперименты показали, что предложенный метод реферирования позволяет составлять рефераты приемлемой длины (до 400 слов) как при небольших размерах кластеров, так и для кластеров, содержащих 100-150 документов 4 Метод автоматического рубрицирования текстов, отличающийся от существующих аналогов возможностью обработки массива текстов, содержащего документы на нескольких европейских языках

Практическая значимость работы заключается в том, что разработанные автором методы и алгоритмы морфологического анализа, автоматического составления словарей слов и словосочетаний, рубрицирования и реферирования текстов позволили создать действующую в промышленном режиме систему.

Реализация и внедрение результатов работы. Основные теоретические и практические результаты диссертационной работы использованы в ФГУП «НИЦИ при МИД России» в ходе выполнения работ по договору на тему «Создание подсистемы информационного взаимодействия абонентов автоматюированных систем», что подтверждается соответствующим актом внедрения

Результаты работы бьши использованы при выполнении научного гранта общества с ограниченной ответственностью «Яндекс» №66-05/07

Диссертант является автором программы для ЭВМ «Автоматическое рубрицирование текстовой информации (на русском, английском, немецком и французском языках)» совместно с Глобусом ЕЙ и Абрамовой Н Н, официально зарегистрированной в Реестре программ для ЭВМ Федеральной службы по интеллектуальной собственности, патентам и товарным знакам 31 октября 2006 года (Свидетельство № 2006613783)

Апробация работы. Основные положения и результаты диссертации обсуждались и получили одобрение на 7-ой Международной конференции «НТИ-2007 Информационное общество. Интеллектуальная обработка информации Информационные технологии» (г Москва, 24-26 октября 2007 г), девятой Всероссийской научной конференции RCDL 2007 «Электронные библиотеки перспективные методы и технологии, электронные коллекции» (г. Переславль-Залесский, Россия, 15-18 октября 2007г)

Публикации По теме диссертации автором опубликовано 5 работ - 3 статьи, тезисы доклада и реферат с описанием программы для ЭВМ (см список публикаций автора) В работах, опубликованных в соавторстве, лично диссертанту принадлежат описание принципов автоматического рубрицирования, опирающиеся на словари слов и словосочетаний, составленные с учетом и без учета контекста окружающих слов [5], описание разработанных им алгоритмов определения значимых предложений из каждого документа кластера, автоматического разрешения анафор и определения порядка расположения предложений в обзорном реферате, описание методики оценки качества реферирования [3]

Струюура и объем работы Диссертация состоит из введения, четырех глав, заключения, списка использованной литературы из 105 названий, восьми приложений, акта о внедрении Общий объем работы - 163 страницы, основной текст - 102 страницы В работе имеется 16 таблиц и 26 рисунков 

Похожие диссертации на Автоматическое рубрицирование и реферирование текстовой информации