Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Методы и алгоритмы автоматического реферирования текста на основе анализа функциональных отношений Тревгода Сергей Александрович

Методы и алгоритмы автоматического реферирования текста на основе анализа функциональных отношений
<
Методы и алгоритмы автоматического реферирования текста на основе анализа функциональных отношений Методы и алгоритмы автоматического реферирования текста на основе анализа функциональных отношений Методы и алгоритмы автоматического реферирования текста на основе анализа функциональных отношений Методы и алгоритмы автоматического реферирования текста на основе анализа функциональных отношений Методы и алгоритмы автоматического реферирования текста на основе анализа функциональных отношений
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Тревгода Сергей Александрович. Методы и алгоритмы автоматического реферирования текста на основе анализа функциональных отношений : диссертация ... кандидата технических наук : 05.13.01 / Тревгода Сергей Александрович; [Место защиты: С.-Петерб. гос. электротехн. ун-т (ЛЭТИ)].- Санкт-Петербург, 2009.- 257 с.: ил. РГБ ОД, 61 09-5/3635

Содержание к диссертации

Введение

ГЛАВА 1. Современнное состояние проблемы автоматического реферирования текста и пути ее решения 9

1.1 Особенности задачи автоматического реферирования текста 9

1.2. Обзор методов автоматического реферирования текста 14

1.3. Современные системы автоматического реферирования текста 20

1.4. Основные проблемы формализации структуры текста 25

1.5. Постановка задачи исследования диссертационной работы 29

1.6. Выводы по главе 1 32

ГЛАВА 2. Разработка метода формализованного описания структуры текста 33

2.1. Подход к описанию структуры текста на основе теории риторической структуры текста 33

2.2. Разработка критерия корректности структуры текста 39

2.3. Особенности представления структуры текста 42

2.4. Построение математического описания структуры текста 44

2.5. Выводы по главе 2 52

ГЛАВА 3. Разработка алгоритма автоматического реферирования текста 53

3.1. Обобщенный алгоритм автоматического реферирования текста 53

3.2. Разработка алгоритма определения функциональных отношений 55

3.3. Разработка алгоритма построения структуры текста 73

3.4. Разработка алгоритма получения аннотации 83

3.5. Выводы по главе 3 86

ГЛАВА 4. Построение системы и исследование эффективности алгоритма автоматического реферирования текста 87

4.1. Общая концепция организации системы автоматического реферирования текста 87

4.2. Программная реализация системы автоматического реферирования текста 90

4.3 Проверка функциональной работоспособности алгоритма автоматического реферирования текста 95

4.4. Оценка эффективности алгоритма автоматического реферирования текста 101

4.5. Выводы по главе 4

По заключение 111

Список литературы

Введение к работе

Актуальность проблемы. Электронная информация играет все большую роль во всех сферах жизни современного общества. В последние годы объем научно-технической текстовой информации в электронном виде возрос настолько, что возникает угроза обесценивания этой информации в связи с трудностями поиска необходимых сведений среди множества доступных текстов. Развитие информационных ресурсов Интернет многократно усугубило проблему информационной перегрузки. В этой ситуации особенно актуальными становятся методы автоматизации реферирования текстовой информации, то есть методы получения сжатого представления текстовых документов - рефератов (аннотаций).

Постановка проблемы автоматического реферирования текста и соответственно попытки ее решения с использованием различных подходов предпринимались многими исследователями. История применения вычислительной техники для реферирования насчитывает уже более 50 лет и связана с именами таких исследователей, как Г.П. Лун, В.Е. Берзон, И.П. Севбо, Э.Ф. Скороходько, Д.Г. Лахути, Р.Г. Пиотровский и др. За эти годы выработаны многочисленные подходы к решению данной проблемы, которые достаточно четко подразделяются на два направления:

автоматическое реферирование, основанное на экстрагировании из первичных документов с помощью определенных формальных признаков «наиболее информативных» фраз (фрагментов), совокупность которых образует некоторый экстракт;

автоматическое реферирование, основанное на выделении из текстов с помощью специальных информационных языков наиболее существенной информации и порождении новых текстов (рефератов), содержательно обобщающих первичные документы.

В России исследования в области автоматического реферирования в настоящее время, главным образом, ведутся в рамках первого направления с использованием статистических методов, смысл которых заключается в отборе предложений с наибольшим весом, который рассчитывается на основе частоты появления слова в тексте или месторасположения предложения, для включения их в реферат. В настоящее время известны только две системы, позволяющие получать аннотации на русском языке: TextAnalyst и встроенная функция в пакете Microsoft Office - Auto summarize. Обе эти системы относятся к классу систем, использующих различные варианты статистических методов. Согласно исследованиям в области компьютерной лингвистики текст, по своей природе, нелинеен, и его структура определяется особенностями внутренней организации единиц текста и закономерностями взаимосвязи этих единиц в рамках текста как цельного сообщения. Как показала практика, различные статистические методы недостаточно эффективны, так как они интерпретируют текст в виде набора линейно упорядоченных слов, словосочетаний и предложений, игнорируя при этом лингвистическую взаимосвязанность естественного языка, что приводит к потере значимой информации.

Исследования в области автоматической обработки текстов в Европе и США привлекают внимание крупнейших частных фирм и государственных организаций

самого высокого уровня. Существует большое количество систем, разработанных, в основном, специалистами университетских центров и используемых ими для своих нужд. В этих системах предлагаются нетрадиционные решения (отличные от статистических методов), основанные на построении лексических цепочек, концептуальных графов, а также эффективных формализмов описания структуры текста. Однако все эти методы ориентированы на учет особенностей конкретных языков, в основном, английского языка, и не могут быть непосредственно применены для автоматического реферирования текстов на русском языке. Кроме того, большинство разработок носят коммерческий характер, в связи с чем принцип их работы авторами не раскрывается.

Таким образом, актуальным является создание новых эффективных методов и алгоритмов, учитывающих нелинейную и иерархическую природу текста и позволяющих получать сжатое представление текстовых документов на русском языке.

Целью диссертации является разработка новых эффективных методов и алгоритмов, учитывающих нелинейную и иерархическую природу текста, для автоматизации реферирования научно-технических текстов на русском языке.

Задачи исследования. Для достижения поставленной цели необходимо решить следующие задачи:

Провести анализ современных подходов и методов, применяющихся при решении задачи автоматического реферирования текста.

Разработать метод формализованного описания структуры научно-технического текста на русском языке, позволяющий автоматизировать процесс реферирования.

Разработать алгоритм определения функциональных отношений между фраг
ментами текста.

Разработать алгоритм построения структуры на основе множества функциональных отношений между фрагментами текста.

Реализовать систему автоматического реферирования текста на основе разработанных алгоритмов и провести оценку эффективности разработанных методов и алгоритмов.

Методы исследования. Теоретической и методологической основой работы послужили: теория риторической структуры (ТРС), теория предикатов, компьютерная лингвистика, метод экспертных оценок и современные технологии программирования.

Научные положения, выносимые на защиту.

Метод формализованного описания структуры научно-технического текста на русском языке.

Алгоритм определения функциональных отношений между фрагментами текста на основе анализа ключевых фраз.

Алгоритм построения структуры текста на основе множества функциональных отношений между фрагментами текста

Научная новизна.

Метод формализованного описания структуры текста, основанный на исполь-

зовании ТРС, отличается учетом нелинейной и иерархической природы текста, что позволяет повысить качество автоматического реферирования научно-технического текста на русском языке. Метод формализованного описания включает в себя определение критерия корректности структур текста, определение характеристик структуры текста и ограничений на корректные структуры текста.

Алгоритм определения функциональных отношений между фрагментами текста отличается использованием разработанного узкоспециализированного словаря ключевых фраз русского языка и процедурами анализа отношений внутри них, что позволяет уменьшить избыточность информационного обеспечения систем автоматического реферирования за счет отказа от использования словарей и баз знаний общего назначения.

Алгоритм построения структуры текста на основе множества функциональных отношений между фрагментами текста отличается учетом неоднозначности отношений внутри ключевых фраз русского языка посредством генерации альтернативных множеств вариантов корректных структур текста с помощью разработанных правил вывода и выбора предпочтительной альтернативы по критерию совокупной метрики, что позволяет автоматизировать процесс получения релевантной структуры текста.

Практическая ценность работы заключается в следующем:

разработанное алгоритмическое и программное обеспечение позволяет строить системы автоматического реферирования научно-технического текста для русского языка, учитывающие нелинейную и иерархическую природу текста, что позволяет повысить качество получаемых аннотаций;

реализована система автоматического реферирования научно-технического текста для русского языка на основе разработанного алгоритма, не требующая избыточного информационного обеспечения за счет отказа от использования обширных словарей и баз знаний общего назначения.

Внедрение и реализация результатов. Достоверность научных положений, результатов и выводов подтверждается корректным использованием математического аппарата, результатами вычислительных экспериментов по разработанным методам, алгоритмам и программам, обсуждением полученных результатов на научных конференциях, а также результатами использования и внедрения.

Полученные научные результаты внедрены и используются в Информационно-логистическом центре при Северо-Западном заочном техническом университете, в ЗАО «Абсолют» г. Санкт-Петербург, о чём имеются соответствующие акты.

Апробация работы Основные положения диссертационной работы докладывались и обсуждались на следующих конференциях:

XII международная конференция «Современное образование: содержание, технологии, качество, Россия, Санкт-Петербург, июнь 2006г.

XI международная научно-практическая конференция «Системный анализ в проектировании и управлении» Россия, Санкт-Петербург, июнь 2007г.

XII международная конференция «Системный анализ в проектировании и управлении» Россия, Санкт-Петербург, июнь 2008г.

XI международная конференция по мягким вычислениям и измерениям (SCM'2008) Россия, Санкт-Петербург, июнь 2008г.

62-я международная научно-техническая конференция «Системный анализ, управление и обработка информации» Россия, Санкт-Петербург, апрель 2009г.

ХШ международная научно-практическая конференция «Системный анализ в проектировании и управлении» Россия, Санкт-Петербург, июнь 2009г.

Публикации. Основные теоретические и практические результаты диссертации опубликованы в 10 статьях и докладах, среди которых 2 публикации в изданиях, рекомендованных ВАК, одна статья в других изданиях и 7 докладов на международных научно-технических конференциях.

Структура и объем диссертации. Диссертация состоит из введения, четырех глав с выводами и заключения, изложена на 112 страницах машинописного текста, включает 26 рисунков, 26 таблиц, 4 приложения и содержит список литературы из 115 наименований, среди которых 96 отечественных и 19 иностранных изданий.

Современные системы автоматического реферирования текста

Практически с самого начала активного использования ЭВМ первого поколения (т.е. с середины 50-х годов прошлого века) на ЭВМ стали решаться задачи, традиционно относящиеся к интеллектуальным, в частности, начались исследования по использованию ЭВМ для целей автоматического реферирования научно-технических текстов. Первый машинный эксперимент такого рода был проведен в 1957 году в США [43]. В отличие от машинного перевода, где внимание исследователей, по крайней мере, на начальном этапе, было сосредоточено на отдельных предложениях, так как машинный перевод мыслился как перевод "фраза за фразой" [35, 53, 58], в области автоматизированного реферирования внимание было обращено на более крупные участки текста (чаще всего на абзацы), в которых концентрировались рассуждения на одну и ту же тему. Другими словами, внимание исследователей в этой области с самого начала было ориентировано на выявление закономерностей, организующих смысловое единство текста [108].

На первом этапе этих работ наиболее популярными были подходы, основанные на выявлении тех или иных статистических закономерностей распределения терминов в тексте или их взаимного расположения в нем [62, 63]. В дальнейшем исследования в области автоматизированного реферирования сместились в сторону использования внутренних структур текста, выявления той информационной основы, которая организует весь текст [61, 65].

В настоящий момент можно выделить два основных подхода к аннотированию [81, 82]: 1) извлечение из исходного текста всех «нужных» предложений (экстракция); 2) генерация реферата на основе использования методов искусственного интеллекта (абстракция). Основные сложности, связанные с первым подходом, заключаются в определении ключевых предложений текста, и затем связи этих предложений в единый, удобочитаемый текст.

Второй подход включает в себя три этапа: анализ текста и построение его формального описания, выбор из этого описания ключевых моментов, формирование реферата.

При использовании первого подхода (экстракции) результат обработки одного или нескольких документов представляется как набор предложений. Среди этого набора предложений система выбирает те, которые в наибольшей степени подходят под заданный критерий, то есть являются более релевантными. Результатом является подмножество предложений исходного текста.

Большинство методов автоматического реферирования, основанных на подходе экстракции, базируется на подходе, предложенном Г. Луном [108] в 50-х годах прошлого века, который заключается в выделении в тексте частотных слов, вычислении весов предложений с помощью суммирования частот (весов), входящих в их состав слов и включении в реферат предложений с наибольшими весами.

В рамках подхода экстракции обычно выделяют три основных направления: статистические методы, основанные на использовании статистических параметров для оценки информативности различных элементов текста (слов, предложений...) прежде всего по частоте встречаемости слов в тексте; в результате ранжирования лексики в том или ином документе они определяют слова с высоким рангом и их сочетаемость в различных фразах и по этим показателям оценивают информативность данных фраз; в другом случае на основе функционирования различного типа повторов всем предложениям присваивается функциональный вес, определяемый числом слов данного предложения, связанных со словами других предложений, и на основе выбранного критерия (порога) осуществляется экстрагирование фраз с наибольшим функциональным весом; позиционные методы, опирающиеся на предположение о том, что информативность предложения находится в зависимости от его позиции (места) в тексте документа; однако они «работают» относительно удовлетво рительно на строго структурированных документах типа стандартов, патентных описаний и т.п., а в остальных случаях применяются лишь в сочетании с другими методами, поскольку в чистом виде не обладают необходимой репрезентативностью результатов; индикаторные методы, основанные на функциональной идентификации фраз первичного документа с помощью индексации их специальными словами - маркерами, индикаторами и коннекторами, образующими лексический аппарат данного способа экстрагирования.

Из перечисленных методов до уровня «промышленной» реализации дошли лишь статистические.

Таким образом, для современных методов характерно сочетание традиционного подхода с некоторыми модификациями. Например, в качестве значимых элементов выбираются не слова, а словосочетания [5], вводятся дополнительные критерии выбора значимых слов: вес слова увеличивается в зависимости от его нахождения в заголовке, в первом и последнем предложениях или выделения шрифтами в тексте или в запросе пользователя [15].

В работе [14] предлагается эффективный метод реферирования на основе машинного обучения. Яцко В.А. предложил метод симметричного реферирования [96], в котором вес предложения определяется количеством связей между данным предложением и предложениями, находящимися слева и справа от него. Для этого в каждом предложении определяется список ключевых слов, входящих в предварительно составленный тематический словарь, а затем в предложениях, расположенных слева и справа, подсчитывается количество найденных в них ключевых слов (связей) из определенного ранее списка. Сумма лево- и правосторонних связей определяет вес предложения.

Известны подходы к реферированию на основе предварительно проведенной тематической кластеризации документа с дальнейшим выделением ключевых предложений из каждого кластера [102] и с предварительной разбивкой документа на части (с учетом его структуры), построением реферата для каждой части и отбором наиболее важных фрагментов [21].

Особенности представления структуры текста

В настоящее время многие ведущие производители программного обеспечения предлагают свои продукты и решения в области глубокого анализа текста, в том числе и автоматического реферирования. Как правило, это масштабируемые системы, в которых реализованы различные математические и лингвистические алгоритмы анализа текстовых данных. Они имеют развитые графические интерфейсы, богатые возможности визуализации и манипулирования с данными, предоставляют доступ к различным источникам данных, функционируют в архитектуре клиент-сервер [91]. Вот несколько примеров таких систем:

На рынке присутствует очень небольшое количество традиционных программ реферирования, то есть таких, которые выделяют наиболее весомые предложения из текста, используя статистические алгоритмы, либо слова-подсказки. Inxight Summarizer [113] - одна из наиболее известных коммерчески распространяемых систем реферирования. Inxight Summarizer была создана в Исследовательском центре Ксерокса в Пало-Альто. Причин успеха данной системы несколько:

Среди коммерческих систем также можно отметить Prosum — систему реферирования, разработанную British Telecommunications Laboratories в рамках экспериментальной коммерческой он-лайн платформы TranSend, которая представляет собой cgi-скрипт, встроенный в веб-страницу.

Так как интерес к традиционным системам автоматического реферирования неуклонно снижается, многие компании предлагают другие подходы. Одним из нетрадиционных решений является использование именных групп, выделенных с помощью частичных синтаксических анализаторов. Подобные алгоритмы используются в программных продуктах Extractor.

Продукт фирмы IBM Intelligent Miner for Text представляет собой набор отдельных утилит, запускаемых из командной строки, независимо друг от друга. Эта система является одним из лучших инструментов глубинного анализа текстов. Система содержит основные утилиты (Tools) для построения приложений управления знаниями, одной из которых является Annotation Tool - утилита "выявления смысла" текстов и составления рефератов - аннотаций к исходным текстам. TextAnalyst

Российская компания Мегапьютер Интеллидженс, известная своей системой PolyAnalyst класса Data Mining, разработала также систему TextAnalyst, которая решает задачи глубокого анализа текста, такие как: создание семантической сети большого текста, подготовка резюме текста, поиск по тексту, автоматическая классификация и кластеризация текстов. Построение семантической сети - это поиск ключевых понятий текста и установление взаимоотношений между ними. По такой сети можно не только понять, о чем говорится в тексте, но и осуществить контекстную навигацию. Подготовка резюме - это выделение в тексте предложений, в которых чаще других встречаются значимые для этого текста слова. В 80% случаев этого вполне достаточно для получения представления о тексте. Для поиска информации в системе предусмотрено использование запросов на естественном языке. По запросу строится уникальная семантическая сеть, которая при взаимодействии с сетью документа позволяет выделить нужные фрагменты текста. Кластеризация и классификация проводятся стандартными методами получения данных.

Oracle Text - программный комплекс, интегрированный в СУБД, позволяющий эффективно работать с запросами, относящимися к неструктурированным текстам. При этом обработка текста сочетается с предоставлением пользователю возможности работы с реляционными базами данных. Основной задачей, на решение которой нацелены средства Oracle Text, является задача поиска документов по их содержанию - словам или фразам, которые при необходимости комбинируются с использованием булевых операций. Результаты поиска ранжируются по релевантности, с учетом частоты появления слов запроса в найденных документах. Возможности обработки текстовой информации на русском языке в Oracle Text достаточно ограничены. Для решения этой проблемы компанией "Гарант-Парк-Интернет" было разработан модуль Russian Context Optimizer (RCO), предназначенный для совместного использования с Oracle Text. Помимо поддержки русскоязычной морфологии, RCO включает в себя средства нечеткого поиска, тематического анализа и реферирования документов.

Разработка алгоритма построения структуры текста

Процесс построения структуры текста неоднозначен, в том плане, что для одного текста обычно можно построить несколько таких структур. К примеру, для предложения:

[Только в полдень Солнце на тропических широтах достаточно теплое для таяния льда,] [но любая вода в жидком состоянии испаряется почти мгновенно] [из-за низкого атмосферного давления.] можно построить четыре дерева, показанные на рис. 3.7.

В данном случае для выбора оптимальной структуры текста предлагается использовать комбинацию индикаторов, описанных ниже.

Кластерный. Данный индикатор предполагает, что оптимальной является та структура текста, которая показывает как можно больше тематических границ текста, на основе которого она построена [20]. Для этого с каждым узлом дерева связывает кластерный вес: для листьев он равен нулю, для вышестоящих узлов он вычисляется на основе схожести непосредственных потомков. Таким образом, кластерный индикатор для дискурсного дерева можно посчитать, сложив кластерные веса всех его узлов. 4-6

Ключевые фразы. Данный индикатор предполагает, что дискурсное дерево А «лучше» дерева В, если оно использует больше функциональных отношений, чем В.

Кластерно-функциональный. Данный индикатор основан на кластерном с учетом структуры текста и вычисляет итоговую схожесть фрагментов текста. Учитывая критерий корректной структуры текста, данный индикатор вычисляет схожесть между фрагментами текста на основе схожести их наи 81 более важных потомков. Он предполагает, что дерево А «лучше» дерева В, если сумма кластерно-функциональных весов его узлов выше, чем у В.

Заголовочный. Данный индикатор вычисляется для структуры текста на основе схожести заглавия и ЭТЭ, которые являются наиболее важными. Он предполагает, что дерево А «лучше» дерева В, если его заголовочный вес больше, чем вес В.

Позиционный. Данный индикатор основывается на позиции важных предложений в тексте и вычисляется путем назначения положительного веса каждому текстовому фрагменту, находящемуся в первых двух или последних двух предложениях параграфа. Для структуры текста данный индикатор вычисляется как среднее между позиционными весами наиболее важных узлов этой структуры. Он предполагает, что дерево А «лучше» дерева В, если его позиционный вес больше, чем вес В.

Форменный. При анализе различных текстов, выяснилось, что наиболее оптимальными являются деревья, которые скошены вправо. Объяснением этого может являться тот факт, что обработка текста — это процесс просмотра текста слева-направо. Обычно, люди пишут тексты так, что наиболее важная идея идет в начале текста, а затем она раскрывается, то есть чем больше создатели текста добавляют нового в текст, тем больше они уточняют детали главной идеи [114].

Для того, чтобы сделать процесс построения структуры текста однозначным, введем рекуррентную формулу для подсчета веса структуры текста с целью выбора наиболее оптимального. Данный вес вычисляется рекурсивно как сумма весов для левой и правой ветвей дерева и разницей высот правой и левой ветвей:

Конкретные значения весов индикаторов находятся в интервале от 0 до 1 и вычисляются на этапе проведения экспериментальных исследований алгоритма автоматического реферирования.

В соответствии с предложенным критерием для текста 3.1 получаем дерево, представленное на рис.3.9. Для изображения дерева были приняты следующие обозначения: сплошные линии показывают ядро, пунктирные -сателлит: связи между родителем-ядром и потомком-ядром показаны сплошной линией, между родителем и потомком-сателлитом - пунктирной. Листья пронумерованы, начиная с единицы. Номера, связанные с каждым узлом показывают множество самых важных потомков данного узла.

Как было установлено, ЭТЭ из множества самых важных потомков узла дерева являются наиболее весомыми частями этого узла. Данная информация может быть использована для составления аннотации к исходному тексту. Имея данное множество для каждого узла, мы можем получить отсортированный по важности список ЭТЭ. В основе определения важности того или иного ЭТЭ лежит предположение, что ЭТЭ, находящиеся во множе 84 стве ключевых потомков верхних узлов, важнее ЭТЭ, находящихся во множестве ключевых потомков нижних узлов.

Наиболее простой способ определения важности ЭТЭ - это подсчет веса для каждого ЭТЭ на основе анализа высоты дерева относительно того узла, где впервые встретился данный ЭТЭ во множестве ключевых потомков. Чем больше этот вес, тем важнее этот ЭТЭ.

Проверка функциональной работоспособности алгоритма автоматического реферирования текста

Вследствие удаленности от Солнца, климат планеты Марс гораздо суровее земного. Температура на поверхности обычно в среднем достигает -60 градусов Цельсия и может опускаться до -123 градусов Цельсия около полюсов. Только в полдень солнце на тропических широтах достаточно теплое для таяния льда, но любая вода в жидком состоянии испаряется почти мгновенно из-за низкого атмосферного давления.

Хотя в атмосфере содержится небольшое количество воды, и над пустынями Марса образуются облака мелкой пыли, в большинстве случаев сильные ветра смешивают пылевые облака с белыми водяными. Каждую зиму, например, снежная буря углекислого газа поднимается у одного полюса, и в то время как накапливается несколько метров этого снега из сухого льда уже замороженный углекислый газ испаряется на противоположном полюсе. Даже на летнем полюсе, где солнце стоит почти весь день, температура никогда не поднимается до температуры таяния льда.

Температура на поверхности обычно в среднем достигает -60 градусов Цельсия и может опускаться до -123 градусов Цельсия около полюсов. Только в полдень солнце на тропических широтах достаточно теплое для таяния льда, но любая вода в жидком состоянии испаряется почти мгновенно из-за низкого атмосферного давления.

Только в полдень солнце на тропических широтах достаточно теплое для таяния льда, но любая вода в жидком состоянии испаряется почти мгновенно из-за низкого атмосферного давления. Даже на летнем полюсе, где солнце стоит почти весь день, температура никогда не поднимается до температуры таяния льда.

Разработанная система Вследствие удаленности от Солнца, климат планеты Марс гораздо суровее земного. Хотя в атмосфере содержится небольшое количество воды, и над пустынями Марса образуются облака мелкой пыли, в большинстве случаев сильные ветра смешивают пылевые облака с белыми водяными. Текст 2 (207 слов, 14 предложений)

Смарт-карты становятся все более популярными в последнее время, так как цена на устройства хранения информации стремительно падает. Они имеют два главных преимущества над дискетами. Во-первых, они могут хранить в 100 раз больше информации - и сохранять ее намного надежнее. Во-вторых, они могут выполнять сложные задачи по командам с терминала. К примеру, смарт-карта может проверить ответы на заранее известные вопросы с целью проверить информацию, сохраненную на карте. Карта, использующая данный алгоритм, может оповестить терминал о том, что владелец имеет достаточно средств для оплаты услуги без указания номера счета. В зависимости от важности информации, для безопасности используется персональный идентификационный номер, например, как в банкоматах.

Смарт-карты не являются новым открытием. Они разрабатывались с начала 70-х годов и нашли много применений в Европе, с тех пор было выпущено более четверти миллиарда таких карт. Подавляющее большинство чипов ушло по предоплате, но даже при этих условиях был получен опыт, который впоследствии уменьшил производственные издержки, улучшил надежность и доказал значимость этих смарт-карт. Международные и национальные стандарты для смарт-карт также находятся в стадии разработки для обеспечения уверенности в том, что карты, карт-ридеры и программное обеспечение могут работать вместе надежно и безопасно. Стандарты, установленные Международной Организацией по Стандартам, к примеру, указывают на местоположение контактов на лицевой стороне смарт-карты, чтобы любая карта могла быть соединена с любым карт-ридером.

К примеру, смарт-карта может проверить ответы на заранее известные вопросы с целью проверить информацию, сохраненную на карте. Международные и национальные стандарты для смарт-карт также находятся в стадии разработки для обеспечения уверенности в том, что карты, карт-ридеры и программное обеспечение могут работать вместе надежно и безопасно.

Международные и национальные стандарты для смарт-карт также находятся в стадии разработки для обеспечения уверенности в том, что карты, карт-ридеры и программное обеспечение могут работать вместе надежно и безопасно. Стандарты, установленные Международной Организацией по Стандартам, к примеру, указывают на местоположение контактов на лицевой стороне смарт-карты, чтобы любая карта могла быть соединена с любым карт-ридером.

Разработанная система Смарт-карты становятся все более популярными в последнее время, так как цена на устройства хранения информации стремительно падает. Они имеют два главных преимущества над дискетами. Смарт-карты не являются новым открытием. Текст 3 (462 слова, 24 предложения)

Электронная информация играет все большую роль во всех сферах жизни современного общества. В последние годы объем научно-технической текстовой информации в электронном виде возрос настолько, что возникает угроза обесценивания этой информации в связи с трудностями поиска необходимых сведений среди множества доступных текстов. Развитие информационных ресурсов Интернет многократно усугубило проблему информационной перегрузки. В этой ситуации особенно актуальными становятся методы автоматизации реферирования текстовой информации, то есть методы получения сжатого представления текстовых документов — рефератов (аннотаций).

Похожие диссертации на Методы и алгоритмы автоматического реферирования текста на основе анализа функциональных отношений