Исследование и разработка автоматической системы индексации сообщений Епископосов, Ромен Арустамович

Данный автореферат диссертации должен поступить в библиотеки в ближайшее время
Уведомить о поступлении

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - 240 руб., доставка 1-3 часа, с 10-19 (Московское время), кроме воскресенья

Епископосов, Ромен Арустамович. Исследование и разработка автоматической системы индексации сообщений : Дис. ... канд. технические науки : 05.13.01.- Москва 2007

Содержание к диссертации

Введение

1. Распознавание и идентификация адресов сообщений и автоматическая обработка текстов 9

1.1. Проблема автоматической индексации сообщений 9

1.2. Обзор методов автоматической обработки текстов и выработка подхода к решению задачи 20

1.3. Постановка задачи

Выводы 32

2. Исследования адресной части сообщений и разработка метода автоматической индексации 34

2.1. Анализ информационной структуры адресной части сообщений 34

2.2. Анализ отклонений в основании адреса 44

2.3. Методика классифицирования и классификация лексем адресной части сообщений 52

2.4. Формальное представление основания адреса 71

2.5. Метод автоматической индексации 77

Выводы 83

3. Синтез функциональной структуры и алгоритмы автоматической системы индексации сообщений 85

3.1. Способ формального представления программного обеспечения 85

3.2. Функциональная структура автоматической системы индексации сообщений и представление алгоритмов 93

3.3. Метод нейтрализации орфографических ошибок..., 100

3.4. Расчет вероятности и достоверности автоматической индексации , 107

Выводы НО

4. Организация базы данных III

4.1. Концептуальная модель III

4.2. Внутренняя модель и организация работы с базой данных 120

4.3. Оптимизация объема базы данных и выбор версии автоматической системы индексации сообщений 126

Выводы 130

5. Показатели эффективности автоматической системы индексации сообщений 132

5.1. Выбор и обоснование показателей эффективности 132

5.2. Вероятностная оценка среднего числа обращений к накопителю на магнитном диске 138

5.3. Методика расчета экономической эффективности 144

5.4. Результаты испытаний автоматической системы индексации сообщений 148

Выводы 154

Заключение 155

Литература 158

Приложения 167

Приложение i. Гримеры адресов 168

Обзор методов автоматической обработки текстов и выработка подхода к решению задачи
Методика классифицирования и классификация лексем адресной части сообщений
Функциональная структура автоматической системы индексации сообщений и представление алгоритмов
Оптимизация объема базы данных и выбор версии автоматической системы индексации сообщений

Введение к работе

Одной из важнейших проблем создания автоматизированных сетей обработки информации является проблема автоматического распознавания и идентификации неформализованных адресов сообщений. Эта проблема особенно актуальна для телеграфной сети страны в связи с созданием автоматизированной сети коммутации сообщений с центрами коммутации сообщений (ЩС), внедренными в ряде крупных узлов. Телеграфная сеть является составной частью Единой автоматизированной сети связи страны, всемерное развитие которой определено решениями ХХІУ-ХХУІ съездов КПСС, образуя одну из наиболее развитых вторичных сетей. Внедрение на телеграфной сети ЩС - чрезвычайно эффективное и перспективное направление автоматизации связи, и в одиннадцатой пятилетке оно является главным в развитии и совершенствовании этого вида связи. Годовой экономический эффект от внедрения центров коммутации сообщений составит около 45 миллионов рублей [і, 2].

По результатам обследований [з] , периодически проводимых на телеграфной сети страны, более 30% сообщений из общего обмена около полумиллиарда телеграфных сообщений в году, не содержат индекса абонента-получателя и проходят ручную обработку в узлах сети, что увеличивает сроки доставки телеграмм адресатам и приводит к большим затратам ручного труда. На телеграфной сети около 4000 операторов-телеграфистов занято индексацией, которая заключается в проставлении номера оконечного пункта (ОП),

необходимого для автоматического управления коммутацией сообщений в направлении ОП и является результатом поиска адреса в соответствующих справочниках.

Автоматизация процессов индексации сообщений позволит существенно повысить эффективность системы управления центров коммутации сообщений (ЩС-Т и ЦКС-Т2), разработанных по постановлению Директивных органов от 30 апреля 1981 года, приказу Министра связи СССР от 25 мая 1981 года и в соответствии с техническим заданием на ОКР "Разработка центра коммутации сообщений производительностью 8*10 сообщений в секунду для телеграфной сети общего пользования, утвержденным заместителем Министра связи СССР от 14 декабря 1982 года.

Предложенные до настоящего времени методы разработки автоматической системы индексации сообщений (АСИС) позволяют автоматически проставлять индекс только для 60-70% неиндексированных сообщений с учетом реальных ресурсов вычислительного комплекса ЦКС. Эти методы ввиду необеспечения высокой эффективности автоматической индексации практического применения не нашли.

Для построения эффективности АСИС, удовлетворяющей требованию автоматической индексации не менее 90% телеграфных сообщений, необходима разработка новых методов решения задач, возникающих при автоматической обработке адресов сообщений и должны быть решены соответствующие лингвистические, математические и программные проблемы.

Цель работы - исследование и разработка методов автоматической обработки неформализованных текстов адресов, позволяющих создать эффективную АСИС, функционирующую в режиме реального времени на вычислительной базе ЦКС.

В связи с этим были поставлены следующие задачи;

- исследование адресов сообщений и разработка классификации

и методики классифицирования, позволяющих идентифицировать слова адреса набором признаков, достаточных для автоматического распознавания и учитывающих развитие системы адресов страны;

разработка модели языка адресов и метода автоматического распознавания и идентификации неформализованных адресов;

исследование отклонений в словах адресов и разработка метода нейтрализации орфографических ошибок в словах информационного запроса к базе данных;

разработка алгоритмов и способа формального представления программного обеспечения АСИС;

внедрение АСИС, разработанной на основе результатов проведенных исследований.

Методы исследования. В диссертационной работе использовались методы теории конечных автоматов и математической лингвистики, теории классификации, исследования операций и математической статистики, структурного проектирования и создания баз данных.

Научная новизна и основные положения выносимые на защиту.

Разработана классификация и методика классифицирования, применимая для набора адресов любого региона страны и обеспечивающая идентификацию слов адреса. Исходя из полученной классификации и на основе результатов исследования информационной структуры адресов, разработана модель языка адресов и предложен метод автоматического распознавания и идентификации неформализованных адресов.

Предложен метод, позволяющий в 1,7 раза, по сравнению с известным, сократить время на автоматическую нейтрализацию орфографических ошибок в словах информационного запроса к базе данных.

Исходя из известного подхода к проектированию программной системы как иерархической структуры с независимыми компонентами и минимальными связями между ними, предложен способ формального

представления программного обеспечения систем последовательной обработки данных.

Практическая ценность. Разработанная АСЖ обеспечивает автоматическую индексацию не менее 90% неиндексированных телеграфных сообщений в режиме реального времени на вычислительных ресурсах ЦКС, что позволит значительно сократить как количество операторов, занятых индексацией на телеграфной сети страны, так и аппаратуру, необходиму для ручной обработки сообщений.

Введенная классификация может использоваться для разработки информационно-справочных систем, в которых справочная информация выдается по запросу, интерпретируемому как адресная часть некоторого сообщения.

Предложенный метод сокращения времени на автоматическую нейтрализацию орфографических ошибок может найти применение при поиске информации в банках данных.

Предложенный способ формального представления программного обеспечения может найти применение при разработке систем последовательной обработки данных, с целью сокращения времени необходимого для их реализации.

Реализация работы. Создан опытный образец АСИС для индексации телеграфных сообщений, адресованных в г.Ереван. На основе результатов заводских испытаний опытного образца система рекомендована Госкомиссией к использованию в ЦКС для телеграфной сети страны.

Годовой экономический эффект от внедрения АСИС в составе
только одного ЦКС с пропускной способностью 8-Ю сообщений в
секунду составит 300 тысяч рублей. *

Апробация работы. Основные положения диссертационной работы докладывались и обсуждались на: Всесоюзном научно-техническом симпозиуме "Применение ЭВМ в коммутационной технике",

'Пенза, 1980 г.; Всесоюзной научно-технической конференции "Информационные методы повышения эффективности и качества системы связи и радиоэлектроники", Ереван, 1981 г.; седьмой Всесоюзной школе-семинаре по вычислительным сетям, Цахкадзор, 1982 г.; Всесоювом семинаре на ВДНХ СССР "Автоматизация телеграфной связи на базе внедрения электронных центров коммутации сообщений и электронных устройств", Москва, 1983 г.; Всесоюзном научно-техническом совещании "Применение электронных управляющих машин в коммутационной технике", Минск, 1984 г.

Публикации. По теме диссертационной работы опубликовано двенадцать печатных работ.

Обзор методов автоматической обработки текстов и выработка подхода к решению задачи

Вопросы автоматической обработки текстов рассматриваются в рамках исследований по машинному переводу с одного естественного языка на другой, искусственному интеллекту, теории языков программирования и компиляторов, теории создания ИПС. Общим в этих системах является наличие языкового процессора, то есть преобразователя, осуществляющего анализ текста с целью получения некоторого представления этого текста, отражающего его смысл и строение.

Основной базой для разработки методов автоматической обработки текстов являются теоретические исследования в области -формальных грамматик. Бурное развитие теории формальных языков берет начало с работ [26-28] и работы [29] , в которой дана конкретная система записи для описания синтаксиса Алгола.

В широком смысле формальной грамматикой или просто грамматиками называются любые "автоматические устройства" (то есть исчисления или алгоритмы), позволяющие задавать языки [Зі] .

Языком в алфавите V называется множество цепочек, то есть производная конечная последовательность элементов V . Задание языка может осуществляться по разному: оно означает либо возможность для каждой цепочки данного языка подобрать такой режим работы устройства, чтобы к концу работы получить ("породить") эту цепочку, либо возможность "перечислить" язык, то есть организовать работу устройства так, чтобы оно выдавало цепочки языка одну за другой и могло бы выдать любую из них, работая достаточно долго, либо, наконец, возможность для произвольной цепочки (в соответствующем алфавите) получить от устройства ответ на вопрос, принадлежит ли эта цепочка языку. Любой язык, допускающий задание первым способом, допускает задание вторым или третьим. Первый подход лучше всего моделирует ситуацию, имеющую место при пользовании языком (естественным или искусственным) - основная задача там состоит в порождении предложения, обладающего заданным смыслом [ЗО] .

Грамматика (порождающая) - это упорядоченная четверка I = (T.N.Z.P), где:Ти N - непересекающиеся непустые конечные множества; - некоторый элемент N ; Г - конечный набор правил подстановки. Множества I и \ называются соответственно терминальными и нетерминальными, или основными и вспомогательными алфавитами грамматики I , а их элементы соответственно терминальными и нетерминальными символами I . /л называется начальным символом Г , a V=TUN полным словарем грамматики Г .

Язык, порождаемый грамматикой, - это множество терминаль- г ных цепочек, которые можно вывести из А . Различие в типах грамматик заключается в форме правил подстановки, допустимых в Г . Грамматика I является грамматикой с фразовой структурой, если правила имеют вид: U:: = V, гдеіі EV и Мє\1 . Знак ::

- символ используемого метаязыка [29] , которым сокращается фраза "может состоять из". Через v обозначается множество всех цепочек в алфавите I/ , а через v - множество всех непустых цепочек в v . Грамматики с фразовой структурой прак тически не используются. При введении ограничений на правила подстановки получается класс непосредственно составляющих или HL - грамматик,правила подстановки которых имеют вид: xUy::=XUl, где UeN,ue.V и X,U:v/. Следующее ограничение дает класс контекстносвободных или КС - грамматик с правилами: U: :=U ,гдеи Є lv и и Є V . Здесь символ U можно заменить цепочкой U , не обращая внимания на контекст в котором он встретился, в то время как для НС - языков U можно заменить на U только в контексте X... U. Дальнейшее ограничение правил дает регулярную или автоматную грамматику ( А - грамматика) с правилами: U: :=1 или п!,гдеїЄ Г a U,neN . Языки, порождаемые НС-,КС- и А - грамматиками на зываются соответственно НС-,КС-и А - языками. Проблема автоматической обработки текста наиболее трудна для машинного перевода, так как слова естественного языка неоднозначны и могут одновременно выступать в качестве различных частей речи, синтаксис запутан и в целом естественный язык имеет много неточностей и исключений из правил. Осуществление качественного перевода требует использования не только информации морфологического и синтаксического видов, но и семантических данных вплоть до энциклопедических сведений. Вопросы методологии -23 _ машинного перевода разбираются в работах [31-33] . Количество алгоритмов анализа, дающих синтаксическую структуру в виде дерева зависимостей или дерева составляющих, довольно велико. Алгоритмы создавались как для естественного языка, так и для языков программирования. Большинство из них рассчитано на работу с КС и НС - грамматиками [31, 34-38] . Почти все указанные работы используют однотипные алгоритмы синтаксического анализа, зачастую отличающиеся лишь техникой исполнения. Это объясняется тем, что традиционной теоретической основой проводимых исследований является схема многоэтапного преобразователя, осуществляющего поэтапный перевод исходной фразы в глубинное (в идеале семантическое) представление, а от него - к фразе на другом языке.

Методика классифицирования и классификация лексем адресной части сообщений

Классифицирование изучаемых объектов вполне традиционный метод познания, при котором результатом считается представление знаний в виде некоторой классификационной схемы. В ней изучаемые объекты группируются в классы (классификационные таксоны) с помощью целесообразно выбранных признаков - оснований классификаций [78 J . Согласно [79j , таксон - это ячейка в структуре любой классификации; имя таксона обозначает класс объектов, воплощающих некоторое понятие. В работах последнего времени [80-84J классификация рассматривается как двойственность таксономии и мерономии. Таксономия соответствует экстенсиональному аспекту классификации, то есть связана с объемом классифицируемых понятий, а мерономия соответствует интенсиональному аспекту классификации, то есть связана с содержанием тех же понятий.

В практической работе теория классификации строится итерационно. Никогда не бывает заранее готовой таксономии или мерономии. Сначала строится черновой вариант таксономии, потом по ней строится черновой вариант мерономии, затем по ней строится таксономия. Если таксономия не устраивает, то вносятся коррективы в мерономию и т.д. [78] .

Разбиение лексем ОА на классы позволяет рассматривать соответствующие минимальные таксоны, то есть таксоны не включающие никаких других таксонов кроме лексем, как элементарные структурные единицы структуры ОА. Каждой лексеме, входящей в некоторый таксон, присваивается идентифицирующий ее признак. Например, \4t -таксон, ЧС - соответствующий нетерминал, ЧС - признак, который присваивается всем экземплярами40(см. 2.1). В дальнейшем, для удобства записи, часто вместо имени таксона употребляется признак присваемый лексемам, входящим в таксон, например, на рисунках.

Способы группирования лексем по таксонам основаны как на исследовании предмета классификации, так и на следующих основных положениях: создаваемая классификация должна обеспечивать классифицирование любой мыслимой лексемы из ОА представленного соответственно установившейся традиции составления адресов; классификационная схема должна быть проста и удобна для массового использования при классификации лексем различных адресных систем; модель языка ОА, созданная на основе классификации, должна быть адекватна реальным ОА и иметь эффективную реализацию.

Таксоны первого уровня классификации приведены на рис. 2.1. Минимальные таксоны на рис. 2.1, а также на последующих рисунках данной главы, заключены в двойную рамку. Таксон ікц=і J , то есть состоит из одного элемента, который есть специальное слово. ЧС и «ид определены соответственно в 2.1 и 2.2.

Лексемам, которые не являются правильными или цифровыми словами, присвоен признак нз - неизвестная, то есть "Т , 1_»0 5 "Тцс, где L0 - множество всех лексем.

Признак Пш - лишняя, имеют все те правильные лексемы из ОА, которые не содержатся ни в одном возможном ША, например: тчк, зпт, номер, имени и т.п. Правильные лексемы, не входящие в цС» Тид или Тпщ имеют признак - местностная, (УЧ - учрежденческая) , если они являются эталонами только из местностных (учрежденческих) справочников, или лексемами, образы которых содержатся только в местностных (учрежденческих) справочниках.

Правильные лексемы, не входящие в 1чс , 1Ид или 1лш имеют признак СИ - смешанная, если они являются эталонами как из местностных, так и из учрежденческих справочников, или лексемами, образы которых содержатся одновременно в местностных и учрежденческих справочниках.

Признак ДЖ- должностная имеют правильные лексемы, являющи -54 вся названиями должности адресата, или подразделения учреждения, в котором работает адресат.

Признак УД - учрежденческая-должностная, имеют лексемы, принадлежащие пересечению таксонов ІуЧ Тдж.

Одной звездочкой на рис. 2.1, а также на последующих рисунках данной главы, отмечены таксоны, лексемы которых редко встречаются в ОА. Признак ПТ- пересечение таксонов, введен для фиксации того факта, что можно составить искусственные ОА, в которых имеется лексема, принадлежащая пересечению таксонов Хж, Тмс или 1см , а две звездочки указывают, что подобные лексемы практически в реальных ОА не встречаются. В дальнейшем таксоны, отмеченные двумя звездочками, рассматривать не будем.

Таксоны второго уровня, включенные в \ц(1 , приведены на рис. 2.2.

Признак ЧЦ - число цифровое, имеют все цифровые слова длиной не более 8. Ограничение на длину введено из-за того, что практически нет ОА с экземплярами" ЧЦ болыпей длины.

Функциональная структура автоматической системы индексации сообщений и представление алгоритмов

Данные, управляющие признаки и состояния блоков, которыми оперирует система, находятся в поле PDSF. После PD5F имеет следующую структуру і RT.RP, НИ.М .S.A.E.V.LK, SLK,Tfl,5Tfl.W),rfle RT - данные, формируемые ЩС и необходимые для идентификации в ЩС телеграмм, проходящих автоматическую индексацию; RP - признак, обеспечивающий информационный интерфейс ЩС-АСИС, указывает найден индекс или нет; П - множество управляющих входных и выходных признаков, П=Л=У (см. 3.1 и таблицы 3.1 и 3.2); z - множество состояний автоматов и для каждого отдельного автомата его состояние фиксируется в одном байте (см. 3.1); А - множество внутриблочных информационных признаков, которые используются для сохранения параметров, необходимых при повторной активации одного и того же блока; С -множество межблочных информационных признаков, которые используются для сохранения параметров блока, необходимых для функционирования другого блока; V - имеет структуру (V V ), где Уі и \/) есть образы лексем, используемые при формировании ЧЦ из ЧПР и ЧК ;ЬК - линейный список, элементы которого есть образы лексем, имеет структуру: (г{ ,Рг , .. . , Р1а) . SL.K - вектор состояния обработки LK ; Гп - первые 120 знаков телеграммы, следующие непосредственно за предзаголовками, а после окончания функционирования блока В I.I (см. ниже) - знаки АЧС; 5Тп - вектор состояния обработки Tfl ; W - поле, в которое заносятся параметры, необходимые для поиска информации в БД при обращении к БД, или информация из БД при получении ответа от БД (см. 4.2).

Элементы SLK есть числа, указывающие номера позиций nL в LK . Вектор SLK имеет следующую структуру: (п4, Пг, П3 , П4, П5, П6 , П? )» где П - позиция последнего элемента последней П или последнего элемента предыдущих ГЛ , ГГЛ в списке

- позиции последнего элемента P LK , относящегося к местности; П3 позиция последнего не пустого элемента Р[иК; П - позиция выделенного корня, ядра, группы,или основной лексемы; П$

- позиция" Л1 Б шгоКлІ /lp) ; П& - позиция первого члена конкатенации; П? - позиция второго члена конкатенации.

Рассмотрим как формируется список . Образ очередной лексемы заносится в позицию П3 . Если очередной лексемой является условная лексема, то ее образ заносится в позицию П& , а в позицию П? заносится образ фиктивной лексемы с признаком ПШ. В LK выделяются подмножества: Ьа={г[ J , где П2 1 П5 ; Lj— {Рі] где КП4 ;L = {PL]. гдеП 1 П3.

Вектор STfl имеет следующую структуру: ( S , ІЇІ1,ГПг,т3,П1 , ГР5 , т6 ), гдеБ- L-oe с начала АЧС слово; ГТ - номер позиции первого знака S в In ; nig. - номер позиции последнего знака АЧС; ІЇ15 - номер L очередного слова S[ в АЧС; ГП4 - длина S L , то есть ISjJ ; ІЇ15 - номер j позиции текущего знака в I п ; ПГ16 -номер позиции последнего знака S[ в In .

Иерархическая структура проекта АСИС и соответствующая ему функциональная структура программной системы, разработанная по способу, предложенному в 3.1, приведена на рис. 3.2. Блоки типа \ на рис. 3.2 имеют двойную боковую рамку.

ВО - автоматическая индексация сообщений. BI - формирование PDSF ; выделение начала АЧС и формирование ТА; перевод АЧС из телеграфного кода в машинный; определение типа АЧС - ТСГ или ТСС; определение пункта (города) назначения и Б-ГПП(см. главу 4); подготовка данных к выдаче в ЦКС. Если ни одна из первых семи лексем АЧС не является названием города зоны ЦКС, для которой производится индексация, то делается вывод, что данная телеграмма сельская (см. таблицу 3.3). В2 - лексический анализатор, состоит из блока анализа слов АЧС и блока формирования лексем. ВЗ - управление БД. В4 - канонизация АЧС - содержит процедуры формирования списка и формирования цифровых чисел. В5 - поиск индекса. Вб - автоматическая нейтрализация орфографических ошибок (см. 3.3). B5.I - анализ MCA. В5.2 - анализ УЧА и СМА, В 5.I.I - определение и анализ корня, ядра и группы. B5.I.I.3 -анализ ядра и определение группы.

Блоки типа I , реализующие АИМСА и, необходимые для организации их взаимодействия, управляющие блоки типа л приведены в Приложении 2. АИУЧА реализуется аналогично. Приведенный в Приложении 2 алгоритм представляет версию АИМСА АСИС для г.Еревана. С целью простоты реализации алгоритм разработан на основе формального описания наиболее распространенных типов структур ОА, которым удовлетворяют около 98% реальных АЧС.

Оптимизация объема базы данных и выбор версии автоматической системы индексации сообщений

Достижение высоких значений вероятности автоматической индексации ос необходимо осуществлять на вычислительных ресурсах, которые может предоставить ЦКС для АСИС без заметного ухудшения технических показателей, отражающих выполнение собственно функций ЩС (см. 5.1). Можно принять, что АСИС должна быть реализована на базе гипотетической ЭВМ, имеющей операционную систему, идентичную операционной системе вычислительного комплекса ЩС и предоставляющей для программного обеспечения АСИС ресурсы Е , К =1,4, где Е - количество операций процессора в единицу времени, Е2 - количество обращений к Н«Щ в единицу времени, Ь3 - объем оперативной памяти,Е - объем памяти НЛЩ. В зависимости от полноты использования логико-лингвистических признаков, формального описания 0А и степени автоматической нейтрализации отклонений возможна реализация различных версий АСИС а одних и тех же вычислительных ресурсах.

В настоящем параграфе приводится решение задачи оптимального выбора версии АСИС и объема БД с целью обеспечения максимального значения показателя ОІ на предоставляемых центром коммутации сообщений ресурсах Е .

Как следует из функционального описания АСИС, потребность в вычислительных ресурсах, необходимых для реализации блоков BI, В2 и В4, практически постоянна для различных версий, а потребность в ресурсах для реализации ВЗ, В5 и В6 зависит от выбранной версии. Программное обеспечение АСИС представим в виде программного комплекса, состоящего из четырех подсистем Я ,В С и D . Подсистема п есть блок В5, В - блок Вб, С -блок ВЗ, a D состоит из всех остальных блоков АСИС. Пусть возможны N версий подсистемы л , М версий подсистемы В и I версий подсистемы L , то есть имеются W=HI\IT версий АСИС.

Обозначим через Jn вероятность автоматической индексации телеграмм, ОА которых не содержат отклонений в словах, при реализации П -ой (n = i,N версии подсистемы л . Как следует из выражения (3.15):

Через rm (m=i,nJ обозначим вероятность автоматической нейтрализации орфографической ошибки при реализации m -ой версии нодсистемы В . Далее через Rflkn обозначим количество ресурсов К -го типа, необходимых для реализации П -ой версии подсистемы л при условии, что ОА не содержат отклонений в словах. Через Rg ь п д и RDk обозначим количество ресурсов К-го типа, необходимых для реализации соответственно ІП -ой версии подсистемы В , Т-ой версии подсистемы С и подсистемы D . Величины Кдкп , п т , К 9 ГА OR оцениваются по соответствующим алгоритмам и используемым данным (см. 5.2). Kfltf является функцией от ICj - количества лексем из справочников и С01 - количества лексем из списка С0 , включенных в БД, при принятой в АСИС организации данных, то есть различные версии подсистемы отличаются объемом БД, причем, в основном, как видно из модели БД, изменяется объем файла СПК. Если на одной дорожке хранится idl лексем (записей), то для хранения дополнительно С0 лексем необходимо Т =Пл дорожек. Итак, если версию БД, содержащую кроме лексем из справочников только один дополнительный блок лексем из упорядоченного по убыванию вероятностей возникновения систематических отклонений списка С0 , назовем базовой, то I -ая версия подсистемы содержит t дополнительных блоков. Вероятность Щ того, что все лексемы из ОА идентифицируются без предварительной нейтрализации орфографических ошибок в подсистеме D равна Є 0+Є . где 60 - вероятность того, что все лексемы ОА имеются в справочниках, то есть ЭТ имеет постоянную составляющую 60 и составляющую 6 , величина которой зависит от окончательного выбора версий АСИС.

Согласно функциональной схеме АСИС, среднее количество вычислительных ресурсов ГЛдкп (для К =1,2), используемых при реализации ПІЇ1І -ой версии АСИС, равно:Rflkn=ait nRflkn+r" T ) mRflkn+ где СО есть вероятность появления орфографической ошибки в ОА; коэффициент J { показывает, какая часть ресурсов, необходимых для работы подсистемы п , будет израсходована прежде, чем появится сообщение о невозможности индексации; коэффициент 40,35 указывает долю систематических отклонений в орфографических ошибках.

Исследование и разработка автоматической системы индексации сообщений Епископосов, Ромен Арустамович

Обзор методов автоматической обработки текстов и выработка подхода к решению задачи

Методика классифицирования и классификация лексем адресной части сообщений

Функциональная структура автоматической системы индексации сообщений и представление алгоритмов

Оптимизация объема базы данных и выбор версии автоматической системы индексации сообщений

Похожие диссертации на Исследование и разработка автоматической системы индексации сообщений