Лингвистическое обеспечение автоматизированных банков данных узкопредметного назначения Хон Валерий Борисович

Данный автореферат диссертации должен поступить в библиотеки в ближайшее время
Уведомить о поступлении

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - 240 руб., доставка 1-3 часа, с 10-19 (Московское время), кроме воскресенья

Хон Валерий Борисович. Лингвистическое обеспечение автоматизированных банков данных узкопредметного назначения : ил РГБ ОД 61:85-5/592

Содержание к диссертации

Введение

1. Общая характеристика узкотематических проблемных областей. Выбор направления работы 13

1.1. Общая характеристика узкотематических проблемных областей 13

1.2. Анализ методов построения автоматизированных информационных систем . 20

1.3. Постановка задачи исследования 24

1.4. Выводы 28

2. Модель общения с банком данных узкопредметного назначения 30

2.1. Модель пользователя как участника общения 30

2.2. Модель информационных узкотематических запросов 35

2.3. Модель предметной области диалоговой системы 42

2.4. Выводы 50

3. Базовая лингвистическая модель диалоговых систем узкопредметного назначения 51

3.1. Лингвистическая модель запросов пользователей 52

3.1.1. Командная часть запроса 53

3.1.2. Информативная часть запроса 55

3.1.3. Ситуационная часть запроса 60

3.2. Машинный тезаурус лингвистического процессора 63

3.2.1. Тезаурус служебных слов .66

3.2.2. Тезаурус информативных слов 69

3.2.3. Тезаурус распознавания ситуации 74

3.3. Физическая организация машинного тезауруса 77

3.4. Выводы 85

4. Практическая реализация результатов исследований 87

4.1. Общая структурно-функциональная схема диалоговых систем 87

4.2. Принципы реализации лингвистического процессора 92

4.3. Вопросы автоматизации процесса создания диалоговых систем 103

4.4. Выводы 121

5. Внедрение результатов исследований , 124

5.1. Особенности программной реализации лингвистического процессора в условиях мини-ЗВМ 124

5.2. Диалоговая система радиофизических исследований 132

5.3. Диалоговая система информационного обеспечения онкологических исследований 137

5.4. Диалоговая система информационного обеспечения проектирования гибридных интегральных схем 144

5.5. Выводы 145

Заключение 147

Литература 149

Общая характеристика узкотематических проблемных областей
Модель информационных узкотематических запросов
Машинный тезаурус лингвистического процессора
Общая структурно-функциональная схема диалоговых систем

Введение к работе

Массовое внедрение средств автоматизации и вычислительной техники во все отрасли народного хозяйства и постоянно возрастающая сложность решаемых с помощью ЭВМ задач вызвали необходимость разработки специальных методов и средств, обеспечивающих широкое применение вычислительной техники. Поэтому повышение эффективности использования вычислительной техники и подготовки пользователей ЭВМ является актуальной научно-технической проблемой. Переход к ЭВМ третьего поколения значительно повлиял на технологию обработки информации как в АСУ, так и в других областях. Наличие в современных ЭВМ памяти с прямым доступом способствовало созданию специальных методов организации и обработки больших массивов информации, что нашло свое отражение в создании больших информационных баз, предназначенных для многоцелевого использования при решении различных функциональных задач. Построенные на их основе автоматизированные информационные системы охватывают несколько областей знаний и хранящаяся в них информация исчисляется мегабайтами. Типичными примерами таких систем могут служить ЩЛОС, STAIRS , MISTRALS, ПРИЗ, МИВОС и др.

Автоматизированные информационные системы этого класса предназначены для удовлетворения информационных потребностей очень широкого круга пользователей.

Наряду с острой необходимостью внедрения многоцелевых универсальных автоматизированных информационных систем возникает потребность в создании систем, предназначенных для обеспечения потребителей по одной достаточно узкой предмет- - б - ной области [44, 67]. Такие системы должны использоваться без помощи программистов, Областями применения являются автоматизация научных исследований в отдельной отрасли науки, информационное обеспечение САПР или медицинских работников клиники, больницы и др.

В частности, потребность в создании систем локальной автоматизации медико-биологических исследований вытекает из принципиальных особенностей, характеризующих состояние этой предметной области: необходимость анализа экспериментальных данных, особенно в реальном масштабе времени, целесообразность организации управляющей обратной связи с целью оптимизации режима деятельности исследуемой биосистемы [18].

Природа научно-исследовательского эксперимента независимо от области исследования, будь то медицина (онкологические и кардиологические), радиотехника (полигонные эксперименты), объясняет острую необходимость в гибкой, легко модифицируемой в соответствии с новыми особенностями исследования автоматизированной системы накопления и обработки экспериментальной информации. В этой ситуации необходимо создание такого комплекса программ, который в конкретной предметной области обладал бы достаточной гибкостью по отношению к методике проведения эксперимента, конфигурации и составу оборудования, допускал бы преемственность программных средств [51], возможность наращивать библиотеку обрабатывающих программ, мог бы адаптироваться к требованиям пользователя и был бы несложен в эксплуатации.

При разработке больших баз данных основное внимание до сих пор уделяется решению таких задач как анализ организационных потребностей в учреждениях и организациях, текущее сое- - 7 -тояние информационных потоков и их необходимое улучшение. Гораздо меньше уделяется внимания тем, кто должен использовать систему. В результате предлагаемые универсальные интерфейсы оказываются неприменимыми для многих потенциальных пользователей, которые имеют свою собственную терминологию, понятия и прикладные задачи [29.]*

Особое место среди современных автоматизированных систем отводится диалоговым человеко-машинным системам, обеспечивающим при использовании реального масштаба времени непосредственный контакт пользователя с программами и данными [9, 15, 24, 40, 41].

В [733 приведен статистический анализ ответов 500 специалистов (юристов, фармацевтов, медиков и др., т.е. лиц, непосредственно не занимающихся программированием), пользующихся услугами ЭВМ, на вопросы специально подготовленной анкеты. Как утверждают авторы статьи, отрицательные свойства автоматизированной системы ассоциируются у неподготовленного пользователя с такими определениями, как "дегуманизирующие", "деперсонализирующие", "трудные", "неудобные" и прочие. Особые сложности в процессе взаимодействия потребителя с системой вызывают машинные языки, используемые для общения с ЭВМ. Поэтому в связи с резким расширением круга пользователей ЭВМ, в основном за счет лиц, незнакомых с языками программирования, особый интерес представляют системы, обеспечивающие диалог в некоторой предметной области на естественном или близком к нему языке. "Данное направление разработки диалоговых систем связано с построением таких программ, которые могли бы быть посредником между человеком и информацией в машине" [25, C.52J. Опыт, накопленный в настоящее время в естественно-языковых системах, используемых для решения задач информационного поиска [57, 8lJ, свидетельствует об эффективности применения диалога на языке, близком к естественному. Такое взаимодействие пользователя с системой стремятся организовать по следующим причинам: работа с системой, как правило, составляет небольшую часть всего объема работы ученого, инженера, администратора, врача, конструктора. Поэтому не стоит рассчитывать, что такой пользователь захочет и найдет возможность изучать формализованный входной язык системы 33]; общение на естественном языке (ЕЯ) создает большие возможности и удобства для полного формулирования информационной потребности потребителя информации (ПИ); использование ЕЯ облегчает задачу обучения пользователей [15].

Существенные успехи, достигнутые в области создания мини-компьютеров и их программного обеспечения, снижение их стоимости при одновременном увеличении их функциональных возможностей и повышении надежности позволяют перейти к организации систем баз данных (БзД) на их основе.

Поэтому перспективным является такое направление работ, которое приведет к созданию информационных систем локального обслуживания, построенных в концепциях систем БзД, обеспечивающих использование языковых средств, близких по своей семантике и синтаксису к ЕЯ профессиональной лексики ПИ и функционирующих на базе мини-, микро-ЭВМ. При этом, рассматривая проблему построения промышленной модели системы "человек - машина", управляющая роль в которой отводится 2ВМ, как справедливо замечено в [85J, необходимо отказаться от - 9 -принципа "подстройки информационных потребностей к возможностям системы" и опираться на принцип соответствия систем информационным потребностям, что особенно важно для построения узкотематических предметных систем. Для построения такой системы необходимо разработать такие модели взаимодействия потребителей информации с автоматизированной информационной системой, которые будут способны учитывать характерные особенности пользователей, определять их возможные ошибки и предлагать набор различных средств для их устранения. Также необходимо решить следующие проблемы:

1) определить принципы организации БзД в условиях мини- ШМ, т.е. в условиях ограниченного объема оперативной памяти и разработать такую СУБД, которая позволяла бы накапливать информацию в достаточно больших объемах; разработать принципы взаимодействия СУБД, библиотеки прикладных програмі,! и диалогового интерфейса, поддерживающего связь пользователей с автоматизированным банком данных (АБД); определить принципы и разработать инструментальные средства создания проблемно-ориентированных диалоговых систем (ДС) взаимодействия пользователей с АБД.

Как будет отмечено ниже, в практике создания и эксплуатации больших СУБД накоплен огромный опыт и поэтому основное вни' мание в разрабатываемой теме должно быть уделено решению второй и третьей проблем, что и явилось предметом данной диссертации.

Феномен "деловой прозы", установленный Ершовым А.П.,явился толчком к разработке специализированных ДС самого различного функционального и прикладного назначения, что в свою очередь требует разработки методики и создания независимых от пред- - 10 -метной области инструментальных средств изготовления ДС для конкретного применения 14]. В связи с этим целью диссертационной работы является выявление на основе анализа особенностей обработки информации в узкопредметных областях, принципов организации и функционирования ДС, построение модели взаимодействия пользователя с ДС и разработка на ее основе языковых средств общения пользователя-непрограммиста с АВД.

К защите представляются следующие основные положения: методика и алгоритмы адаптации лингвистического процессора к уровню квалификации пользователя АЩ; принцип построения ДС узкопредметного назначения на основе машинного тезауруса; метод сжатия лексических единиц ЕЯ и методика построения машинного тезауруса для программной реализации лингвистического обеспечения на мини-ЭВМ; способ формирования лексического состава входного языка ДС; программно-инструментальный комплекс построения ДС узкопредметного назначения, взаимодействующий с пользователем на

ЕЯ их профессиональной лексики.

Работа проводилась в рамках следующих НИР: - автоматизация обработки информации на универсальных ЗВМ (Р инв. 028.12009788); разработка пакетов прикладных программ автоматизации научных исследований и обучения (Распоряжение-приказ АН СССР и Минвуза РСФСР № 29/110 от I6.0I./I6.02.81); хоздоговорных тем І6/79Г и "Треугольник-АН¹'; по договорам о научно-техническом содружестве между ТЙАСУР и НПО "Полюс", между кафедрой АОИ и проблемной лабора- - II - торией РТС и ТА.

Результаты работы докладывались на десяти Всесоюзных конференциях и симпозиумах, пяти региональных совещаниях и конференциях, а также неоднократно обсуждались на научных семинарах кафедры автоматизации обработки информации, опубликованы в пяти статьях, отчете по НИР, одном учебном пособии и тезисах докладов десяти Всесоюзных и региональных конференций,

Результаты работы внедрены: в научно-производственном объединении "Полюс"; в Сибирском филиале Всесоюзного онкологического научного центра АМН СССР; в проблемной лаборатории радиотехнических систем и телевизионной автоматики Томского института АСУ и радиоэлектроники.

Общий ожидаемый экономический эффект от внедрения результатов исследований составляет 135 тысяч рублей, что подтверждается соответствующими актами о внедрении. Полученные результаты используются в процессе обучения студентов специальности 0640, что также подтверждается соответствующим актом.

Текст диссертационной работы изложен в пяти главах. В первой главе проведен анализ потребностей специалистов узкопредметных областей, выявлены особенности и закономерности обработки информации; поставлена задача исследования и определены пути ее решения. Во второй главе предложен подход к решению поставленной задачи, основанный на моделировании процесса взаимодействия человека и ЭВМ. При этом разработана базовая математическая модель создаваемых ДС, входным языком которых является ЕЯ профессиональной лексики ПИ. Третья глава посвящена разработке лингвистической модели указанных диалоговых систем. Здесь построена модель запросов пользователей АВД и машинный тезаурус, как лексический инструмент лингвистического процес- .-12-сора ДС. Подробно рассмотрена структура тезауруса, назначение его составляющих и приведена оптимальная физическая организация. Практическая реализация результатов исследований приведена в четвертой главе, где изложены вопросы разработки программно-инструментальных средств создания ДС и методика их построения. В пятой главе описаны особенности программной реализации лингвистического процессора применительно к НВМ класса СМ-4 и операционной системе РАФОС. В этой заключительной главе описаны основные внедрения результатов исследований. Все главы сопровождаются выводами, которые подытоживают материал соответствующих разделов. В приложении приведены акты о внедрении и 'использовании результатов исследований, распечатки нетривиальных программ матобеспечения внедренных систем и другой иллюстрационный материал.

Автор чрезвычайно признателен коллективу сотрудников кафедры автоматизации обработки информации Томского института АСУ и радиоэлектроники, где была выполнена работа.

Особую благодарность автор выражает научному руководителю -заведующему кахредрой автоматизации обработки информации, доценту, канд техн. наук Полищуку Юрию Михайловичу, приложившему немало усилий к тому, чтобы появилась данная работа, а также инженерам кафедры АОЙ Мищенко О.А., Ереминой Е.Б., Голиковой Н.С.

Автор глубоко признателен Ожигову А.В. за моральную поддержку и любезно предоставленную помощь в работе, дипломникам Медведской Л.В. и Гоффу В.й., принимавшим самое активное участие в обсуждении и программной'реализации отдельных подстстем ДЙАПАК. - ІЗ -

Общая характеристика узкотематических проблемных областей

Согласно упомянутому в предыдущем разделе принципу соответствия информационной системы (ИС) потребностям пользователей при разработке ее информационно-лингвистического обеспечения следует исходить из принятых в данной предметной области документов (таблиц, бланков, карт, схем и т.п.). Для выявления специфических особенностей узкотематических информационных потребностей специалистов различных предметных областей рассмотрим три конкретные проблемные области.

Вопросы медицинской документалистики и создания новых форм медицинских документов, предназначенных для использования в медицинских автоматизированных системах подробно рассмотрены в T36J, где изложены методы создания документов, освещены вопросы кодирования медицинской информации.

Вся информация о больном в медицинском учреждении скапливается со дня его поступления в стационар в стандартизированном медицинском документе, называемом в клинике клинической картой (КК) обследования больного, а в больнице - историей болезни. Такие документы, назовем их для общности КК, включают следующие части: 1) общее наименование - идентифицирует документ в медицинском учреждении в том случае, если последнее располагает несколькими различными формами КК, соответствующими, например, каждому его отделению; 2) разделы и подразделы - идентифицируют аспекты или на - 14 -правления обследования пациентов; каждый раздел документа может состоять из более мелких структурных единиц - подразделов или представлять собой группу отдельных признаков; 3) признаки - идентифицируют характеристики состояния пациента в данном аспекте. Универсальная КК, рассчитанная на использование в рамках большого медицинского учреждения (больница, клиника) может содержать до 1000 различных признаков; КК специализированной клиники содержит до 300 признаков; в КК одного отделения онкологической клиники включается до 50 признаков в зависимости от специфики отделения. КК, разработанную для автоматизированной информационной системы называют "машинной" историей болезни (МИБ) [53]. Обычная КК представляется в виде таблицы, в которой строками являются названия соответствующих признаков, а столбцами - их значения. Так как медицинские работники привыкли в своей повседневной деятельности оперировать такой формой документа, то и МИБ стараются представить в виде таблицы или, по крайней мере, вывод информации из ЭВМ реализуют в удобном для восприятия виде. Не углубляясь в вопросы организации МИБ, отметим, что при составлении ее,решающим вопросом является выбор достаточно информативных признаков, как с точки зрения статистического учета, административного управления, так и с точки зрения научных исследований, обслуживания пациентов. Можно выделить следующие группы признаков, используемых при анализе заболеваний и присутствующих в КК пациента: а) параметрические признаки, т.е. признаки, являющиеся некоторыми параметрами исследуемого объекта; сюда относятся такие наиболее часто используемые параметры как средняя частота - 15 -пульса, артериальное давление, различные параметры ШГ (амплитуда и длительность зубцов), состав крови и т.п.; б) статические или медленно изменяющиеся во времени приз наки, т.е. признаки, которые являются постоянными для данного пациента или незначимыми для данного заболевания; таковыми яв ляются паспортные данные, рост больного, его возраст и т.п.; в) бинарные признаки, т.е. признаки, значение которых ли бо измеряются нулем или единицей, либо можно поставить им в соответствие нуль или единицу; г) временные признаки, связанные с календарным течением времени: дата поступления, выписки, установления диагноза, опе рации и т.п.; д) качественные признаки, выражаемые словами "хуже", "луч ше", "больше", "меньше" и т.п., а также признаки, не поддаю щиеся количественным измерениям; сюда относятся оценка лечения, сон, память и т.п. Примером типичной истории болезни может служить клиническая отчетная форма № 2, приведенная в приложении 2. Для удобства врача карта состоит из пяти разделов: адресная часть, анкетные данные, санкурлечение, виды лечения, диагностические наблюдения. Необходимо отметить разнообразие типов данных по признакам: здесь представлена как символьная информация - Ф.И.О., адрес, оценка лечения, так и цифровая - возраст, рост, номер истории болезни и т.д.

Модель информационных узкотематических запросов

В разделе I.I дана общая характеристика некоторых узкотематических предметных областей и на примере истории болезни в научно-исследовательских медицинских учреждениях и автоматизации радиофизических научных исследований рассмотрены особенности представления информации специалистами в своих предметных областях. Для разработки модели узкопредметных областей, характеризующихся сравнительно большим объемом данных (порядка 10 Мбайт), рассмотрим информационные потребности потенциальных пользователей соответствующих предметных областей.

Для обработки информации многие медицинские учреждения начали обращаться к помощи машин. Заметим, что функции большинства зарубежных серийных систем такого назначения ограничиваются ведением финансовых операций и подготовкой различных документов 58/. Для улучшения обеспечения врача медицинской информацией о лечащихся пациентах был выполнен ряд исследований, которые показали, что хранение, поиск и выдача информации являются важнейшими элементами медицинской практики. Данные, получаемые при обследовании пациента, как уже отмечалось выше, оформляются в виде клинических карт. Поэтому информационную потребность врача можно в первом приближении определить исходя из содержания КК. При первом обращении пациента в медицинское учреждение врач заносит в карту его паспортные данные, дату посещения, симптомы и первичный диагноз. При последующих обследованиях в КК вносятся изменения, дополнения, результаты различных анализов и др. Таким образом, при машинной реализации одной только функции врачебной деятельности - автоматизации ведения КК в виде МИБ у врача возникают следующего рода запросы в систему: "Сформировать (завести) историю болезни на Иванова Сергея Петровича", Далее следует ряд сообщений, описывающих паспортные данные пациента, его местожительство, место работы, дату обращения к врачу и т.д. Причем в большинстве случаев требуется такой ввод информации в машину, при котором врач отвечал бы на вопросы, задаваемые ЭВМ, Это касается описательной части МИБ (паспортные и анкетные данные больного (приложение 2). Жалобы больного, данные химических и прочих анализов, а также диагноз должны вводиться в свободном формате. Например:

Занести в МИБ Иванова Сергея Петровича данные: рент геноскопия желудка - меньше, артериальное давление - макси мальное. При анализе заболевания или повторном посещении пациента врачу могут потребоваться как вся информация, занесенная в МИБ, так и ее фрагменты. Возможны такие запросы: - Выдать МИБ Иванова Сергея Петровича. - Выдать пульс и артериальное давление Иванова Сергея Петровича. Кроме того, при научных исследованиях, а также статистической отчетности и в других целях может потребоваться агрегированная информация: - Сколько больных поступило 02.02,82? - Сколько больных с инвалидностью первой группы? - Рассчитать среднее количество лейкоцитов у Иванова Сергея Петровича в период с 10.01,82 по 25,04,82. Анализ взаимоотношений ряда специалистов в их профессиональной деятельности показывает, что несмотря на принципиальное различие предметных областей, люди в деловом общении интуитивно придерживаются определенного состава и структуры высказываний, характеризующих их информационную потребность. В общем случае, ставя задачу перед другим человеком, мы всегда определяем следующие атрибуты задачи: 1) что должно быть получено в результате решения поставленной задачи; 2) оговариваем часть или все условия решения проблемы; 3) даем руководство к достижению цели. Так врач, обращаясь в регистратуру медицинского учреждения, например, за картой больного, выразит свою информационную потребность фразой: "Найдите, пожалуйста, клиническую карту больного Иванова Сергея Петровича" или, подводя итоги дня, он спрашивает: "Сколько больных было сегодня на приеме?". Видно, что в первом случае его интересует КК, во втором -общее количество больных - это постановка вопроса; условиями, определяющими решение, являются: в первом случае - фамилия, имя, отчество больного, во втором - временные рамки текущего рабочего дня. Что касается способа решения поставленной задачи, то в первом примере врач просит произвести поиск и выдать его результаты в виде КК, во втором - произвести элементарные арифметические действия. Выводы, иллюстрированные этими примерами, подтверждаются проведенным анализом не только научной и практической деятельности медиков, но и геофизиков, радиотехников, разработчиков интегральных схем. Например, специалист по разработке радиотехнических систем при изучении процессов прохождения радиоволн в атмосферном канале связи в одном из конкретных случаев задавал своим коллегам следующие вопросы: - Какая ожидается глубина флуктуации амплитуды сигнала де-сятйсантиметрового диапазона на закрытых трассах протяженностью 250 км? - Как оценить эту величину по дисперсии фазовых флуктуации? - Определить зависимость этой величины от времени суток, - Найдите экспериментальные данные на указанной трассе в летнее время. Во всех вопросах радиотехник определил интересующие его объекты ("глубина флуктуации амплитуды", "величина дисперсии фазовых флуктуации" и т.л.), условия, от которых зависит состояние объекта ("десятисантиметровый диапазон", "протяженность трассы 250 км", время года и т.д.), а также способ решения задачи.

Машинный тезаурус лингвистического процессора

Рассматривая проблемы создания автоматических словарей, являющихся элементами системы лингвистического обеспечения (ЛО) автоматизированных систем переработки информации, необходимо определить круг задач, возлагаемых на лингвистическую модель.

К лингвистическим функциям относятся [75]: процедура кодирования/декодирования, автоматическая коррекция ошибок, разрешение синонимии, а также определение парадигматических отношений. Две последние функции, типичные для информационно-поисковых тезаурусов (ИПТ), объединяют концепции построения ИПС с концепциями диалоговых банков данных, что делает семантику баз данных более эксплицитной.

Под словарем в АВД понимается множество слов, связанных семантическими и парадигматическими отношениями. Наличие указанных связей между словами позволяет рассматривать словарь как некоторое системно-структурное образование ["55]. С другой стороны, в области разработки и эксплуатации ЙПС накоплен огромный опыт разработки ИПТ. В настоящее время ИПТ является наиболее надежным средством повышения эффективности информационного поиска [84], поэтому проблемы оптимизации тезаурусов с точки зрения использования их в качестве основы лингвистического обеспечения банков данных и АШІС, представляются наиболее актуальными для многих разработчиков информационных систем, особенно систем, функционирующих в динамическом режиме. Оптимизация тезауруса связана с уточнением отношений между его лексическими единицами (ЛЕ) и выражениями или понятиями, с расширением класса условной эквивалентности за счет включения в тезаурус большого числа синонимов.

В практике разработки ДС сложилось два направления решения проблемы использования естественного языка в качестве основного в коммуникативном процессе "пользователь - ЗВМ". Теоретико-лингвистическое направление заключается в использовании методов и средств структурной лингвистики. Второе направление связано с построением "вопросно-ответных" систем. В системах второго направления язык запросов играет роль смыслового представления входных сообщений. Естественный язык в ДО "вопрос-ответ" является, как правило, предметно-ориентированным. Это обеспечивает решение отмеченных выше вопросов разрешения полисемии слов естественного языка. Кроме того, значительно уменьшается объем словаря. Специальный лингвистический процессор в такой системе представляет собой ту часть, которая "обращена к пользователю" [71]. В общем случае лингвистический процессор решает следующие задачи: 1) понимание входных сообщений пользователя, сформулированных на языке запросов; 2) формирование ответа на языке пользователя; 3) накопление и корректировка лингвистических знаний на основе информации, получаемой ПИ в процессе общения; 4) инициирование диалога в терминах и понятиях предметной области пользователя. Обращение лингвистического процессора к лексике предметной области пользователя осуществляется через словарь, который накапливает знания о языке и терминах коммуникативного процесса "пользователь - ЭВМ" Г7і]. Основным материалом для построения словаря (тезауруса) служит лексика предметной области и внутреннее построение системы. Составляющей структуры лексики, с одной стороны, является подмножество слов лексики описания базы "знаний"; сюда входят лексемы, соответствующие понятиям, их значениям, которые могут быть в базе "знаний" по конкретной предметной области. Другой составляющей является подмножество слов лексики описания запросов пользователя к ДС как к посреднику, реализующему коммуникативную функцию между человеком и вычислительными средствами ЭВМ (база данных и библиотека обрабатывающих программ), И наконец, третьей составляющей структуры лексики являются все слова, которые могут быть использованы в языковых преобразованиях, связанных с диалогом на ограниченном языке 7lJ. Таким образом, еслиЛл ,у/2/,//з/- соответствующие составляющие структуры лексики : Отсюда основным назначением тезауруса в лингвистическом обеспечении является установление соответствия между ЛЕ естественного языка и ЛЕ внутреннего описания предметной области, устранение неоднозначности понятий, сложившейся в естественном языке при допущении использования синонимичных терминов в пределах, определяемых ДС. Из (3.4) и (3.5) следует, что требования, предъявляемые к лингвистической модели, в основном определяются требованиями к тезаурусу. Эффективная организация тезауруса должна обеспечивать [25]: - эффективный доступ ко всем словам и их кодам и наоборот; - взаимооднозначное соответствие между словами и их кодами для обеспечения адекватного распознавания запроса; - эффективную выборку как выше-, так и нижележащих понятий при уточнении запроса; - эффективное использование внешней паямти. Синонимия разрешается, как указано выше, за счет формирования класса эквивалентности путем присвоения одинакового кода всем ключевым словам этого класса. Для определения кодов видовых и родовых понятий информация о них обычно записывается совместно с кодом данного понятия [32]. Но в данной работе автором предлагается использовать другой способ: обозначение родо-видовых связей с помощью указателя иерархических отношений, описанного в этой главе.

Общая структурно-функциональная схема диалоговых систем

Представленные в данной работе математическая и лингвистическая модели проблемно-ориентированных диалоговых систем позволяют сконструировать на их основе программно-инструментальный комплекс создания таких систем. Со всей очевидностью выступает тот факт, что обращение разработчиков диалоговой системы к программному инструменту должно осуществляться на естественно-деловом языке. Другими словами, указанные программно-инструментальные средства - это диалоговая система, ориентированная на автоматизацию процесса разработки и создания ДС различного предметного назначения. Вопросы практической реализации такого инструмента и изложены в данной главе. В первом параграфе описана структурно-функциональная схема создаваемых диалоговых систем, во втором - принципы и практические вопросы реализации универсальной составляющей всех ДС -лингвистического процессора (ЛП), в третьем параграфе изложен материал, касающийся непосредственно вопросов создания диалоговых систем.

Во многих работах [I, 2, 9, 12-15, 26, 28, 42, 46], посвященных вопросам организации диалогового режима, базирующегося на естественном или естественно-профессиональном языке, излагаются основные принципы функционирования ДС. Несмотря на это, перечислим здесь те принципы, которые присущи не только ДС, но и инструменту их создания: 1) лексическая адаптивность - возможность корректировки лексики ДС в соответствии со словами, используемыми пользователями в своих запросах; 2) комфортность - удобство в работе; 3) наглядность - обеспечение простоты работы с системой как на этапах генерации и корректировки ДС, так и процесса ее эксплуатации; в частности, должны быть предусмотрены соответствующие формы хранения информации и доступа к ней, программы формирования расчетных матриц, таблиц и графиков для различных типов задач, а также другие программы сервисного характера; 4) полнота - инструментальное обеспечение всех этапов настройки ДС на предметную область и всех этапов решения информационных задач; 5) технологичность - возможность встраивать оптимизационные расчеты "в технологию планирования и общий процесс построения ДС и обработки данных. Фактор узости тематики предметной области диалоговых систем обусловливает следующие принципы: б:), наращиваемость, допускающая постепенные изменения БІЇЇЇ, в том смысле, что будучи вначале простой по своему составу, она может пополняться программными модулями, становиться более сложной по своему составу и назначению; допускающая организацию новых баз данных как по типу, так и по объему информации; 7) доступность - прямое использование ДС потребителями информации в их повседневной деятельности; этот принцип определяет выбор SBM, требует организации общения с системой в терминах и понятиях, характерных для данной предметной области, без предварительного обучения пользователей; 8) адаптивность системы к пользователю, требующая чтобы инициирование ЗВМ диалога на всех этапах общения с ПИ осуществлялось с учетом знаний и опыта, приобретенных пользователем в предыдущих сеансах работы с системой. Предложенный в настоящей работе лингвистический подход к разработке проблемно-ориентированных диалоговых систем, входным языком которых является язык профессиональной лексики ПИ, определяет следующий состав диалоговой системы (рис. 4.1): лингвистический процессор, предназначенный для осуществления связи человека с SBM и спецпроцессор, отражающий специфику класса задач, на который ориентирована система.

Лингвистическое обеспечение автоматизированных банков данных узкопредметного назначения Хон Валерий Борисович

Общая характеристика узкотематических проблемных областей

Модель информационных узкотематических запросов

Машинный тезаурус лингвистического процессора

Общая структурно-функциональная схема диалоговых систем

Похожие диссертации на Лингвистическое обеспечение автоматизированных банков данных узкопредметного назначения