Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Моделирование семантической структуры текстов научно-технического содержания в связи с автоматизацией информационных процессов. Лавренова Ольга Александровна

Моделирование семантической структуры текстов научно-технического содержания в связи с автоматизацией информационных процессов.
<
Моделирование семантической структуры текстов научно-технического содержания в связи с автоматизацией информационных процессов. Моделирование семантической структуры текстов научно-технического содержания в связи с автоматизацией информационных процессов. Моделирование семантической структуры текстов научно-технического содержания в связи с автоматизацией информационных процессов. Моделирование семантической структуры текстов научно-технического содержания в связи с автоматизацией информационных процессов. Моделирование семантической структуры текстов научно-технического содержания в связи с автоматизацией информационных процессов. Моделирование семантической структуры текстов научно-технического содержания в связи с автоматизацией информационных процессов. Моделирование семантической структуры текстов научно-технического содержания в связи с автоматизацией информационных процессов. Моделирование семантической структуры текстов научно-технического содержания в связи с автоматизацией информационных процессов. Моделирование семантической структуры текстов научно-технического содержания в связи с автоматизацией информационных процессов. Моделирование семантической структуры текстов научно-технического содержания в связи с автоматизацией информационных процессов. Моделирование семантической структуры текстов научно-технического содержания в связи с автоматизацией информационных процессов. Моделирование семантической структуры текстов научно-технического содержания в связи с автоматизацией информационных процессов.
>

Диссертация - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Лавренова Ольга Александровна. Моделирование семантической структуры текстов научно-технического содержания в связи с автоматизацией информационных процессов. : диссертация ... кандидата филологических наук : 10.02.21.- Москва, 1978.- 280 с.: ил. РГБ ОД, 61 79-10/183

Содержание к диссертации

Введение

Гяава I. Текст и его семантика как объект моделирования. Вьдаод основных принципов моделирования 10

1. Текст: понятие, основные характеристики и линг вистический статус 10

1.1. Проблема определения понятия "текст..." 10

1.2. Текст - речевое произведение 13

1.3. Проблема единства текста 14

1.4. Текст - основная единица речевой коммуникации 23

1.5. Определение текста и основной принцип моделирования его семантики 27

1.6. Письменный текст 28

2. Семантическая структура текстов 29

2.1. Семантическое представление текста. Основные понятия 29

2.2. Проблема "знания человека" и "знания системы" в прикладном аспекте 30

2.3. "Система знаний" и семантическая структура текста. Глубинно-семантическое представление текста 34

2.4. Вариативность смыслового содержания текста и коммуникативный инвариант 40

2.5. Семантика текста в аспекте речевой комму никации 43

2.5.1. Речевая коммуникация как обмен информацией между тезаурусами 43

2.5.2. Информация. Актуальное членение текста 45

2.5.3. Коммуникативное задание» "общий смысл" и текстообразование 50

2.5.4. Проблема пресуппозиции и полное семантическое представление 54

2.5.5. Особенности текста запроса и информационная потребность 56

2.5.6. Восприятие смыслового содержания текста человеком и системой 58

Глава II. Моделирование семантики текстов - основа автоматизации информационных процессов 62

1. Задача моделирования семантики текстов 62

2. Возможности структурирования знаний 70

Глава III. Реализация принципов моделирования семантики научно-технических текстов 85

1. Общие положения 85

2. Описание одного из возможных способов моделирования семантики научно-технических текстов 86

2.1. Общая структура модели системы знаний (универсального тезауруса) 87

2.1.1. Процесс познания и модель системы знаний 87

2.1.2. Содержание научно-технических текстов и модель системы знаний 94

2.1.3. Информационные потребности и модель системы знанні 96

2.2. Квазиграф СНЗ, элементы и отношения 100

2.2.1. Элементы СНЗ 100

2.2.2. Отношения между элементами СНЗ. Основные предикаты . 105

2.2.3. Квазиграф СНЗ. Определение 107

2.2.4. Отношения внутри слоя 109

2.2.5. Отношения между элементами разных слоев. Деление на слои 112

2.2.6. Щепочки. Определение, изображение 115

2.2.7. Основа цепочки . 118

2.2.8. Расстояние между элементами цепочки 119

2.2.9. Комплексы цепочек 120

2.2.10. Описание категории "предметы" . 124

2.2.11. Описание категории "процессы" . 132

2.2.12. Описание категории "сопутствующие процессы" 142

2.2.13. Описание категории "отрицательные явления" 149

2.2.14. Описание категории "характеристики" 159

2.2.15. Описание категории "условия" 164

2.2.16. Выражение модальности в СНЗ 167

2.3. Процесс построения фрагментов СНЗ для текстов и образование гипертекста 168

2.4. Возможности применения предлагаемого способа моделирования семантики текстов 178

Заключение 188

Введение к работе

Темпы современного развития научно-технического прогресса поставили перед человеком сложную и многоплановую проблему поиска необходимой информации в огромном массиве сведений, входящих в "искусственную память человечества" - книги, журналы и т.д. По данным, приводимым в различных источниках, в мире выходит 30-50 тыс. научно-технических журналов, ежегодно издается до 75 тыс. книг по науке и технике, публикуется более 300 тыс. описаний к авторским свидетельствам и патентам, /Михайлов и др., 1968/. Общий объем мировой научно-технической информации удваивается каждые 10-15 лет. Ежедневно в мире издается в различной форме около 100 печатных листов текста в расчете на одного специалиста. В связи с этим часто оказывается легче самому вновь сделать открытие, чем найти соответствующие сведения в литературе Д обров, 1970/.

Одной из важнейших задач, требующих практического решения в нашей стране, является проблема создания единой государственной системы научно-технической информации /ГАСНТЙ/, основанной на использовании машинных методов в процессах обработки, хранения, поиска, выдачи и передачи на расстояние научно-технической информации.

Проблема автоматизации информационного поиска связана с разработкой целой системы вопросов, которые относятся к различным областям науки: информатике, математике, логике, лингвистике, психологии, вычислительной технике, полиграфии, библиотековедению, науковедению и т.д.

Особое значение в свете автоматизации информационных процессов имеют лингвистические исследования, "поскольку материальной оболочкой научной информации может быть только адекватный ее сущности язык" /Семенюк, 1977, с.5/.

Главным носителем вводимых и обрабатываемых в автоматизированных системах научно-технической информации (АСНТИ) сведений являются тексты на естественных языках. Поэтому на первый план выдвигается проблема выявления и представления в удобном для машинной обработки виде смыслового содержания текстов информационных документов и запросов, решаемая в рамках общей проблемы создания автоматизированных систем обработки текстов (АООТ) как обязательного компонента систем, решающих различные задачи управления и интеллектуального моделирования (см./Горо-децкий. 1976/).

Формализованного описания семантической структуры текстов требует специфика их обработки с помощью ЭВМ: от машины нельзя ожидать того интуитивного, почти неосознанного оперирования смыслом, которое свойственно человеку..

В сфере автоматизации информационных процессов обработка текстов проявляется в виде их реферирования и индексирования» т.е. перевода содержания текстов на информационно-поисковый язык (ИВД) для ввода в память машины. Такая обработка текстов на естественном языке осуществляется "ради семантической информации, запечатленной в данном языке, и с точки зрения этой семантической информации" /Звегшцев, 1968, с.215/.

Эксплицитное представление информации, знаний (в узком смысле - как совокупности сведений, данных о действительном мире), содержащихся в речевых высказываниях9 а также некоторой предварительной системы знаний, которая обеспечивает их понимание человеком, составляет одну из самых важных и сложных задач, стоящих на пути решения таких проблем, как автоматизация информационных процессов, автоматический перевод с одного языка на другой, разработка моделей памяти и понимания, моделей

- З решения задач и других моделей, имитирующих какие-либо виды человеческого поведения, связанного с восприятием и пониманием текста. Все эти проблемы можно объединить под названием нового направления в науке - создания "искусственного интеллекта".

Кроме того, формализованное описание смысла текста представляет собой в настоящее время одну из главных и наиболее перспективных задач теоретической лингвистики, так как это на- правление вносит существенный вклад в решение центральной проблемы языкознания - изучение соотношения "между звучаниями и значениями" ..

Что касается автоматизированных систем обработки информации, то, по нашему мнению, способ представления (моделирования) информации, содержащейся в текстах, должен обеспечивать комплексное решение следующих проблем:

построение модели общего смысла целого сообщения путем извлечения инфоряации, наиболее существенной с точки зрения задачи автоматизации поиска научно-технической информации?

дополнение лингвистически релевантного семантического содержания вводимого в систему текста необходимыми энциклопедическими знаниями ж;

построение в памяти ЭВМ массива информации нелинейного вида, сводной системы знаний, заключенных во всем массиве текстов» т.е. так называемого "гипертекста" формализацию, а в дальнейшем и автоматизацию выявления наиболее существенной информации, т.е. индексирования информационных документов и запросов ;

приближение функционирующего в системе представления инфор-мационного запроса к фактической информационной потребности ;

возможность отыскания в сводном массиве знаний системы местоположения сведений, удовлетворяющих информационную потребность, причем как в документальной» так и фактографической информационно-поисковой системе жж5;

возможность поиска информации в соответствии с различными требованиями к его полноте и точности.

Каждая из перечисленных проблем уже поставлена и в какой-то мере исследована в современной науке.

Хотелось бы подчеркнуть один важный момент, который, насколько нам известно, не нашел эксплицитного отражения в литературе: комплексное решение приведенных выше проблем заключается в первую очередь в построении соответствующей формальной модели системы научно-технических знаний, фрагменты которой отображаются в текстах информационных документов и запросов..

Поскольку автоматизированная информационно-поисковая система (ИПС) призвана заменить интеллект человека в осуществлении процессов хранения и поиска информации, она, как и всякий другой "искусственный интеллект" должна в необходимой степени имитировать, моделировать соответствующую мыслительную деятельность человека, в том числе и организацию памяти. В данном случае такая имитация выражается в том, что система знании компьютера должна моделировать систему знаний человека, т.е. служить некоторым формальным представлением системы знаний человека, организованной для решения задач информационного поиска.

Необходимость имитации организационной структуры системы знаний человека связана и с тем, что в настоящее время центр исследований в области "искусственного интеллекта" смещается в сторону обеспечения совместной деятельности людей и ЭВМ s. Для успешного функционирования систем "человек-машина" необходимо, надо полагать, обеспечение определенной адекватности в структуре мышления и памяти человека и машины в процессе их коммуникации.

Используемые в ИПС информационно-поисковые языки при описании смыслового содержания текстов должны обеспечивать ориентацию полученных семантических представлений этих текстов в определенным образом организованной модели системы знаний человеческого общества или отдельной области науки, техники, хозяйства.

В принципе, существующие ИПЯ эксплицитно или имплицитно основываются на определенной концепции относительно организации системы знаний компьютера в данной ШС, Соответственно такой концепции выявляются наиболее существенные единицы текста или определяются нужные классы классификации.

Однако, серьезным недостатком используемых ИШ является отсутствие какого-либо удовлетворительного обоснования тех моделей системы знаний, на которых они основываются, т.е. способов извлечения и представления информации (сообщаемых в текстах знаний) в системе. Методы выбора индексационных элементов из текстов, отнесения текстов к тому или иному классу определяются интуитивно или на основании эмпирически создаваемых методик

Разрабатываемые для решения других задач модели системы знаний о мире (создание интеллектуальных роботов, систем "вопрос-ответ" и т.д.) на данном этапе могут быть реализованы только в очень узких тематических областях. Применению такого рода моделей в обычных информационнснпоисковых системах препятствует высокая степень сложности их разработки и недостаточный объем памяти современных ЭВМ.

Нам представляются наиболее продуктивными такие пути моделирования семантики текстов, которые обеспечивают решение конкретного типа задач, но в возможно более широкой тематической области.

Целью настоящей работы является, во-первых, разработка таких принципов моделирования семантики научно-технических текстов, которые позволили бы в определенной степени решить КОМП- леке приведенных выше проблем, и, во-вторых, построение конк . ретного способа моделирования, отвечающего выработанным принципам.

В отличие от существующих способов отражения смыслового содержания текстов в машинной памяти ШЮ предлагаемый метод моделирования смысла текстов основан на специальном представлении (модели) системы научно-технических знаний, опыта, фрагменты которой отображаются в научно-технических текстах. При этом в модели системы знаний фиксируются те и только те объекты и отношения между ними, которые, как правило, необходимы и в основном достаточны для решения задач автоматизированного поиска научно-технической информации.

В настоящей работе сделана попытка комплексного подхода к разработке общих принципов и конкретного способа моделирования семантики текстов с привлечением результатов исследований в различных областях науки: информатике, логике науки, "искусств венном интеллекте", психологии, теории речевой деятельности и, разумеется, в теоретическом и прикладном языкознании, в том числе семантике, лингвистике текста и т.д.

Необходимость такого подхода к тексту в теории информационного поиска обусловлена сложностью самого объекта исследования. Это неоднократно подчеркивается, но не находит существенной реализации в специальной литературе.

Следует подчеркнуть, что теоретический аппарат этих наук часто приходится использовать в разработках, имеющих преимущественно прикладной характер, в несколько упрощенном виде, сужая отдельные понятия и ограничивая сферу применимости методов. Это вообще свойственно теории АСОТ и вызвано необходимостью решения конкретных прикладных задач в приемлемые сроки и при условии обеспечения требований экономической эффективности. 

Предлагаемые принципы моделирования семантики научно-технических текстов могут быть использованы для построения различных ЙЩ» основанных на той или иной концепции относительно организации системы знаний, используемой человеком при поиске информации в массиве документов.

Модель системы знаний, описанная в работе, может стать основой для конкретного ИДО или системы ИЕН различной сложности, а также возможно ее использование для совершенствования существующих методик индексирования информационных документов и запросов, так как она позволяет в значительной степени формализовать интеллектуальный процесс выбора ключевых слов в целом ряде ИГО при ручном индексировании и тем самым повысить эффективность функционирования этих систем.

Одной из важных задач, поставленных в нашей стране в связи с созданием ГАСВДИ, является задача построения системы взаимосвязанных информационно-поисковых тезаурусов. Решению данной проблемы может послужить предлагаемая модель системы знаний» позволяющая разработать на ее основе рубрикатор такой системы тезаурусов, обеспечивая минимальное дублирование дескрипторов в различных категориях и совместимость построенных по предлагаемым принципам словарей.

Принципиальная структура модели была использована при разработке политематической отраслевой АСНТЙ В/О "Союзсельхозтехника" для построения схем индексирования документов и запросов, а также положена в основу структуры политематического информационно-поискового тезауруса

В качестве дополнительных возможностей практического использования предлагаемой модели системы знаний можно назвать такие, как создание классификационной схемы объектов исследования в науке и технике» классификация наук по их предмету, исследование знаний о способах, средствах и методах деятельности человека, построение модели накопления знаний системой автоматов и решение других проблем, связанных с логико-методояогическим исследованием науки

Содержание первых двух глав настоящей работы посвящено обоснованию основных принципов моделирования семантической структуры научно-технических текстов для автоматизированных систем научно-технической информации на основании анализа особенностей текста и его семантики как объекта моделирования (глава I), анализа процесса поиска информации как задачи, для решения которой разрабатываются способы представления семантики текстов, а также краткого рассмотрения существующих направлений в решении проблемы представления знаний для информационных систем (глава II).

В качестве способа реализации сформулированных принципов предлагается способ моделирования семантики научно-технических текстов. Глава Ш посвящена описанию этого способа и возможностей его применения в практике создания ИЩ. Приложения к работе иллюстрируют содержание Ш главы. 

Определение текста и основной принцип моделирования его семантики

Ситуация, исходная для конкретного режима поиска,получается путем комбинирования всех или части приведенных на схеме блоков (I) - (8).

Каждый из блоков представляет собой некоторую модель действительности того или иного уровня. В блоках (4) и (8) знание представлено в закодированном виде, т.е. в записи на искусственном языке (ИПН), специально предназначенной для этой дели. В идеале при поиске информации следовало бы сравнивать блоки (I) и (5), что невозможно, по крайней мере на современном этапе. В силу сложившихся обстоятельств в процессе поиска информации человек имеет дело с текстами информационных документов - блок (6). При участии в поиске посредника между потребителем информации и информацией - например, информатора - запросы выступают также в виде текстов - блок (2). При поиске без посредника практически сравниваются блоки (I) и (7), причем последний строится в мозгу потребителя информации, а при участии посредника сравниваются блоки (3) и (7), которые строятся в мозгу последнего.

При использовании в качестве посредника ЭВМ, т.е. в автоматизированных ИГО, происходит сравнение блоков (4) и (8), в которых, в принципе, должны быть отображены соответственно блоки (I) и (5). При переходе от блока к блоку по стрелкам, изображенным на рис.1, происходят различные, в том числе и нежелательные, трансформации передаваемых знаний (информации) х. Специфичный для автоматизированных информационных систем переход от блоков (3) и (7) 3af соответственно, к блокам (4) и (8) или от блоков (2) и (6) непосредственно к блокам (4) и (8) при автоматическом индексировании зависит от принятого в поисковой системе ШЯ и методики индексирования. При этом особый интерес представляет свободное, интуитивное выявление ключевых слов человеком-индексатором и соответствие такого метода, демонстрирующего естественную мыслительную деятельность человека по выявлению основного содержания документа или запроса, различным формальным методикам.

Однако закономерности процесса индексирования человеком, насколько нам известно, почти не изучены. Можно указать, пожалуй, только работу /Сахарный, 1969/. Как будет показано в П.2, не существует и такого теоретического обоснования имеющихся методов индексирования, который ставил бы своей целью обеспечение адекватности блоков (I) и (4), а также блоков (5) и (8) при указанной последовательности переходов.

Недоразумение, подчеркиваемое в работе /Полушкин, 1973/ и заключающееся в том, что документ и запрос непосредственно не связаны во время поиска, оказывается еще более глубоким: истинная информационная потребность, имеющаяся в сознании потребителя информации не может быть сориентирована в том фрагменте системы знаний, который отображен в тексте документа. Определение соответствия документа запросу в информационных системах, в сущности, не имеет под собой в качестве основы определения, измерения соответствия между запросом и ПОЗ и между документом и ПОД, а также, что самое важное, между истинной информационной потребностью и знаниями, отображенными в тексте..

В результате возникает ситуация, когда отчужденный от действительной информационной потребности специалиста запрос, а точнее - его поисковый образ сравнивается в ИІС с поисковым образом документа, отчужденного от системы знаний его автора. При этом "критерий соответствия и определяемый им процесс поиска отчуждается от характерного для человека способа сопоставления этой потребности с информационным документом" /Соколова, іарма-ковский, 1975, с.245/. В связи с этим проблема эффективности автоматизированного поиска информации, а именно: его релевантности и, в особенности, пертинентности не может быть решена.

В результате анализа схемы ситуации, исходных для различных режимов поиска информации определилось место и роль моделирования семантики научно-технических текстов в связи с автоматизацией информационного поиска. Что касается стратегии поиска информации, определяемой КОС, то ее разработка должна также основываться на анализе основных характеристик соответствующих процессов, осуществляемых человеком, а именно: общих закономерностей поиска информации человеком, что, в свою очередь, связано с проблемами речевой коммуникации вообще, коротко рассмотренными также в главе I.

Стремление проникнуть в сущность процессов поиска информации человеком для решения таких ключевых проблем информационного поиска, как индексирование, адекватное выражение информационной потребности, определение смысловой эквивалентности двух текстов /Михайлов и др., 1968/, обусловлено принципиальной необходимостью исследования человека и человеческой деятельности как прототипов систем "искусственного интеллекта".

Автоматизация хранения и поиска информации как задача, в целях решения которой ставится проблема моделирования семантики текетов, определяет следующие основные принципы моделирования.

В СемВД необходимо включать прежде всего те составляющие семантики текста, которые потенциально представляют собой информацию для какого-либо типичного потребителя в информационной системе, а в СемПЗ - полные сведения об информационной потребности.

"Система знаний" и семантическая структура текста. Глубинно-семантическое представление текста

Интересна работа /Шуберт, 1975/, в которой показана близость линейного представления знаний (например, исчисления предикатов) и представления в виде семантической сети» дается предикативное представление суждений, записанных в виде сети .

Все многообразие фиксируемых в семантических сетях отношений делится /Попов, Фирдман, 1976/ на 4 класса: лингвистические (это в первую очередь глубинные падежи, в частности глубинные ПадеЖИ Ч.ФИПЛМОра / Fillmore , 1968 б/, / Fill«ore , 1969/, / Fillmore , 1971/, /Арутюнова, 1973 в/, логические (операции исчисления высказываний), теоретико-множественные (отношения части и целого, подчиненности и т.д.), кванти$ика-ционные отношения (кванторы, числовые характеристики /Шенк, 1975/, /Хендрикс, І975/Л

В современных исследованиях по представлению знаний довольно широкое распространение получили так называемые " frames ", / Miasky , 1974/, / Miasky , 1975 а,б/, переводимые либо как Ситуационные рамки" /Нерпова, 1976 б/, либо "скелеты" /Попов, Фирдман, 1976/. Ситуационные рависи имеют вид семантической сети и используются для иерархического представления стандартных.» стереотипизированных ситуаций действительности. Система рамок, связанных между собой, описывает более сложные ситуации. Различаются динамические и статические рамки /Перцова» 1977 а/. Динамические ОПИСЙВавЗТ Последовательность СОбЫТИЙ / Schank , 1975 б/, / Chamiak , 1975/, / Rieger , 1975/. статичєєкиє рамки описывают состояния / Winograd , 1975/, / Scragg , 1975/. Использование тех и других видов ситуационных рамок связано с необходимостью подробного описания ситуаций действительности. Почерпать элементы и отношения, составляющие даже простейшие из ситуаций, оказывается задачей чрезвычайной сложности, в связи с чем системы, основанные на динамических или статических рамках "предполагают строгие ограничения на характер проблемной среды, касающиеся самой ее структурі, которая всегда оказывается чрезмерно упрощенной" /Кокув, 1974, с.25/. В качестве "мира системы" выступают, например, сведения о студентах университета /Коен и др., 1975/, /Майлопулос, 1975/, ситуация посещения ресторана /Шенк, Абельсон» 1975/, ситуации из детских историй / Cfearniak , 1973/, / Chamiak , 1975/, / /Kegel,sail , 1975/, совокупность простейших геометрических тел / inograd , 1971/, / Kuipers t 1975/ И Т.Д. С проблемой автоматизации информационных процессов описанные СИСТемы Сближает ПОИСК Общей Теории ЗНаНИЯ / Chamiak , 1973/, признание в качестве необходимого условия положительного результата восприятия текста системой наличия в ней энциклопедических сведений о мире, развитие "идеи семантического представления отдельных кусков "фактического знания" в вычислительной машине" /Черконе, Шуберт, 1975, в«2Д77/, соединение смыслового и референциального анализа Текста / Kegel , Sail , 1975/, решение задач выдачи системой ответов на поставленные вопросы и т.д. Непосредственное применение в ШС находит и ведущая идея работ о ситуационных рамках: энциклопедическую информацию следует описывать с помощью иерархически упорядоченных структур /Перцова, ЮТ а/. Можно также считать, что представление знаний в любой ШС есть не что иное, как семантическая сеть в ее широком понимании й. Вероятно, справедливо было бы считать, что информационные языки, использующие представления знаний в виде ситуационных рамок, обладали бы исключительной семантической силой. Однако достаточно вообразить себе задачу описания всех ситуаций в науке, технике - и станет ясной невозможность практической реализации таких ШС, по крайней мере, в ближайшем будущем 5. Простейшей попыткой создания исчисления возможных для данной тематической области ситуаций являются ИЕН типа Стандартных фраз" /Васильева, 1976/, создаваемые также для относительно узких тематических областей таких строго описанных наук, как биология. Один из возможных подходов к описанию сведений о действительности для автоматического понимания текста, основанный на применении представлений ситуаций с использованием статической и динамической информации, описан в работе /Перцова, 1977 а/. Этот способ в некоторой степени расширяет возможности применения представлений ситуаций путем введения определенного способа структурирования знания. Именно способ структурирования знаний (и статического и динамического), остается главным открытым вопросом в задачах их представления для систем искусственного интеллекта. Эта проблема неразрешима без определения видов знания и тшов предъявляемых системам задач, связанных с использованием знаний: "Знание -потенциально громоздкая вещь, так что то, что мы должны сделать,-это определить существующие типы знаний и найти, как их применять" /Шенк, Абельсон, 1975, с.6 ,19/.

Таким образом, для решения задач автоматизации информационных процессов в первую очередь необходима разработка теорий относительно способов организации знаний, адекватных проблеме..

Такое ограничение на условия задачи (исходную ситуацию) информационного поиска связано и с технической трудностью полной семантической обработки текстов - недостаточным объемом памяти современных ЭВМ для оперирования семантической информацией, которую "следует измерять скорее астрономическими масштабами, а не нашими земными" /Мастерман, 1964 а, с .200/.

Следует добавить, что проблема инвентаризации способов организации знанні (элементов и отношений) лежит в русле общей лингвистически обоснованной стратегии построения информационных языков, материальной основой построения которых "должно быть адекватное перечисление (инвентаризация) семантических объектов естественного языка" /Городецкий, 1976, с.27/.

Содержание научно-технических текстов и модель системы знаний

Содержание текстов информационных документов представляет собой, как правило, описание научного исследования, технической разработки или их результатов, описание применения тех или иных средств или способов. В них отражается познавательный процесс, реализуемый в науке и технике в виде научных исследований, технических разработок и т.д.

В последние годы вопросам логики научного исследования уделяется большое внимание. В большинстве работ, посвященных данному вопросу, в качестве основных элементов содержания научно-технического исследования или разработки выделяются изучаемый объект с его свойствами и результаты исследования или разработки, представляющие собой найденные средства, методы, способы решения научно-технической задачи .

В упрощенном виде схему процесса познания такого рода можно изобразить следующим образом: научная или техническая проблема + недостаточность средств ее решения научное исследование, технико-конструкторская разработка, проверка на практике — полученные средства, методы решения проблемы. Основной интенционной характеристикой текстов научно-технического содержания является отражение в них стремления автора передать адресатам полученные или прогнозируемые результаты исследования или технической разработки, анализа практического опыта и т.д. (это можно рассматривать как коммуникативное задание). Результаты могут быть описаны в следующих основных аспектах: - описание существующей научно-технической проблемы (первая составляющая схемы процесса познанш), структуры объекта мышления (см. выше о "структурных" проблемных ситуациях), причем объектом мышления и описания в таких случаях может стать предмет, процесс, характеристика, явление, состояние, характеризующие их или влияющие на них объекты (характеристики, составляющие, явления и т.д.), а также желаемые средства, способы решения проблемы (идеальный образ предмета потребности); - описание результата решения проблемы (третья составляющая схемы): средств, методов, их характеристик, состояний, сопутствующих им явлений, их составных элементов, связанных с ними отрицательных явлений (при этом необходимо и описание самой проблемы) . В случае использования в процессе решения научно-технической задачи обычных методов разработки, исследования, проверки результатов на практике, их описание не является обязательным в тексте документа (вторая составляющая схемы). Применение новых способов и средств исследования, разработки, практической проверки означает как бы порождение новой схемы процесса познания внутри основной для данного документа. Например: проблема проведения исследования + недостаточность существующих методов (= познавательная ситуация)—- поиск методов полученные методы (новый теоретический аппарат, использование методов, ранее не применявшихся в данной сфере, и т.д.). в этом случае вторая составляющая основной для данного текста познавательной схемы специально рассматривается по схеме, где описание производится по тем же двум указанным аспектам. Собственно говоря, необходимость отыскания методов, средств исследования, разработки можно рассматривать как "следующую" научно-техническую задачу, возникшую при решении основной проблемы. Таким образом, в подобного рода документе мы имеем просто описание решения задач двух "уровней" или "слоев", если обратиться к терминологии СНЗ. В одном и том же документе, вообще говоря, может быть описано несколько уровней задач, а также две или более параллельных задачи.

Проведенный в таком плане анализ общей структуры смыслового содержания научно-технических текстов позволил предположить, что выделяемое в качестве основополагающего для построения СНЗ отношение "предназначения" и связываемые им элементы системы знаний образуют основу этого содержания.

Объекты мышления, описываемые в информационном документе, называют обычно объектами рассмотрения. Среди взаимосвязанных элементов знаний, являющихся объектами рассмотрения в документе, можно выделить так называемый "основной объект рассмотрения". Считается, что его определение в конкретном тексте, как правило, трудностей не вызывает /Полушкин, 1966/. В одном тексте может оказаться несколько основных объектов рассмотрения, именно такие элементы служат в СНЗ отправными точками при расположении элементов модели содержания текста в соотвествующих слоях: в первую очередь определяется местоположение в СНЗ основного объекта, а затем - всех связанных с ним элементов знаний, извлеченных из текста информационного документа (см. Ш. 2. 3.).

Процесс построения фрагментов СНЗ для текстов и образование гипертекста

Объем настоящей работы не позволяет подробно описать конкретные отношения между цепочками. Однако, без рассмотрения хотя бы наиболее типичных для научно-технических текстов отношений нельзя дать полного представления о структуре СНЗ. В связи с этим в Приложении 2 приводятся основные отношения между цепочками, выявленные в исследованном массиве текстов, некоторые замечания по поводу их особенностей и типичные примеры. Отношениям поставлены в соответствие предикаты (Р12 и т.д.); в целях обеспечения большей наглядности описания для примеров даны их графические представления.

Перечень приведенных в Приложении 2 отношений между цепочками может быть расширен в конкретных ИПЯ, основанных на СНЗ, при соблюдении основных принципов ее построения,

От цепочек, находящихся в одном из синтагматических отношений (например, "нахождение внутри", "следование во времени", "следование в пространстве" и т.д.), необходимо отличать цепочки, в основе евяз" между которыми лежит какое-либо отношение типа "подчинения" (Р4,Рг,) между входящими в них элементами одной категории ("часть - целое", "род- вид", "действие - операция"). Возьмем цепочки А и В. Если а А, в Ви верно Л&,в) или P Bja), причем айв принадлежат одной и той же категории, то цепочки называются "параллельными" . В параллельных цепочках может быть более одной пары таких элементов, и, кроме того, другие общие элементы. Параллельные цепочки могут получаться в результате обязательного дублирования цепочек в соответствии с требованиями СНЗ. Примеры параллельных цепочек приведены в Приложении 2. Над двумя или более цепочками может производиться какая-либо операция (например, сравнение, замена). В СНЗ такая операция фиксируется путем введения в СемПТ соответствующего элемента - "процесса" (например, сравнение, замена) и использования к- местного предиката Рц(х, р ... ), где 2. Приведенная запись читается следующим образом: "Элемент х является операцией над цепочками, в которые входят, соответветственно, j, ..., к » причем элементы непосредственно подвергаются данной операции". Главным в комплексе цепочек может быть и само отношение (см. Приложение 2; например; "влияние", "зависимость"). В таком случае место аргумента предиката PJQ(X) занимает соответствующий предикат. Операция над цепочками также может быть главной в комплексе. При графическом изображении комплекса цепочек его главный элемент подчеркивается двумя чертами, в том числе и помета, изображающая номер отношения, если само отношение является главным в комплексе. Ниже дается подробное описание каждой категории элементов СНЗ отдельно и отношений, в которые вступают элементы каждой категории. 2.2.10. Описание категории "предметы". Выше (см.III.2.2.1.) для категории "предметы" было дано достаточно общее определение. Нижеследующее описание данной категории должно уточнить представление о ней. "Предметы" выделяются в отдельную категорию как множество "самостоятельных сущностей" в противоположность "признакам", к ко торым относятся "свойства, отношения, действия, состояния, характеристики и т.п., т.е. все то, что не относится к числу самостоятельных сущностей, а лишь присуще чему-то другому" /Сусов, 1974, с.16/. Употребляемое в этом смысле понятие "предметы" следует отличать от понятия "предмет мысли" или "предмет познания" (см., например, /Войшвилло, 1967/, /Левин, І974Д для обозначения которых будем использовать термин "объект" ("объект мысли" войшвилло, 1967/, "объект рассмотрения" в информационном документе, "основной объект рассмотрения"). К "предметам" относятся в СНЗ в основном следующие элементы: материальные объекты (например, машина, груз, дерево, кролик, потолок, кадры, текст, чертеж): части материальных объектов или наименования места на них, пространства внутри них (например, выступ, поверхность, отверстие, виток, покрытие (материал): идеальные объекты, теоретические конструкты (например, математика, методика, интеграл, формула, информация, понятие, идея, теория, наука); совокупности материальных или идеальных объектов (например, система, коллектив, ворох, пучок, комплекс, партия (грузов), стая); общественные установления (страна, отрасль, организация (учреждение), министерство); материалы, вещества, агрегатные состояния и т.п. или формы материала, вещества (например, медь, цемент, пленка, раствор, плазма, заполнитель, порошок). Формы существования, представления материальных или идеальных объектов (например, тюк, кривая (линия), валок, сюда же можно отнести: выступ, виток, порошок, пленка). Эти объекты являются материальными или идеальными объектами, но отличаются от них, как и совокупности, сходством с характеристиками, так как они не только называют материальные или идеальные объекты, но одновременно определяют их форму или форму их совокупности.

Похожие диссертации на Моделирование семантической структуры текстов научно-технического содержания в связи с автоматизацией информационных процессов.