Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Исследование и разработка теории и методики построения тезаурусов для информационного поиска в полнотекстовых базах данных : На примере тезауруса по безопасности инженерных систем Жмайло Светлана Васильевна

Исследование и разработка теории и методики построения тезаурусов для информационного поиска в полнотекстовых базах данных : На примере тезауруса по безопасности инженерных систем
<
Исследование и разработка теории и методики построения тезаурусов для информационного поиска в полнотекстовых базах данных : На примере тезауруса по безопасности инженерных систем Исследование и разработка теории и методики построения тезаурусов для информационного поиска в полнотекстовых базах данных : На примере тезауруса по безопасности инженерных систем Исследование и разработка теории и методики построения тезаурусов для информационного поиска в полнотекстовых базах данных : На примере тезауруса по безопасности инженерных систем Исследование и разработка теории и методики построения тезаурусов для информационного поиска в полнотекстовых базах данных : На примере тезауруса по безопасности инженерных систем Исследование и разработка теории и методики построения тезаурусов для информационного поиска в полнотекстовых базах данных : На примере тезауруса по безопасности инженерных систем Исследование и разработка теории и методики построения тезаурусов для информационного поиска в полнотекстовых базах данных : На примере тезауруса по безопасности инженерных систем Исследование и разработка теории и методики построения тезаурусов для информационного поиска в полнотекстовых базах данных : На примере тезауруса по безопасности инженерных систем Исследование и разработка теории и методики построения тезаурусов для информационного поиска в полнотекстовых базах данных : На примере тезауруса по безопасности инженерных систем Исследование и разработка теории и методики построения тезаурусов для информационного поиска в полнотекстовых базах данных : На примере тезауруса по безопасности инженерных систем Исследование и разработка теории и методики построения тезаурусов для информационного поиска в полнотекстовых базах данных : На примере тезауруса по безопасности инженерных систем Исследование и разработка теории и методики построения тезаурусов для информационного поиска в полнотекстовых базах данных : На примере тезауруса по безопасности инженерных систем Исследование и разработка теории и методики построения тезаурусов для информационного поиска в полнотекстовых базах данных : На примере тезауруса по безопасности инженерных систем
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Жмайло Светлана Васильевна. Исследование и разработка теории и методики построения тезаурусов для информационного поиска в полнотекстовых базах данных : На примере тезауруса по безопасности инженерных систем : диссертация ... кандидата технических наук : 05.13.17.- Москва, 2005.- 217 с.: ил. РГБ ОД, 61 05-5/3926

Содержание к диссертации

Введение

1. Проблема точности и полноты информационного поиска. Определение информационно-поискового тезауруса 10

1.1. Проблема точности и полноты информационного поиска в современных базах данных с неограниченным объемом 10

1.1.1. Некоторые основные определения информатики 10

1.1.2. Задача повышения эффективности поиска научно-технической информации в сети Интернет 14

1.1.3. Опыт исследования эффективности поиска научно-технической информации в сети Интернет 18

1.1.4. Возможности повышения эффективности поиска научно-технической информации в сети Интернет с помощью информационно-поискового тезауруса 28

1.2. Понятие информационно-поискового тезауруса 33

1.3. Динамика публикаций по теме «Информационно-поисковый тезаурус» 43

1.4. Обзор некоторых современных информационно-поисковых тезаурусов 46

2. Информационный поиск как психолингвистический процесс. Тезаурус как логико-психолингвистическая модель области знаний 54

2.1 .Тезаурус как логико-лингвистическая модель предметной области, или база знаний 54

2.2.Информационно-поисковый тезаурус как психологическая модель репрезентации знаний 59

2.3. Понятия парадигматики и синтагматики. Парадигматика в ИПТ 62

2.4. Лексическое значение 68

2.5. Информационный поиск как психолингвистический процесс 73

3. Парадигматические отношения как тип ассоциативных отношений ... 81

3.1. Понятие ассоциации. Языковая ассоциация 81

3.2. Лексические единицы ИПТ и методика их выделения и отбора 86

3.3. Ассоциативные и парадигматические отношения между лексическими единицами в языке и тезаурусе. Инвариант смысла в парадигме и прототип категории 91

3.4. Типы ассоциативных отношений в текстах и моделирование их в информационно-поисковых тезаурусах 97

3.5. Типы лексико-семантических ассоциативных отношений с точки зрения типов взаимодействующих лексических значений 103

3.5.1. Лексико-семантические ассоциативные (парадигматические) отношения условной эквивалентности с точки зрения связи типов лексических значений 106

3.5.2. Иерархические лексико-семантические ассоциативные (парадигматические) отношения с точки зрения связи типов лексических значений 120

3.5.3. Другие типы лексико-семантических ассоциативных (парадигматических) отношений с точки зрения связи типов лексических значений 128

3.5.4. Краткие выводы 134

4. Опыт построения фрагмента информационно-поискового тезауруса по безопасности инженерных систем 136

Заключение 148

Список литературы

Введение к работе

Актуальность исследования. В последние годы проблема поискового «шума» и, соответственно, точности информационного поиска перестала быть проблемой профессионалов, превратившись в предмет дискуссий в самых разных сферах общественной жизни. Интернет и современные средства коммуникации, наряду с неоспоримыми преимуществами прямого обращения пользователя к искомой информации, породили массу сложных вопросов и явлений. Ученые заговорили об информационной экологии [73, 82]. «Информационный смог» непрерывно влияет на наш сон, внимание и даже на иммунную систему. Приведем некоторые данные, опубликованные американскими исследователями [82, 47].

• За последние 30 лет в мире произведено больше информации, чем за предшествующие 5000 лет.

• В мире ежедневно записывается около 20 миллионов слов технической информации.

• Средний менеджер прочитывает за неделю до 1 млн. слов.

• В мире ежедневно выходят в свет около 1000 наименований новых книг.

• Ежегодно в США публикуется более 9000 периодических изданий.

• Ежегодно в американских почтовых ящиках оказывается более 60 миллиардов рекламных листков.

• Еженедельное издание New York Times содержит больше информации, чем прочитывал за всю свою жизнь средний англичанин в 17 веке. Преимущества «эры информации» не бесспорны. Появился целый ряд новых терминов, связанных с современным состоянием системы «информация - коммуникационная среда - человек»: информационная перегрузка (information overload), информационное ожирение (information obesity), перепроизводство информации (information overproduction), инфобиологическая неадекватность (info-biological inadequacy) [44].

Последний термин означает несоответствие объема поступающей извне информации тому объему, который может воспринять центральная нервная система человека. Новейшим явлением представляется так называемый «синдром информационной усталости» (information fatigue syndrome) [44, 80], связанный с невозможностью человека справиться с непрерывно возрастающим объемом информации.

Несмотря на появление новых способов создания, обработки, хранения и поиска информации для потребителя проблема доступа к информационным ресурсам и получения релевантных документов обострилась. Это связано как с неограниченным ростом информационных массивов и распространением полнотекстовых баз и банков данных, так и с отходом от лексико-семантического принципа при информационном поиске. В условиях работы с банками данных неопределенных, фактически неограниченных, размеров проблема полноты информационного поиска практически снимается с повестки дня. Зато все острее встает вопрос о точности информации, ее ценности, адекватности потребностям. Исследование возможностей разных поисковых систем и разработка новых методик поиска информации в больших массивах данных - тематика ежегодных международных конференций TREC (Text REtrieval Conference), проводимых Национальным институтом стандартов и технологии (National Institute of Standards and Technology) США. Основное место на конференции TREC занимают доклады по методам автоматического ранжирования найденных документов, разработке критериев эффективности информационного поиска в разных системах, способам достижения наилучшего соотношения полноты и точности информационного поиска [72]. По нашему мнению, для решения последней задачи эффективным может оказаться семантический фильтр — информационно-поисковый тезаурус (ИПТ), или его современный вариант -семантическая сеть.

Поиск по неконтролируемому словарю приводит к гигантским размерам выдачи, колоссальному информационному шуму и потерям релевантных документов. На основании проведенных нами исследований [14] можно утверждать, что точность словарного информационного поиска в разных машинах составляет в среднем 10%. При этом поиск научно-технической информации по ключевым словам в ресурсах Интернет без выявления и использования парадигматических (иерархических и синонимических) отношений между терминами дает в 3,3 раза меньше пертинентных результатов, чем информационный поиск по тем же ресурсам с использованием выявленных парадигматических отношений, то есть для повышения качества поиска необходимо создание тематических тезаурусов, которые помогали бы пользователю при формулировке поискового предписания. В то же время поиск по логическим категориям в ресурсах Интернет ведет к потере значительной части релевантной информации, что объясняется ошибками автоматического индексирования и рубрицирования из-за несовершенства соответствующих классификаторов и каталогов, которые должны представлять собой модели областей знания, то есть являться, по сути, информационно-поисковыми тезаурусами. Таким образом, ИПТ актуальны как для словарного, так и для логического поиска в Интернет как средство формирования поисковой потребности, формулирования поисковых предписаний и адекватного автоматического индексирования и классифицирования.

Цель исследования: разработка теории и методики создания современных информационно-поисковых тезаурусов как средств повышения эффективности информационного поиска в Интернет. В качестве объекта анализа выступают тексты научно-технических публикаций в сфере безопасности инженерных систем.

Общая цель исследования конкретизируется в виде следующих задач:

1. Обоснование проблемы точности и полноты информационного поиска в полнотекстовых базах данных неограниченного объема.

2. Определение функции ИПТ в современных полнотекстовых базах данных.

3. Уточнение понятия информационно-поискового тезауруса применительно к поиску в полнотекстовых базах данных неограниченного объема.

4. Анализ существующих ИПТ и программ их составления и ведения.

5. Представление информационного поиска как психолингвистического процесса.

6. Представление информационно-поискового тезауруса как логико-психолингвистической модели области знаний.

7. Анализ парадигматических отношений между лексическими единицами в текстах и ИПТ различных тематических областей.

8. Типизация парадигматических ассоциативных отношений и определение набора парадигматических отношений для практического информационно-поискового тезауруса.

9. Разработка фрагментов ИПТ по безопасности инженерных систем. Ю.Разработка методических рекомендаций для составителей локальных ИПТ - пользователей Интернет.

Научная новизна исследования заключается в следующем:

1. Впервые информационный поиск представлен как психолингвистических процесс.

2. Впервые информационно-поисковый тезаурус рассматривается как логико-психолингвистическая модель области знаний.

3. Уточнено понятие информационно-поискового тезауруса применительно к поиску в полнотекстовых базах данных неограниченного объема.

4. Определены функции ИПТ в современных полнотекстовых базах данных.

5. Впервые проведен подробный семантико-прагматический1 анализ системы парадигматических отношений применительно к текстам и практическому информационно-поисковому тезаурусу.

6. Предложена типизация ассоциативных (парадигматических) отношений в зависимости от типов взаимодействующих лексических значений.

7. Разработаны методические рекомендации для составителей практических локальных ИПТ - пользователей Интернет.

Задача повышения эффективности поиска научно-технической информации в сети Интернет

Задача каждого информационного поиска - снизить «шум» и увеличить выдачу релевантных (а оптимально - пертинентных) документов, то есть обеспечить точность. В 1950-1960 годы британским исследователем С. Клевердоном был проведен ряд экспериментов по сравнительной эффективности поисковых систем с ИПЯ разных типов. Это исследование получило название «Крэнфилдский проект» (по названию местечка в Великобритании, где оно проводилось). С. Клевердон определял коэффициент полноты как выраженное в процентах отношение числа выданных релевантных документов к их общему числу в поисковом массиве, а коэффициент точности - как выраженное в процентах отношение числа выданных релевантных документов к общему числу выданных релевантных и нерелевантных документов: R,.=100A/C, Pr=100A/L, где Rr - коэффициент полноты, Рг - коэффициент точности, А - число релевантных документов в выдаче, С - общее число релевантных документов в поисковом массиве, L-общее число релевантных и нерелевантных документов в выдаче. В результате экспериментов был сделан вывод о существовании обратной зависимости (хотя и не строго формальной) между полнотой и точностью поиска. При этом средний объем выдачи находится в прямой зависимости от общего объема поискового массива. Таким образом, рост поискового массива требует увеличения точности информационного поиска [23, с.313-314]. С появлением баз данных неограниченного объема эта задача приобретает особую актуальность.

Исследование возможностей разных поисковых систем и разработка новых методик поиска информации в больших массивах данных - тематика ежегодных международных конференций TREC (Text REtrieval Conference), проводимых Национальным институтом стандартов и технологии (National Institute of Standards and Technology) США с 1992 года. Основное место на конференции TREC занимают доклады по разработке критериев эффективности информационного поиска в разных системах, способам достижения наилучшего соотношения полноты и точности информационного поиска, по методам автоматического ранжирования отобранных документов. Коллекции текстов, предлагаемые для сравнительного поиска в разных поисковых системах, представляют собой рабочие наборы данных, которые позволяют исследователю определять относительные преимущества разных поисковых стратегий. Коллекции текстов состоят из трех частей: массива документов, массива запросов и заключений о релевантности (relevance judgments). Необходимо, чтобы массив документов был репрезентативным: отражал предметное многообразие, разные литературные стили и виды документов. Обычно коллекция текстов содержит от 500000 до 1000000 документов и имеет объем около 2 гигабайтов.

Различаются формулировки информационных потребностей (участники TREC называют их темами - topics) и собственно запросы в информационную систему. Тема включает в себя четыре раздела: идентификатор, название, описание и подробное разъяснение того, какой документ считать релевантным. Темы формулирует тот, кто впоследствии будет оценивать релевантность. Участники эксперимента вольны в выборе поисковой стратегии и формулировке запроса. Выданные системой документы аккумулируются в массиве (pool) и оцениваются на релевантность автором темы-запроса с учетом предварительно выраженных им самим и ранжированных предпочтений. Это значительно сокращает время оценки по сравнению с тем, как это делали бы независимые эксперты. Обычно объем пула составляет до 1/3 максимально возможного благодаря автоматическому исключению повторяющихся в выдаче документов.

Качество поиска в экспериментах TREC оценивается с помощью пакета программ "tree eval", описывающего 85 критериев, в том числе и на основании соотношения значений полноты и точности поиска применительно к разным объемам эшелонированной выдачи. Однако в информационных массивах большого объема невозможно оценить общее количество релевантных документов, соответственно, вопрос об абсолютном значении полноты поиска снимается. Остаются относительные характеристики: чем больше поисковый массив, тем выше полнота и ниже точность поиска. В интерполяциях авторов TREC точность представляется как функция полноты. Не случайно в выступлениях участников прозвучала ностальгическая нота: «Все мы дети Крэнфилдского эксперимента» [72].

По мнению зарубежных исследователей, существует несколько способов ограничения области поиска и снижения «шума» с помощью «поисковых машин» (search engines) - информационно-поисковых систем, предоставляющих возможность поиска информации на сайтах в Интернете. Большинство поисковых машин используют фразовый поиск или индексы близости-удаленности слов (расстояния между словами), а также возможности булевой алгебры [16]. Ряд машин позволяют пользователям ограничивать поисковые страницы по дате, что дает возможность избежать «мертвых» или устаревших ссылок. В качестве хорошего средства для релевантного поиска называют поиск по категориям [48, с.87], возможный после индексации файлов (сайтов) поисковой системой. Под индексацией сайта понимается включение сведений о сайте (главным образом, ключевых слов) в информационный массив, который впоследствии используется для поиска информации на проиндексированных сайтах. Порядок обхода страниц, частота визитов, критерии выделения ключевых слов определяются алгоритмом поисковой машины. Однако эти алгоритмы, как и методы принятия решений о релевантности выдачи в процессе поиска, держатся в тайне разработчиками поисковых машин, что отнюдь не улучшает результаты поиска для пользователя.

Как еще один способ повышения качества поиска зарубежные авторы предлагают пропускать один и тот же запрос через несколько поисковых машин либо использовать поисковую метамашину типа Copernic-2000 или Searches.com [68, с.421]. По сути дела, вопрос о качестве информационного поиска сводится к проблеме его полноты. Но при поиске в базах данных объемом в миллионы документов именно проблема точности должна выходить на первых план. Это, конечно, чувствуют разработчики поисковых машин. В этом смысле, появление рубрикатора в словарной поисковой машине «AltaVista», как и создание так называемых поисковых метамашин, использующих фонды многих других независимых машин, есть попытка оптимизировать в какой-то степени результаты информационного поиска, дающего немыслимую по объему выдачу и такой же немыслимый «шум».

Сравнительный анализ действующих в сети поисковых машин представлен в [19]. В статье отображены показатели формата выдачи, возможности обращения к различным видам сетевых ресурсов, факторы, влияющие на индексацию, а также объемы ресурсов разных поисковых машин.

Динамика публикаций по теме «Информационно-поисковый тезаурус»

В 1960-1980 годы информационно-поисковые тезаурусы (ИПТ) переживали настоящий бум. Они считались необходимым средством повышения эффективности работы информационно-поисковых систем с дескрипторными языками путем повышения полноты информационного поиска через избыточное индексирование запроса и (или) документа.

В монографии «Основы информатики» [23, с.469-503] авторы подробно рассматривают двенадцать наиболее значимых зарубежных тезаурусов, созданных в 60-70-е годы прошлого века.

В 1971 году была принята программа кооперации между странами ЕС в области научной и технической информации. Европейское руководство для построения тезаурусов "Thesaurus Guide" [74] описывает подробно 462 и кратко 192 тезауруса в разных областях деятельности, действовавших на момент издания (1985 г.) и доступных на одном из официальных языков Европейского сообщества (немецком, французском, английском). Краткое описание нескольких тезаурусов в области информационных и физико-математических наук приведено в [13]. Тезаурусы играли (и продолжают играть) важную роль в организации информационного поиска.

Для своих реферативных баз данных МАГАТЭ издает Тезаурус INIS (International Nuclear Information System) на английском, немецком, французском, русском и испанском языках [74, с.110]. Основные предметные области: ядерная физика, физика высоких плотностей энергии, изотопы, производство и использование радиоактивных материалов, радиационная химия, радиобиология, физика плазмы, термоядерный синтез, ядерные реакторы, переработка ядерных отходов, обогащение руд, ускорители элементарных частиц, контроль над ядерными объектами. Выделены отношения эквивалентности, альтернативные, иерархические (до восьми уровней), ассоциативные. В течение тридцати лет Тезаурус INIS является прекрасно зарекомендовавшим себя, постоянно развивающимся рабочим инструментом. От России активным участником INIS выступает Федеральное агентство по атомной энергии в лице ЦНИИАтоминформ.

Вслед за информационно-поисковыми системами с языками дескрипторного типа стали появляться ИПС с базами данных на естественном языке. В них документы не подвергались предварительному индексированию, а значимые слова с адресами документов, где они встречались, сводились в инверсные файлы [63, с.95]. Исследуя процесс информационного поиска в этих системах, Ф. Ланкастер сделал интересное наблюдение. «Успех поиска в таких системах крайне зависит от поисковой стратегии, т. е. от степени, с какой пользователь может представить все возможные слова, описывающие частные аспекты предметной области документа. На практике обнаружилось, что неблагоразумно и неэффективно нагружать этим тяжелым бременем каждого отдельного пользователя. Обычно строится некий тип «тезауруса», который сводит вместе соответствующие слова и таким образом обеспечивает продуктивный поиск» [58, с. 137-138]. От себя добавим, что все-таки существовали и существуют ИПС с вводом документов на естественном языке и инверсными словарными файлами, для которых не создавались отдельные тезаурусы или их фрагменты. Примером такой системы может служить отечественная ИПС МОДИС (Росатом, ИНИОН). Это именно тот случай, когда «тяжелое бремя» логического соотнесения слов при составлении запросов ложится на пользователей системы. Постоянно, при составлении каждого поискового предписания в сознании специалистов, эксплуатирующих систему, создается виртуальный фрагмент тезауруса той области знаний, к которой относится запрос. Представления эти индивидуальны и вариативны. Поэтому нельзя ожидать от системы одинаковой выдачи при обращении не только к разным, но и к одному и тому же специалисту по одной и той же информационной потребности. Очевидно, что такие системы не рассчитаны на работу напрямую с потребителем информации. Они требуют очень высокой квалификации от обслуживающих специалистов как в области логики и информационного поиска, так и в частных тематических областях. Эксплуатация подобных систем без тезаурусов была и, к сожалению, остается возможной лишь там, где есть избыток дешевой высококвалифицированной рабочей силы. Об этом же говорил и Ланкастер: «Пользователь информационной системы на естественном языке вынужден работать гораздо больше над стратегией поиска, с трудом соотнося свои представления о предметной области с терминологией искомого источника... Но естественный язык не обладает преимуществами над контролируемым словарем, за исключением первичной экономии средств» [59, с. 105].

Таким образом, можно сделать вывод, что идея употребления «естественного языка» в качестве поискового средства является заблуждением со стороны разработчика системы и наивной иллюзией со стороны ее пользователя.

Понятия парадигматики и синтагматики. Парадигматика в ИПТ

Еще в 1983 году G. Salton [69, с.420] отмечал невозможность в обозримой перспективе использования в информационном поиске неформализованного естественного языка. Соотнесение смысла запроса и документа требует экстралингвистических знаний, и, прежде всего, знаний внутри и вокруг той предметной области, в которой осуществляется поиск. Современная когнитивная психология отмечает особую функцию классификации как средства познания: «Общепризнано, что материя состоит из элементов, существующих независимо от непосредственного их наблюдения человеком. Однако то, как эти элементы классифицируются, оказывает огромное влияние на то, как ученые воспринимают физический мир» [29, с.39].

Информационно-поисковые тезаурусы предоставляют пользователю информационно-поисковой системы структурированные фрагменты экстралингвистических знаний через экспликацию парадигматических отношений между лексическими единицами и, соответственно, между обозначаемыми ими понятиями.

Язык, в том числе и искусственный, состоит из структурных элементов двух видов: языковых единиц и отношений между единицами. Отношения бывают парадигматические (или корреляции) и синтагматические (или реляции) [17, с.6-8]. Семантическая структура языка абстрактна, но состав семантических единиц определяет принципы членения текущей информации; корреляции определяют принципы выбора семантических единиц, а реляции - способы соединения единиц в семантические комплексы. Без номинации и экспликации основных типов парадигматических отношений невозможно построение информационно-поискового тезауруса как средства повышения эффективности информационного поиска.

Гипотезы парадигматической и синтагматической организации естественного языка, восходящие к работам Ф. де Соссюра (он говорил об ассоциативных и синтагматических отношениях), занимают заметное место в современной лингвистике. Приложение идей Ф. де Соссюра и Ш. Балли к задачам информатики подробно описаны в [23, с.432-469].

Языковая парадигма на любом уровне языковой структуры представляет собой «совокупность вариантов, объединенных общим для них устойчивым инвариантом и закономерно чередующихся в процессе речевого функционирования языка. Члены одной и той же парадигмы связаны тождеством инварианта и противопоставлены теми или иными различиями. Члены парадигмы избираются говорящим или пишущим в зависимости от коммуникативных задач высказывания, а также структурных свойств членов и парадигмы в целом. Иными словами, члены парадигмы функционируют в речи и вступают в ней в синтагматические отношения. Они существуют в структуре языка и не могут одновременно занимать одно и то же место в потоке речи» [5, с.205]. Парадигматику языка можно определить как «совокупность и систему допускаемых структурой языка вариантов его единиц и категорий - вариантов, из числа которых автор речи на каждом шаге развертывания речи делает выбор лишь одного» [там же, с.218]. Синтагматика языка определяется как «совокупность и система опирающихся на структурные значения языковых единиц их сочетательных возможностей и их реализаций в процессе речи» [там же]. В теории и практике информационного поиска под парадигматическими отношениями понимаются отношения между словами (означающими), которые основаны «на существовании объективных связей между означаемыми, то есть между внутренними, семантическими сторонами слов» [23, с. 443; 38, с.10].

В. Vickery [78, с. 151] отмечает, что лингвистика распознает, по крайней мере, пять видов парадигматических отношений: 1) синонимия - между лексемами, представляющими одну и ту же семему и имеющими сходные ассоциативные ряды; 2) квази-синонимия - между лексемами с большой долей общего семантического компонента, но не совпадающими полностью по объему понятий; 3) дополняемость - между лексемами, семантические компоненты которых взаимно дополняют друг друга; 4) антонимия - между лексемами с противоположным значением; 5) гипонимия - если значение одной лексемы включено в значение другой (объем понятия одной лексемы полностью входит в объем понятия другой лексемы).

В практике информационного поиска, как правило, выделяются следующие типы парадигматических отношений: синонимия, антонимия, родо-видовая связь (гиперонимия и гипонимия), ассоциативная связь (целое - часть, действие - результат, причина - следствие, членство в паре (день и ночь составляют сутки), взаимонеобходимая функциональная связь (ключ -замок), единица - множество (колос - сноп), отношения между частями одного целого и др.) [24, с. 19; 37, с.62].

Типы лексико-семантических ассоциативных отношений с точки зрения типов взаимодействующих лексических значений

В первую очередь рассмотрим систему отношений эквивалентности. Прежде всего, здесь подразумеваются отношения между полными синонимами. Но для обеспечения высокого качества информационного поиска в класс условной эквивалентности в тезаурусе включаются отношения, квалифицируемые как «частичная эквивалентность» (эквивалентность более широкому или узкому понятию), «точная эквивалентности» (отношения типа «то же»), «неточная эквивалентность» (пересечение понятий), «эквивалентность в паре» [49].

Принцип условной эквивалентности предполагает объединение ключевых слов в классы эквивалентности на том основании, что они выражают близкие по содержанию понятия [23, с.404].

Специалисты Американской библиотечной ассоциации определяют 53 типа отношений условной эквивалентности. Анализ списка отношений эквивалентности позволяет выделить следующие их виды: отношения между разными ЛЕ (сюда относятся диалектные, стилистические, в том, числе синонимы-жаргонизмы, произносительные варианты, неоднокоренные синонимы, пары «непатентованное/торговое название», «общеупотребительный/ технический термин», варианты названий для вновь возникающих понятий, а также варианты «стандартизованный/нестандартизованный термин»); отдельно выделяются собственно синонимы (абсолютные, когнитивные, контекстуальные, плезионимы, синонимы по ссылкам, синонимы с одним общим значением) и квазисинонимы (сюда входят антонимы, отношения «выше/ниже», приблизительные синонимы); варианты одной лексемы (орфографические, синтаксические и деривационные). Заметим, что в традиционном языкознании синтаксические и деривационные варианты рассматриваются как отдельные лексемы [52].

Как видно из списка [52], в одном ряду Американская библиотечная ассоциация рассматривает как собственно лексико-семантические (объектные и субъектные), так и синтаксические и деривационные (структурные) отношения условной эквивалентности. Многие из отношений предложенной классификации не представляют, на наш взгляд, интереса с точки зрения обеспечения высокого качества поиска научно-технической информации и не будут анализироваться нами. Это, например, отношения между диалектными, стилистическими, произносительными вариантами слов. Отметим только, что объем понятий, выражаемых такими синонимами, в основном совпадает или почти совпадает. Существует ряд классов условной эквивалентности, характерных именно для английского языка; их мы тоже пока исключаем из рассмотрения. Это условная синтаксическая эквивалентность между именами прилагательным и существительным, между именем существительным и глаголом (в традиционном языкознании такие случаи квалифицируются как омография), инфинитивом и герундием.

Отношения эквивалентности между неоднокоренными синонимами: парами типа «непатентованное/патентованное торговое название» и «общеупотребительный/технический термин», современными терминологическими синонимами-жаргонизмами, вариантами названий для вновь возникающих понятий, а также между установленными, или стандартизированными, и произвольными терминами - представляются важными для обеспечения качества информационного поиска в полнотекстовых научно-технических базах данных. Все эти отношения соотносят разные единицы класса условной эквивалентности с одним и тем же объектом-денотатом и понятием-сигнификатом и основываются на объектно-субъектных лексических отношениях. При этом объемы понятий, выражаемых синонимами, практически совпадают (Рис.3.6).

Похожие диссертации на Исследование и разработка теории и методики построения тезаурусов для информационного поиска в полнотекстовых базах данных : На примере тезауруса по безопасности инженерных систем