Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Терминологический поиск в коллекциях математических текстов Заикин Данила Александрович

Терминологический поиск в коллекциях математических текстов
<
Терминологический поиск в коллекциях математических текстов Терминологический поиск в коллекциях математических текстов Терминологический поиск в коллекциях математических текстов Терминологический поиск в коллекциях математических текстов Терминологический поиск в коллекциях математических текстов Терминологический поиск в коллекциях математических текстов Терминологический поиск в коллекциях математических текстов Терминологический поиск в коллекциях математических текстов Терминологический поиск в коллекциях математических текстов Терминологический поиск в коллекциях математических текстов Терминологический поиск в коллекциях математических текстов Терминологический поиск в коллекциях математических текстов Терминологический поиск в коллекциях математических текстов Терминологический поиск в коллекциях математических текстов Терминологический поиск в коллекциях математических текстов
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Заикин Данила Александрович. Терминологический поиск в коллекциях математических текстов: диссертация ... кандидата физико-математических наук: 05.13.11 / Заикин Данила Александрович;[Место защиты: Казанский (Приволжский) федеральный университет].- Казань, 2013.- 125 с.

Содержание к диссертации

Введение

Глава 1. Обзор литературы 9

1.1. Автоматическое извлечение терминологии 9

1.2. Использование терминологии в поисковых системах 17

1.3. Математически-ориентированные поисковые системы 20

1.4. Поиск по научным статьям 23

1.5. Выводы к первой главе 26

Глава 2. Автоматическое извлечение терминологии 27

2.1. Выбор метода автоматического извлечения терминологии 27

2.2. Автоматическое извлечение терминологии 29

2.3. Словари 32

2.4. Алгоритм автоматизированного построения словарей 32

2.5. Морфологический анализ 33

2.6. Ручное построение словарей 34

2.7. Автоматическое построение словарей 37

2.8. Практическая реализация автоматического извлечения терминологии 48

2.9. Использование контекста для выделения терминологических словосочетаний 50

2.10. Обработка дефисов при выделении специальной лексики 54

2.11. Выводы ко второй главе 55

Глава 3. Организация поиска 57

3.1. Формальная постановка задачи 57

3.2. Архитектура системы 59

3.3. Метаданные статей

3.4. Ранжирующие функции 66

3.5. Формирование XML-файла для Solr 68

3.6. Обработка запроса 69

3.7. Выводы к третьей главе 79

Глава 4. Оценки ключевых характеристик информационно-поисковой системы 80

4.1. Оценки сложности используемых алгоритмов 80

4.2. Оценки качества информационного поиска 93

4.3. Выводы к четвёртой главе 100

Заключение 102

Список литературы

Введение к работе

Актуальность темы исследования. Взрывообразный рост разнообразных публикаций в сети Интернет приводит к тому, что постоянно повышаются требования к информационно-поисковым системам1. Актуальность исследований в области информационного поиска также обусловлена тем, что при поиске информации в сети Интернет число документов, возвращаемых на запрос пользователя, как правило, получается очень большим за счет огромного числа не релевантных документов, попавших в отклик. Например, в работе Чуна отмечается, что Google, фокусируясь на релевантности результатов, мало заботится о числе ответов2.

В последние годы появились многочисленные поисковые сервисы, стремящиеся усовершенствовать поисковые технологии, выходя за рамки стандартного поиска по ключевым словам3. Разработчики поисковых систем стали использовать более сложные модели представления документов для наиболее эффективного использования имеющихся в нём данных. Текст стал рассматриваться как объект со сложной семантической структурой связей4. По этой причине приобретают высокую актуальность исследования, принимающие во внимание семантику текста.

Вышеизложенное позволяет сделать заключение о необходимости проведения исследований по вопросам повышения качества информационного по-

1Roberts L. G. Beyond Moore's Law: Internet Growth Trends // Computer. - 2000. - Vol. 33, no. 1. - P.

117-119.

2Choon H. D., B. Rajkumar. Guided Google: A Meta Search Engine and its Implementation Using the

Google Distributed Web Services // International Journal of Computers and Applications. - Vol. 26. - ACTA

Press, 2004. - P. 181-187.

3Koster С H. A., Seibert 0., Seutter M. The PHASAR search engine // Proceedings of the 11th

international conference on Applications of Natural Language to Information Systems. - Berlin : Springer-

Verlag, 2006. - P. 141-152.

4Egozi О., Markovitch S., Gabrilovich E. Concept-Based Information Retrieval Using Explicit Semantic

Analysis II ACM Trans. Inf. Syst. - 2011. - Vol. 29, no. 2. - P. 8:1-8:34.

иска, основываясь на использовании семантической информации в документе. Одним из направлений подобных исследований является использование специальной лексики предметных областей для улучшения качества поиска5.

Степень разработанности темы исследования. Проблеме семантического математического поиска посвящены работы большого количества исследователей. Работы Дж. Мисутка, Л. Галамбо, М. Кохлзасе, И. Сьюкана, П. Либбрехта, Е. Мелиса, М. Адиля, Х.С. Чонга, С.Х. Кияля, В.Д. Соловьева, A.M. Елизарова, Н.Г. Жильцова, О.А. Невзоровой в значительной мере способствовали развитию данной тематики6' .

Большое внимание к поиску с использованием терминов предметной области в своих работах уделяют Д.В. Джоханссон и Ю.-Х. Лью8. Однако исследования этих учёных были связаны с предметными областями биологии и медицины и не рассматривали математику.

Цели и задачи диссертационной работы: Исследовать возможные модели и методы организации информационного поиска в математических статьях на основании использования специальной лексики предметной области. Изучить влияние дополнительной семантической информации на качество информационного поиска.

Для достижения поставленных целей были решены задачи:

разработка метода автоматического извлечения терминологии для задач информационного поиска;

5Johannsson D. V. Biomedical information retrieval based on document-level term boosting : Ph. D. thesis

/ D. V. Johannsson ; Norwegian University of Science and Technology. - 2009. - 69 p.

eMisutka J., Galambos L. Extending full text search engine for mathematicalcontent // Towards Digital

Mathematics Library. - Brno, Czech Republic : Masaryk University, 2008. - P. 55-67.

7Adeel M., Cheung H. S., Khiyal S. H. Math GO! Prototype of a content based mathematical formula

search engine // Journal of Theoretical and Applied Information Technology. - 2008. - Vol. 10. - P. 1002-1012. 8Liu Y.-H. On the potential search effectiveness of MeSH (medical subject headings) terms // Proceedings

of the third symposium on Information interaction in context. - New York : ACM, 2010. - P. 225-234.

разработка алгоритма автоматической генерации приближения словаря терминов предметной области;

извлечение метаданных и библиографических ссылок статей и их представление в виде связанных данных;

разработка модели информационного поиска с использованием терминологической информации;

построение прототипа системы терминологического поиска, работающего в режиме реального времени на базе полнотекстовой поисковой платформы;

оценка эффективности полученных в ходе исследования алгоритмов.

Научная новизна. Разработана новая модель поиска в научно-технических текстах, опирающаяся на выделение терминов, обеспечивающая более высокую точность, по сравнению с традиционными. Предложен новый метод ранжирования результатов терминологического поиска, основанный на мере близости строк запроса и найденных терминов. Создано программное обеспечение для поиска в коллекциях математических текстов, апробированное на коллекции журнала «Известия высших учебных заведений. Математика».

Исследований по применению терминологического подхода для организации поиска в математических текстах до данного исследования не проводились.

Теоретическая и практическая значимость. Теоретическая значимость исследования обоснована разработанными моделями извлечения предметной терминологии и моделями её использования для организации информационного поиска в текстах соответствующей предметной области. Проведённые сравнения эффективности могут служить основанием для дальнейших исследований в данной области.

Практическая значимость работы заключается в разработке прототипа информационно-поисковой системы на основе построенных моделей и алгоритма поиска с использованием специальной лексики предметной области.

Методология и методы исследования. Исследования проводились в рамках задач автоматического извлечения терминологии и информационного поиска. Организовывались эксперименты, и проводилось сравнение полученных результатов по наиболее важным критериям. Использовались общепринятые метрики сравнения эффективности: точность (Precision) и полнота (Recall).

Положения, выносимые на защиту: В работе получены следующие основные результаты:

  1. Разработан алгоритм автоматической генерации словника предметной области по корпусу статей этой предметной области и общенаучному словнику. Выявлено влияние различных статистических фильтров на автоматическое построение словников. Построена модель выделения многословных терминов с использованием данных словников.

  2. Разработана модель построения информационно-поисковой системы, использующей специальную лексику для улучшения качества результатов поиска. Проведена оценка эффективности этого подхода. Получены оценки сложности алгоритмов.

  3. Разработана метрика ранжирования, базирующаяся на схожести терминологических словосочетаний в тексте и запросе. Проведено сравнение данной метрики с распространёнными метриками ранжирования документов применительно к задаче информационного поиска по корпусу научных статей.

  4. Реализован прототип информационно-поисковой системы для корпу-

са математических статей с использованием разработанных методов и принципов9.

Степень достоверности и апробация результатов. Основные результаты диссертации докладывались на следующих конференциях: Казанская школа по компьютерной и когнитивной лингвистике TEL-2009, TEL-2012 (Казань, 2009, 2012), Интернет и современное общество (Санкт-Петербург, 2010), Научная сессия МИФИ-2011 (Москва, 2010), Системный анализ и семиотическое моделирование SASM-2011 (Казань, 2011), Шестая Российская конференция молодых учёных по информационному поиску RuSSIR-2012 (Ярославль, 2012), Итоговая научная конференция КФУ (Казань, 2010-2012).

Также результаты освещались на республиканском научном семинаре КНИТУ «Методы моделирования», семинарах КФУ «Когнитивное моделирование и компьютерная лингвистика» и «Актуальные информационные технологии».

Публикации. Материалы диссертации опубликованы в 9 печатных работах, из них 3 статьи в рецензируемых журналах в изданиях, рекомендованных ВАК РФ [1, 2], из которых одна включена в реферативную базу данных Scopus [3], 5 статей в сборниках трудов конференций [4-8] и 1 тезис доклада [9].

Личный вклад автора. Все представленные в диссертации результаты получены лично автором.

Структура и объем диссертации. Диссертация состоит из введения, 4 глав, заключения и библиографии. Общий объем диссертации 118 страниц, из них 90 страниц текста, включая 21 рисунок. Библиография включает 120 наименований на 16 страницах.

Математически-ориентированные поисковые системы

Словарный подход к автоматическому извлечению терминологии предполагает существование готовых терминологических ресурсов, например, специализированных словарей. В качестве терминов извлекаются такие слова или словосочетания, которые совпадают с какой-либо записью в одном из имеющихся терминологических ресурсов.

Существенным минусом данного подхода является его низкая чувствительность, так как значительное число терминов может быть не распознано по причине неполноты исходных словарей. Кроме того, все новообразованные термины (неологизмы) неизбежно будут пропущены. Сильнее всего эта проблема заметна для новых областей знания.

Особенностью рассматриваемого подхода является то, что он даёт высокую полноту определения терминов, но при этом значительно теряет в точности. Например, в работе Хиршмана, Моргана и Иеха [33] при использовании базы данных «FlyBase» для автоматического извлечения медицинской терминологии были достигнуты результаты в 84% полноты и 2% точности.

Плохая точность в первую очередь вызвана большим количеством неправильно отобранных терминов-кандидатов маленькой длины, что может быть исправлено соответствующими фильтрами [34]. Boosting Precision and Recall of Dictionary-Based Protein Name Recognition (Yoshimasa Tsuruoka and Jun ichi Tsujii)

Tsuruoka и Tsujii в своей работе [34] рассматривают задачу автоматического извлечения терминологии (названий протеинов) из корпуса медицинских текстов MEDLINE, используя в качестве основы составленный вручную словарь протеинов.

Авторы предлагают усовершенствование стандартного подхода с использованием расстояния Левенштейна [35] путём присвоения различных весовых значений в зависимости от типа изменения строк.

На основании этого сравнения в зависимости от значения функции сравнения слова заносятся в список терминов-кандидатов.

Полученный перечень терминов подвергается фильтрации с использованием Наивного Байесовского классификатора [36]. Алгоритм распределяет термины-кандидаты по классам «термин принят» и «термин отклонён» на основании 5 признаков, основанных на контексте.

В качестве тренировочного множества использовались 200 случайным образом выбранных аннотаций статей, размеченных с использованием онтологии GENIA [37]. Остальные 1800 размеченных статей использовались для оценки качества работы алгоритма.

С различными настройками порога для функции сравнения и наборами признаков для классификатора были получены результаты в 74,3% точности, 70,7% полноты и 70,2% F-меры.

Подходы с использованием поисковых систем

Распространённость и доступность поисковых машин Интернета в наши дни позволяет использовать их в качестве инструмента для автоматического решения других задач.

Специально сформированные запросы к поисковым системам используют 15 ся для получения дополнительной информации, которой нет в исходном корпусе и других источниках информации (словарях, тезаурусах, онтологиях). Как правило, используется следующая информация:

Полученная информация используется, как правило, в сочетании с каким-либо из вышеперечисленных подходов к автоматическому извлечению терминологии.

В исследовании Браславского и Соколова [38] указывается на значительную временную ресурсозатратность методики. В большой степени это связано с ограничениями, которые накладывают сами поисковые системы. Кроме того, точность результатов данного метода сильно зависит от предметной области (насколько контрастным является Web по отношению к рассматриваемому корпусу текстов) и не намного превосходит достигаемую другими методами.

В то же время в работе [39] отмечается очень низкая полнота результатов, полученных системой BootCaT [39], построенной на идее использования запросов к Google для улучшения качества извлечения терминов. 1.1.6. Гибридные подходы

К гибридным относятся подходы, комбинирующие несколько или все из вышеперечисленных методов. Как правило, один из алгоритмов выбирается как основной, а остальные служат как вспомогательные для лучшей фильтрации списков терминов-кандидатов или получения некоторой дополнительной информации.

В работе [40] проводился эксперимент по извлечению двухсловных терминологических словосочетаний на основе комбинирования трех видов признаков. принято различать выделение однословных (униграмм), двухсловных (биграмм) и многословных (n-грамм) терминов как различные задачи. Большинство подходов изначально направлено на обработку именно униграмм и биграмм, так как задача извлечения терминологических n-грамм неограниченной длины является гораздо более сложной задачей [41].

Зачастую задача решается путём нахождения некоторого способа расширения исходных полученных биграмм. Например, система xTract [29] осуществ 17 ляет переход от двусловий к терминологическим n-граммам путем нахождения предложений, содержащих исходную биграмму, с последующим формированием всех возможных для полученных предложений словосочетаний. После чего собирается статистика о встречаемости в коллекции собранных n-грамм и проводится фильтрация по более низкому, чем для исходных биграмм-кандидатов, порогу.

В работе Frantzi и Ananiadou [42] в качестве основной ставится проблема извлечения многословной терминологии произвольной длины. Для решения этой задачи авторами предложены специальные статистические метрики С — value, NC — value отдающие предпочтение более длинным терминологическим конструкциям, но также принимающие во внимание высокочастотные короткие.

Автоматическое извлечение терминологии

Важно отметить отсутствие хороших словарей терминов для многих предметных областей, особенно новых и узкоспециальных. Так, например, не удалось найти ни одного словаря терминов для теории кодирования. Многие словари представляют собой перечень наиболее распространенных терминов с их объяснениями. Можно ожидать, что списки терминов, построенные на основе таких словарей, будут неполными. В словнике энциклопедии [82] можно встретить слова «вывод» и «имя», в то время как термин «среднеквадратичный» не упомянут.

Также следует упомянуть, что рассматривались и языковые словари, например, русско-английский, специализированные на какой-либо предметной области. Однако подобные словари существуют только для достаточно больших областей, например, есть математический русско-английский словарь, но нет таких для отдельных разделов математики. С точки зрения рассматриваемой задачи большим минусом таких словарей является то, что они содержат значительное количество слов общей лексики, которые можно встретить в текстах предметной области. Например, в словарях [83] и [84] встречается слово «предполагать». Уже упомянутый выше в качестве примера термин «среднеквадратичный» отсутствует и в этих источниках.

Задачу автоматизированного построения словарей предметной области предлагается решить за счёт использования некоторого универсального словаря общенаучной лексики. Итоговый словарь псевдотерминов S, приближающий необходимый терминологический словарь Т, генерируется автоматически по коллекции статей как список слов, которые есть в статьях, но их нет в словарях общей лексики и связок. Таким образом, здесь псевдотермин определяется как то, что не является словом общей лексики либо связкой. Можно отметить, что такой подход применим к любой новой предметной области, для которой есть корпус документов, принадлежащих именно этой предметной области.

Построенный словарь псевдотерминов S довольно грубо приближает необходимый терминологический словарь Т. По этой причине рождается задача генерации словаря S = f(S), который приближает словарь Т лучше, чем словарь S: WT(S ) WT(S), где / - преобразование словника S, a WT(S) - некоторая мера близости словаря S к словарю Т. Для решения задачи потребуется определить меру близости w.(-) и разработать преобразование /() порождающее наилучшее приближение словника Т среди всех подобных преобразований:

Сложность подхода заключается в необходимости построения хорошего словаря общей лексики. Множественные ошибки, которые неизбежно возникнут в ходе такой грубой обработки, следует отнести к минусам. С другой стороны, данный метод полностью автоматизирует процесс построения словарей, приближающих словари терминов.

Приведение слов к их первым формам позволяет устанавливать соответствие простым сравнением. Также это значительно уменьшает размер необходимых словарей и индекса, что положительно сказывается на скорости работы системы.

Были рассмотрены свободные морфологические анализаторы текста для русского языка mystem [85] и RML [86]. Обе программы используют один и тот же исходный грамматический словарь А. А. Зализняка, но при этом различные алгоритмы. В качестве рабочего был выбран модуль RML, по причине выдачи большего числа вариантов первых форм слов. Кроме того, RML имеет открытый исходный код, в результате чего возможна модификация модуля, что может быть использовано для упрощения взаимодействия морфологического анализатора с другими модулями системы.

В качестве рассматриваемых предметных областей были выбраны разделы математики: теория кодирования и теория групп. В качестве коллекции для теории кодирования были выбраны статьи из раздела «Теория кодирования» журнала «Проблемы передачи информации» [87], к которым возможен доступ с сайта mathnet.ru. Всего таких статей было 406. Ручная обработка такого числа статей требует больших затрат труда экспертов, поэтому была сформирована небольшая рабочая коллекция размером в 30 статей. Были взяты все статьи за 2004, 2005 года, как относительно свежие и содержащие актуальную на сегодняшний день специальную лексику. Остальные статьи выбирались случайным образом. В результате в коллекции были также представлены статьи 1965, 1973, 1985, 2001 и 2006 годов.

Заполнялись словари итерационным методом на множестве статей данной предметной области. Из каждой статьи предварительно удалялись слова уже входящие в один из словарей, а оставшиеся разбивались вручную экспертом в данной предметной области. Итерационная обработка статей должна была показать динамику роста словарей, а предварительное удаление уже обработанных слов облегчить работу эксперта.

В качестве стартового словаря терминов для теории кодирования был использован предметный указатель книги [88]. Был получен словарь терминов в 410 слов. При последующей обработке статей выбранной коллекции с исходным пустым словарем общей лексики, словарь терминов по теории кодирования был увеличен до 566 слов. При этом был получен словарь общей лексики в 2178 слов.

Метаданные статей

Получение метаданных публикаций возможно путем поиска статей в сети интернет и последующего разбора самих текстов [94]. Однако такой подход ресурсозатратен и не гарантирует качественного результата вследствие ряда сложностей в связи с особенностями именно русскоязычных публикаций [95]. В первую очередь трудности вызывает отсутствие единого стиля оформления информации о статьях в различных сборниках.

Другим источником метаданных статей являются специализированные web-интерфейсы научных коллекций, например mathnet.ru и arxiv.org. Преимуществом источников такого рода является возможность полностью автоматического извлечения необходимой информации, так как она уже извлечена из самих статей.

Множество данных, посвященных научным исследованиям, предоставлены такими известными порталами как DBLP, Citeseer, Arxiv, Google Scholar и др. [96]. Существенным минусом этих данных является их изолированность, заключающаяся в использовании различных форматов представления и отсутствия исчерпывающих ссылок между этими хранилищами.

Инфраструктурой для объединения подобной научной информации является проект Linked Open Data, в рамках которого данные публикуются в открытый доступ в сеть Интернет согласно определенным принципам и оказываются в едином глобальном пространстве [96].

Важно отметить, что за последнее время сообществом Linked Open Data проделана огромная работа по переводу значительного числа структурированных данных о научных публикациях на единую онтологию АКТ Reference Onto-logy [97].

Онтология АКТ удовлетворяет задаче представления библиографически связанной коллекции статей в виде RDF [98]. Кроме самих библиографических ссылок имеется возможность представления большого количества метаданных научных статей, привязки к авторам, конференциям и журналам. Популярность данной схемы в облаке LOD привела к появлению инструментария для работы с данными, представленными на её основе. Например, RKBExplorer предоставляет пользователям данные в удобочитаемом виде [99]. 3.3.1. Получение метаданных из web-интерфейсов научных коллекций

Отметим основные черты web-интерфейсов научных коллекций, которые обеспечивают построение эффективных методов обработки: информация о различных статьях предоставляется в единой разметке, что упрощает её извлечение; данные о статьях представляются как отдельные веб-страницы, что позволяет идентифицировать статьи по http-адресу; библиографические списки, как правило, располагаются на отдельной странице и включают гиперссылки на страницы ресурса, соответствующие цитируемым публикациям (однако не все статьи имеют библиографические списки); дополнительно, некоторые ресурсы предоставляют список статей, которые цитируют рассматриваемую статью.

Разработан алгоритм обработки web-интерфейсов научных коллекций. Алгоритм позволяет извлекать метаданные статей, а также устанавливать ссылочную связность коллекции и формировать ориентированный граф коллекции документов. В данном случае под вершинами графа понимаются статьи, а под дугами - библиографические ссылки между ними. Общая схема алгоритма приведена на рисунке 3.3.

Центральной частью алгоритма является специальный парсер, извлекающий основные метаданные статей (название, авторы, название журнала, номер выпуска, год издания, место работы автора, код УДК и др.) из соответствующих web-страниц. Данный модуль отрабатывает в два основных этапа. Вначале осуществляется фильтрация извлечённых данных (для отбора требуемой информации). На втором этапе извлекаются библиографические ссылки, при этом создаются списки с перечнем исходящих дуг (от цитирующих документов) и списки входящих дуг (к первоисточникам).

Модуль удаления дубликатов проводит проверку полученных списков литературы и сверяет с перечнем уже обработанных страниц, отбрасывая все повторяющиеся идентификаторы.

На вход алгоритма подается список web-страниц для обработки и число итераций. Таким образом, возможны следующие два основных подхода к формированию входного списка адресов и применению данного алгоритма:

1. Полный перечень web-страниц для обработки задается вручную, число итераций устанавливается на единицу, либо другое небольшое значение. Это позволяет явно и просто подавать на обработку интересующие наборы статей. Данная возможность может быть полезной, когда, например, требуется извлечение метаданные статей только одного журнала.

2. Исходный список страниц формируется из небольшого числа статей, ограничение на число итераций не устанавливается. В таком случае алгоритм работает итеративно, на каждом следующем шаге обрабатывая адреса, полученные из библиографических списков статей предыдущей итерации. Если на некоторой итерации перечень адресов для обработки оказывается пустым, то алгоритм завершается.

Оценки качества информационного поиска

Этих двух характеристик обычно достаточно, если система поиска не производит дополнительного ранжирования документов. Если ранжирование документов производится, то нужно оценивать не только общее число найденных релевантных документов, но и на каких местах в выдаче располагаются релевантные документы.

Для определения качества работы ранжирования поисковой системы используется показатель «Точность на уровне п документов» (Precision(n)), который определяется как количество релевантных документов среди первых п документов, деленное на п.

При проведении сопоставления поисковых систем важными условиями соблюдения корректности сравнения являеются идентичность текстового корпуса в индексе, запросов, а также способность обеих систем разрешать данные запросы. Для большинства предметно-ориентированных систем характерно использование некоторого языко-зависимого лексического набора данных (тезаурус, антология, словари). Представленная в данной диссертации система обрабатывает запросы только на русском языке, поэтому её сравнение с поисковиками, не разрешающими русско-язычные запросы, например Zentralblatt MATH 1 и Wolfram MathWorld 2, некорректно.

Подавляющее большинство поисковых систем имеет закрытый исход код и не предоставляет доступа к собственным индексам. Первое не позволяет задать для индексирования выбранный для сравнения текстовый корпус, а второе препятствует дублированию корпуса этого поисковика на представленную здесь систему. По этим причинам неворможно добиться корректности сравнения по признаку идентичности текстов в индексе.

В качестве основания {baseline) для сравнения часто используются свободно распространяемые поисковые системы: Lucene, Sphinx, Solr, Isearch [116, 117]. Сравнение производилось с Apache Solr 4.2.1 [118]. Данные индексирова 1 https://zbmath.org/ http://mathworld.wolfram.com/search/ лись в единое поле стандартного типа text_ru. Использовался стандартный обработчик запросов со связыванием ключевых слов запроса конъюнкцией и максимальным удалением слов равным десяти. Для рассматриваемой предметной области не существует так называемого «золотого стандарта ранжирования». Поэтому сравнение проводилось эмпирически.

В качестве рабочего корпуса выбран архив из 1475 статей журнала «Известия высших учебных заведений. Математика». Все оценки проводились на случайно составленных запросах-терминах, имеющих более одного результата, по крайней мере, в одной из сравниваемых систем. Сравнение качества поиска разработанной системы по запросам, не являющимся терминами, будет лишь напрасной растратой труда экспертов предметной области: программа не разрешает такие запросы и возвращает пустую выдачу. По этой причине при поиске не терминов описанная в данной диссертации система будет хуже полнотекстовой поисковой системы.

При сравнении оказалось, что результаты на однословные запросы были идентичными. Этот факт можно объяснить тем, что обе сравниваемые системы используют одну и ту же базовую поисковую платформу. По этой причине в дальнейшем подобные запросы не рассматриваются.

4Точность оценивалась на 75 запросах с количеством результатов не более 50. Оценка точности работы системы на запросах с более чем 50 статьями в выдаче слишком трудозатратна. Кроме того, пользователи почти никогда не просматривают такое большое число результатов [119].

Точность результатов терминологического поиска равняется 0,878, в то время как полнотекстовый поиск Solr - 0,699. Разница существенная, однако, следует принимать во внимание и особенности методики сравнения. Во-первых, в перечне запросов отсутствует общая лексика, так как терминологический по 96 иск такие запросы не разрешает вообще. Во-вторых, из исследования были исключены однословные запросы, точность результатов на которые, как правило, выше [120].

Довольно часто причиной нерелевантного результата полнотекстовой поисковой системы являлись слова на небольшом расстоянии друг от друга, но из разных контекстов. Например, фрагмент текста «Предлагаемый метод решения спектральной задачи позволяет строить приближенные решения без последующей интерполяции и выбора пробных функций.» был возвращен на запрос «методы интерполяции» и релевантным к последнему не является. Терминологический поиск при разборе этого фрагмента относит слова «метод» и «интерполяция» к различным терминологическим словосочетаниям «предлагаемый метод решения спектральной задачи» и «интерполяции и выбора пробных функций» соответственно.

Общий подход не всегда применим к частным предметным областям. Например, в запросе «пространство над алгеброй» предлог «над» расценивался как стоп-слово и игнорировался при обработке. При этом в данном контексте предлог имеет существенное значение и фрагмент «End(B), когда В — банахово пространство, — банахова алгебра Нот(В, В); 1в — единичный оператор из алгебры End(B);» релевантным результатом не является.

Для оценки полноты результатов с хорошей надёжностью и достоверностью требуется разметка всей коллекции документов на соответствие запросов. Ввиду большого размера коллекции (более 1400 документов) подобная разметка требует вклада большого ручного труда экспертов, что весьма ресурсозатратно.

О полноте можно судить по косвенно: считать, что обе системы вместе обеспечивают 100% полноту результатов. Таким образом, относительная полнота будет отношением числа найденных релевантных документов, к числу релевантных документов найденных обеими системами.

Похожие диссертации на Терминологический поиск в коллекциях математических текстов