Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Методы группировки и структуризации поисковых запросов и их реализация Киселёва, Юлия Евгеньевна

Методы группировки и структуризации поисковых запросов и их реализация
<
Методы группировки и структуризации поисковых запросов и их реализация Методы группировки и структуризации поисковых запросов и их реализация Методы группировки и структуризации поисковых запросов и их реализация Методы группировки и структуризации поисковых запросов и их реализация Методы группировки и структуризации поисковых запросов и их реализация
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Киселёва, Юлия Евгеньевна. Методы группировки и структуризации поисковых запросов и их реализация : диссертация ... кандидата физико-математических наук : 05.13.11 / Киселёва Юлия Евгеньевна; [Место защиты: С.-Петерб. гос. ун-т].- Санкт-Петербург, 2011.- 99 с.: ил. РГБ ОД, 61 11-1/576

Содержание к диссертации

Введение

Глава 1. Методы анализа поисковых запросов пользователей 14

1.1 Модели информационного поиска 15

1.1.1 Векторная модель 16

1.1.2 Вычисление веса слова 17

1.2 Тестовые наборы данных 19

1.2.1 Amazon Mechanical Turk (MTurk) 19

1.3 Метрики качества 20

1.4 Лабораторная парадигма оценки 1.4.1 Метод «общего котла» (pooling) 25

1.4.2 Характеристики котлов 26

1.5 Определение групп пользователей по интересам 27

1.5.1 Персонализация информации 27

1.5.2 Поиск шаблонов в поведении пользователей 28

1.5.3 Выявление групп пользователей 29

1.6 Вероятностные модели на графах 30

1.6.1 Представление графовой модели 31

1.6.2 Ориентированные модели на графах 32

1.6.2.1 Скрытая Марковская Модель (Hidden Markov Model) 33

1.6.3 Неориентированные модели на графах 34

1.6.3.1 Условные случайные поля (Conditional Random Fields) 34

1.7 Word Net 37

Глава 2. Группировка пользователей по интересам 38

2.1 Классификация поисковых запросов

2.2 Метрики для определения близких пользователей 41

2.2.1 Усредненная мера близости (УМБ) 41

2.2.2 Максимизированная мера близости (ММБ)

2.3 Набор данных для эксперимента 43

2.4 «Очистка» данных 44

2.5 Полученные результаты 46

2.6 Выводы 47

Глава 3. Сегментация запросов 49

3.1 Понятие сегментации запросов о продуктах 49

3.2 Обзор существующих методов сегментации запросов 53

3.3 Требования к разрабатываемой системе сегментации запросов 56

3.4 Автоматическое маркирование запросов

3.4.1 Метод составления автоматически промаркированных запросов.57

3.4.2 Словарь брендов, их синонимов и сокращений 60

3.4.3 Уменьшение «разреженности» в обучающем множестве 61

3.4.4 Критерий составления обучающего множества 3.5 Метод для создания «синтетических» запросов 64

3.6 Реализация системы для автоматического составления обучающего множества 3.6.1 Подробное описание реализованной системы 67

3.6.2 Нормализация данных

3.6.2.1 Нормализация базы данных продуктов 69

3.6.2.2 Нормализация запросов 70

3.7 Обучение модели сегментации 71

3.7.1 Модель УСП для сегментации запросов 72

3.7.2 Целевые атрибуты 73

3.7.3 Признаки для модели УСП 75

3.8 Постановка эксперимента 3.8.1 Критерии оценки 77

3.8.1.1 Метрики 77

3.8.1.2 Описание входных данных 79

3.8.1.3 Множество для оценивания качества результатов 79

3.9 Анализ результатов 80

3.9.1 Оценка метода автоматического маркирования запросов .81

3.9.2 Оценка качества для метода сегментации запросов

3.9.2.1 Описание базового метода сегментации запросов 82

3.9.2.2 Описание «улучшенных» методов сегментации запросов 83

3.9.2.3 Выбор порога «уровня доверия» для предсказаний метода сегментации 84

3.9.2.4 Результаты оценки методов сегментации запросов 87

3.10 Выводы 88

Заключение 89

Библиография

Введение к работе

Актуальность темы. Исследованиям в области анализа поисковых запросов уделяется много внимания в последние годы. Этому способствуют многие факторы, среди которых:

общедоступность интернета для пользователей;

увеличение объема полезной для пользователей информации в интер-

нет-пространстве. Данные факторы приводят к тому, что пользователи все чаще прибегают к поиску нужной им информации в интернете, и свои потребности они формулируют в виде запросов с «ключевыми словами» (keyword queries), и, как следствие, объем обрабатываемых поисковых запросов значительно увеличивается каждый год. В результате накапливаются большие по объему журналы, содержащие поисковые запросы пользователей (search query logs). Однако, любые коллекции данных бесполезны, если не существует методики для их анализа.

Запросы пользователей важнейшая для владельцев интернет-ресурсов информация. Так как выводы, полученные путем анализа поисковых запросов, потенциально могут улучшить качество поиска, так как они помогают лучше понять интересы пользователей. И с учетом полученных знаний поисковые машины (search engine) будут показывать наиболее релевантные пользователю документы.

Одной из основных проблем анализа поисковых запросов является неоднозначность (ambiguity) используемых в них слов. Один из классических примеров подобной неоднозначности является запрос "jaguar". В данном случае непонятно, о чем конкретно искали информацию: об автомобилях или о животных. Если же мы обладаем знаниями об интересах пользователя, который ввел неоднозначный запрос, мы легко сможем определить, какого рода информацию он хотел узнать.

Также большое внимание уделяется методам, которые позволяют преобразовывать неструктурированный запрос пользователя с «ключевыми словами» (keyword queries) в структурированный. Основная причина популярности подобных методов заключается в том, что большая часть интернет-данных изначально содержатся в структурированных базах данных. И знание структуры запроса значительно облегчает поиск релевантных ответов. Для обучения модели анализа запросов, которая получает из запроса структуру, необходимо составить обучающее множество, в котором каждый запрос описывается векторами признаков (feature vector) или просто признаками - наборами числовых параметров, отражающих свойства характеристик

запроса. Вектора признаков принимают значения в пространстве признаков. Задав метрику в подобном пространстве, можно сравнивать запросы друг с другом, вычисляя расстояние между соответствующими им векторами. Методики для создания обучающего множества и построения векторов признаков являются ядром любой системы анализа запросов. Качество системы анализа поисковых запросов в основном зависит от выбора обучающего множества и признаков, а также метрик для их сравнения. Традиционным подходом для создания системы анализа запросов является обучение «с учителем» (supervised learning), но данный метод представляется достаточно трудоемким и дорогостоящим, так как требует обучающего множества, составленного вручную.

В последние годы так же были разработаны методы, использующие «частичное обучение с учителем» (semi-supervised learning), которые используют небольшое по размеру обучающее множество на первом этапе обучения, а затем итеративно добавляют наиболее хорошие предсказания, таким образом, расширяется обучающее множество.

В настоящее время существуют огромные объемы данных, которые содержат журналы щелчков пользователей. И естественно предположить, что на основе этих данных есть возможность создать обучающее множество автоматически, без использования работы асессоров, составляющих обучающее множество вручную. Данная концепция получила название обучение «без учителя» (unsupervised learning).

Цели диссертационной работы. Основной целью работы является создание высокоэффективных, с точки зрения качества результата, методов обучения «без учителя» для построения систем анализа поисковых запросов. Для достижения поставленной цели были выделены следующие задачи:

Разработка эффективной метрики, базирующейся на журналах запросов, которая служит инструментом для нахождения групп пользователей, характеризующихся похожими интересами.

Разработка метода для автоматического построения обучающего множества, данная задача обуславливается желанием не использовать дорогостоящие и трудоемкие методы составления обучающего множества вручную. Данный метод в качестве входных данных использует журналы щелчков пользователей (user clicks logs) и базу данных с описанием продуктов (product data base), которые ищут и на которые щелкают пользователи.

Построение эффективных признаков для обучения вероятностной мо-

дели сегментации запросов, которая преобразует неструктурированный запрос в структурированный.

Основные результаты. В работе получены следующие основные результаты:

  1. Метод для группировки пользователей интернета на основе их запросов, основанный на построении метрики для нахождения пользователей со схожими интересами.

  2. Реализованный прототип системы для группировки пользователей по интересам. Эксперименты для оценки достоверности полученных метрик проведены на реальных англоязычных запросах пользователей.

  3. Новый метод для автоматического составления обучающего множества, состоящего из поисковых запросов коммерческого типа, на основе сопоставления журналов щелчков пользователей и базы данных продуктов.

  4. Метод для сегментации поисковых запросов коммерческого типа, обученный на автоматически полученном тренировочном множестве, с возможностью регулировать степень доверия каждого предсказания. На основе этого метода построены вероятностные модели для сегментации запросов.

  5. Реализованный прототип системы для сегментации запросов, работающий на основе категории введенной пользователем и вероятностной модели, построенной в результате обучения.

  6. Проведены эксперименты с системой сегментации запросов на реальных данных и получены высокие экспериментальные оценки полноты, точности предложенного метода.

Научная новизна. Научной новизной обладают следующие результаты работы:

предложенный метод для построения метрики, используемой для нахождения похожих пользователей путем анализа журналов их поисковых запросов;

предложенный метод для автоматического построения обучающего множества, которое используется в процессе обучения вероятностной модели для сегментации запросов;

предложенный метод построения эффективных признаков для модели обучения сегментации запросов, которая преобразует неструктурированный запрос в структурированный запрос;

разработанная система для сегментации запросов, которая обучается «без учителя».

Теоретическая ценность и практическая значимость. Главными причинами внедрения методов анализа поисковых запросов являются:

улучшение качества поиска;

улучшение ранжирования результатов поиска;

структуризация запросов с «ключевыми словами»;

персонализация информации.

Предложенные в работе методы также находят широкое применение в различных областях интернет-индустрии, таких как:

вертикальный поиск. Системы вертикального поиска ориентированы на конкретную область и позволяют осуществлять глубокий поиск именно по данной тематике. Информация об интересах пользователей и знание структуры запроса помогают улучшить поиск.

интернет-магазины, для которых знания об интересах пользователей представляются жизненно важными, так как они стремятся показать пользователю наиболее релевантный продукт.

рекламные интернет компании, для которых знания об интересах пользователей также являются необходимыми, так как они стремятся показать рекламу, соответствующую интересам пользователей, и таким образом избавить пользователей от ненужной и нерелевантной для них информации.

В рамках данной работы был реализован прототип системы сегментации запросов, его эффективность работы была доказана методом экспертной оценки. Этот прототип используется компанией () в качестве инструмента преобразования неструктурированных запросов в структурированные. Также практическую ценность имеет предложенный метод для группировки схожих по интересам веб-пользователей, который основан на журналах их поисковых запросов.

Апробация работы. Основные результаты диссертации докладывались на следующих конференциях и семинарах:

на десятой Всероссийской научной конференции «Электронные Библиотеки: перспективные методы и технологии, электронные коллекции» RCDL 2008, на которой работа была награждена, как лучший студенческий постер;

на PhD Workshop двенадцатой Восточно-Европейской Конференции по Базам Данных и Информационным системам ABDIS 2008;

на Workshop Distributed Intelligent Systems and Technologies proceedings 2009;

на третьей и четвертой конференциях Молодых Ученых при Российской Школе по Информационному Поиску RUSSIR 2009 и RUSSIR 2010, на последней работа была награждена, как лучшая статья;

на двадцатой Международной Конференции World Wide Web WWW 2010;

на семинарах группы исследования методов организации информации при лаборатории исследования операций НИММ.

Публикации. Основные результаты диссертации были опубликованы в работах: 1-6. Статья 1 опубликована в журнале, входящем в список ВАК. Статьи 3 и 6 написаны в соавторстве. В статье 3 соискателю принадлежит идея метода автоматического построения обучающего множества и метод для расширения пространства признаков при построении вероятностной модели для сегментации запросов. В статье 6 соискателю принадлежит идея использования средней и медианной статистики.

Структура и объем диссертации. Диссертация состоит из введения, 3 глав, заключения и списка литературы. Общий объем диссертации составляет 99 страниц машинописного текста. Библиография содержит 73 наименования. Рисунки и таблицы нумеруются последовательно.

Amazon Mechanical Turk (MTurk)

Основным принципом «лабораторной парадигмы» оценки является сравнение различных поисковых систем в одинаковых (контролируемых) условиях. В этом разделе мы вкратце опишем основные принципы метода «общего котла», который на данный момент является наиболее популярным вариантом применения этой парадигмы на практике, материалы которого используются нами далее для проведения оценки.

Формально, «общий котел» (pooling) - это объединенное множество первых N документов из выдачи каждой из систем для данного запроса q (параметр N называется глубиной пула) [41]. Такой «котел» строится для каждого из оцениваемых заданий, и все документы из этого котла в дальнейшем оцениваются асессором, т.е. человеком, который решает, релевантен или нерелевантен данный документ исходной информационной потребности запроса. Отметим, что асессор оценивает документы, не зная, какой системой они были возвращены, т.е. в случайном порядке. Тем самым гарантируется непредвзятость оценки [1].

На основе оценок асессора строится таблица релевантности, содержащая информацию о том, какие документы были признаны релевантными, а какие нет. Используя эту таблицу для каждой из систем, можно вычислить оценки ее эффективности. До тех пор, пока не требуется использование информации о документах за пределами глубины пула, вычисленные оценки не отличаются от тех, что были бы получены при оценке всех документов коллекции. На пример, к этому классу метрик относится оценка точности на заданном уровне.

Поскольку полной оценки коллекции не производится, то точное число релевантных документов в коллекции узнать невозможно. В качестве его аппроксимации используется общее число релевантных документов в «котле». Такой подход позволяет получить аппроксимацию оценки полноты ответа. Поскольку качество результата поиска во многом зависит от конкретного запроса, то вывод о превосходстве того или иного метода делается на основе усреднения по некоторому множеству запросов, представляющему популяцию всех возможных запросов. Отметим, что кроме усреднения абсолютных характеристик качества результата, можно также сравнивать эффективность методов на отдельных запросах и усреднять уже эту информацию.

Теоретически, использование «общих котлов» выгодно, поскольку: Сокращается объем оценки по сравнению с независимой оценкой систем за счет удаления дубликатов. Причем чем больше систем участвует, тем больше «удельная выгода». Строи гея хорошая аппроксимация множества релевантных документов.

Отметим, что, как объем оценки, так и качество аппроксимации зависят от числа систем N и глубины «котла» N . Безусловно, выбор конкретных запросов, как и алгоритмы, используемые в системах-участниках, также влияют на оценку «выгодности». 1.5 Определение групп пользователей по интересам

Необходимость проведения автоматического анализа информации интернета вызвана высокой доступностью огромного количества постоянно пополняющейся информации, а также растущей популярностью веб-услуг среди всех категорий пользователей. Развитие интернета в глобальную информационную инфраструктуру позволило обычным пользователям быть не только потребителями информации, но ее создателями и распространителями. В этой связи для эффективного решения задач поиска, структурирования и анализа в основном хаотично организованной информации в сети предназначено новое направление в методологии анализа данных (Web Mining) [54].

Усредненная мера близости (УМБ)

Данная глава диссертации посвящена разработанному методу для группировки веб-полъзоеателей (web-users grouping) на основе их поисковых запросов (search queries). Каждый пользователь представлен набором его поисковых запросов за определенный период времени. Предполагается, что группы объединяет пользователей со схожими интересами, так как поисковые запросы отражают предпочтения пользователей. Мы предполагаем, что описанные группы, должны удовлетворять следующим свойствам: Группа не должна содержать очень маленькое количество пользователей, так как в этом случае она становится статистически незначимой. Группа не должна содержать очень большое число пользователей, так как в этой ситуации выявление специфических закономерностей становится очень сложным из-за большого числа пользователей, либо же мы получим слишком общие выводы. Группа должна отражать какой-то конкретный интерес, например пользователи, в запросах которых содержится слов «bike» должны быть объединены в группу, интересующуюся велосипедами. Группа должна отражать тематический интерес пользователей, например пользователей, которые ввели запрос «Las Vegas» мы можем отнести к категории «Путешествия».

Для выделения групп были введены две метрики близости между пользователями, которые описаны в данной главе. Задачей представляемой главы является получение единой методики для оценки схожести пользователей интернета и объединения их в группы по интересам.

Анализ поисковых запросов появился одновременно с созданием поисковых систем. Одной из основных его задач — это улучшение работы поисковых машин, а именно выдача пользователю документов, релевантных его запросу. Уже в первых работах [17] по анализу запросов предлагаются основные классы поисковых запросов, а именно: (I) Информационные запросы: значение информационных запросов — это найти описание конкретного вопроса, интересующего пользователя. Контекст запроса может быть разнообразным, включая текст, мультимедиа. Потребности пользователя могут быть достаточно конкретными (узкими) или же напротив очень размытыми. Например, запрос «Великая Отечественная Война» является информационным, так как пользователь хотел узнать информацию о конкретном событии, но достаточно неоднозначным, так как без уточняющих слов мы не в состоянии понять хотели ли он узнать, даты и какие страны были вовлечены в военные действия. (N) Навигационные запросы: значение навигационных запросов - это поиск конкретной информации: например, определенного сайта. Запросы «google» или «yandex» являются примерами навигационных. (Г) Транзакционные запросы: значение транзакционных запросов — это поиск какого-либо конкретного объекта. Например, запрос «подарок на 8 марта» является таким запросом. В [16] представлена более детальная классификация, состоящая из 2 подуровней: 1-ый подуровень:

Из представленной статистики видно, что информационные запросы представляют подавляющее большинство. Предполагается, что именно эта категория запросов отражает индивидуальные, и что важно долгосрочные пользовательские заинтересованности.

Метрики для определения близких пользователей Для обнаружения похожих пользователей были введены две метрики, измеряющие схожесть между их журналами запросов: Определение: Набор запросов одного пользователя будем называть документом этого пользователя или пользовательским документом.

Для построения УМБ создается следующее пространство слов из объединения всех запросов: R" :{t,} ,(20) где N - это количество уникальных элементов и {/} - это все уникальные слова, которые присутствуют в журнале запросов, они являются координатами обозначенного векторного пространства. Затем для каждого пользователя строится вектор, состоящий из слов, встретившихся в его документе, который является проекцией пользовательского документа на пространство всех

Автоматическое маркирование запросов

Наиболее простое решение проблемы сегментации - это использование словаря атрибутов, в котором каждому атрибуты соответствует список описывающих его слов. Но проблема применения данного метода состоит в том, что некоторые слова имеют неоднозначное значение и будет встречаться сразу в нескольких словарях атрибутов. Однако описанная неоднозначность может быть разрешена путем введения контекстной модели для каждого слова, то есть будет рассматриваться не только отдельно слово, а так же его окружение. Например, слово «15» может быть определено атрибутами «номер модели» или «размер дисплея», и является примером неоднозначного слова. Но если мы обратим внимание на контекст, то сможем легко понять правильный атрибут. Например, в случае запроса «sony vaio 15"», следующее слово после «15» - это обозначение дюйма «"» и данный признак однозначно определяет как «размер дисплея».

Существует различные подходы к маркированию последовательностей. Некоторые из подходов для маркирования последовательностей слов, описанные в статьях [39] и [67], использовали метод Условных Случайных Полей (УСП), который был представлен в главе 1. Этот метод позволяет моделировать зависимость между полями (в нашем случае это атрибуты) и наблюдениями (в нашем случае слова из запроса). Кроме того, в статьях [45], [49] и [67] было показано, что поисковые запросы о продуктах обладают сташсти-чески значимыми шаблонами, которые могут быть использованы для сегментации. К сожалению, УСП и другие методы обучения «с учителем» (supervised learning) для достижения высокой точности предсказания требуют дос таточно большое аннотированное вручную обучающее множество. Процесс получения обучающего множества вручную является трудоемким и дорогостоящим, и в нашем случае также не масштабируемым, так как для новых доменов мы будем вынуждены создавать разные обучающие множества.

Существует достаточно много статей, опубликованных в последние годы, в которых рассматривается частичное обучение «с учителем» (semi supervised learning) и обучение «без учителя». В этих работах используются дополнительные ресурсы для извлечения информации, которая нужна для улучшения качества обучающего множества. К сожалению, малое число работ посвящено извлечению структуры из поисковых запросов. Мы также полагаем, что исследования в области разметки частей речи, например статья [15], являются релевантными нашей работе.

В методах, использующих частичное обучение «без учителя», делают допущение об использовании неразмеченных данных в дополнение к маленькому, размеченному вручную обучающему множеству. В данном случае, это естественно применить концепцию самообучения, описанную в [9], которая обучает модель, используя размеченные данные, и затем итеративно использует наиболее хорошие предсказания для расширения обучающего множества.

Например, в работе [20] база данных была использована для создания искусственно аннотированного обучающего множества, которое использовалось для обучения языковой модели с помощь Скрытой Марковской Модели (СММ), описанной в главе 1. И кроме того в статье [7] было экспериментально подтверждено, что добавление словаря, в качества признака для СММ улучшает результат. Подобный эксперимент был проведен в работе [72], но уже для УСП. В работе [58], было доказано, что функция правдоподобия у У СП достигает своего максимального значения. То есть использовать ЕМ-алгоритм {expectation—maximization) для решения задачи маркирования последовательности невозможно. Алгоритм для минимизации энтропии был предложен для решения возникшей проблемы, в [31] и затем его расширенная версия была опубликована в [42] для УСП.

Эффективность методов частичного обучения с «учителем» с использованием УСП была показана в работах [52] и [64]. Представленные методы имеют цель максимизировать условную логарифмическую функцию правдоподобия обучающего множества и в то же время минимизировать условную энтропию предсказаний модели на неразмеченных данных.

В дополнение, существует колоссальное количество работ, использующих дополнительные ресурсы для извлечения информации, как упоминалось ранее. Например, в статье [23] база данных была использована для создания искусственно аннотированного обучающего множества и применение УСП для обучения. Кроме того в [49] было продемонстрировано эффективное использование журнала щелчков пользователей, как источников дополнительных знаний для частичного обучения «с учителем» модели УСП. И более того в [50] было показано, как важно исследовать веб-документы, на которые щелкнул пользователь, для понимания значения пользовательского запроса, что доказывает оправданное использование журналов щелчков пользователей. В нашей работе мы также используем журналы щелков пользователей и базу данных продуктов для разрешения двусмысленности слов в запросах.

Оценка качества для метода сегментации запросов

Система автоматического составления обучающего множества состоит из следующих трех основных компонент, которые выделены желтым цветом на рисунке 9:

1. «Автоматическое маркирование запросов», которое берет за основу базу данных продуктов и журналы щелчков пользовагелей и описанное нами в разделе 3.4. На рисунке 9 этот процесс представлен совокупностью блоков «Автоматическое маркирование» и «Словарь промаркированных запросов». Результатом работы является «Улучшенное обучающее множество».

2. «Генерация обучающего мноэюеетва» - это процесс объединения «Улучшенного обучающего мноэюеетва» и «Синтетических запросов», обозначенное на рисунке 9, и его результатом является увеличенное и более точное обучающее множество. Генерация «синтетических» запросов, которые создаются на основе «Улучшенного обучающего множества», также представлена на рисунке 9.

3. «Обучение модели сегментации» для запросов пользователей, данный процесс представлен на рисунке 9 и будет описан далее в разделе 3.7. Рисунок 9. Рисунок показывает процесс обучения системы, который состоит из автоматического маркирования и обучения системы сегментации.

В данном разделе будут описаны методы нормализации данных, характерные для базы данных и журнала запросов, для которых мы проводили экспери менты. Но следует заметить, что представленные методы могут быть обобщены и применены также и для других данных.

В процессе анализа целевых атрибутов из базы данных была обнаружена избыточность, так как среди их названий встречались синонимы. А именно, в базе данных существуют атрибуты «release-year» и «release date», которые являются синонимами, то есть определяют одно и то же понятие. Такая избыточность могла возникнуть из-за «человеческого фактора», потому что изначально база создавалась вручную.

Для нашего исследования сложившаяся ситуация является проблемой, так как мы используем все атрибуты из обучающего множества, как целевые. И чтобы избавится от атрибутов синонимов, мы применили следующую методик} :

Составляем словарь для каждого атрибута, который содержит слова из всех его описаний, представленных в базе данных.

Затем измеряем, насколько близки атрибуты, используя для этих целей косинусную меру между их словарями. И в качестве векторного пространства были взяты все слова из объединения составленных словарей, где каждое слово было взвешено с использование tf idf. Эффективность данного подхода была доказана во второй главе.

Мы эмпирическим путем определили значимый порог для косинусной меры, равный значению 0.7. Таким образом, мы считаем, что два атрибуты являются синонимами, если значение косинусной меры близости, измеренный между их словарями, превышает указанный порог. Благодаря разработанной методике, мы снизили количество целевых атрибутов для сегментации на 24. До применения методики было 65 целевых атрибутов, а после - 41. Данный процесс на рисунке 9 обозначен блоком, под названием «Нахождение синонимов среди атрибутов из БД».

Необходимость нормализации запросов возникла, потокгу что синтаксис для их написания не определен. Понятно что, с такими особенностями как регистр справиться легко, но есть более сложные примеры. Например, можно встретить два следующих варианта написания для одного и того же термина:

Это пример неоднозначности, так как при анализе запросов данный термин может быть рассмотрен как два или как одно слово соответственно.

Определение: Такие сочетания как число и затем не число, и наоборот, неразделенные пробелом будем называть «смешанные элементы». Чтобы избежать полученной неоднозначности были введены два метода для нормализации запросов: Первый метод мы назвали «разъединяющая нормализация». Он предусматривает, что смешанные элементы должны быть разделены пробелом. Недостаток: при использовании данного метода мы будем получать более длинные запросы и неоднозначные слова в них, например как «2».

Второй метод мы назвали «объединяющая нормализация». Этот метод убирает пробел внутри «смешанных элементов». Данный метод рабо тает лучше, так как он делает запросы короче и более того мы получаем слова в виде «смешанных элементов». Подобные слова лучше используются при составлении n-grams, которые являются признаками при обучении вероятностной модели. Кроме того, введение «объединяющей нормализации» улучшает качество автоматического маркирования, потому что уменьшится количество неоднозначных слов. Вследствие описанных достоинств, мы выбрали метод «объединяющая нормализация» для нормализации запросов и базы данных продуктов.

Данный параграф посвящен обучению модели сегментации запросов. Полученная модель будет применяться в режиме реального времени, как показано на рисунке 10. То есть в тот момент, когда пользователь вводит запрос в системы, мы применяем «Модель сегментации», итогом работы которой является структурированный запрос. И на основе этой структуры выбирается наиболее релевантный продукт из базы данных.

Похожие диссертации на Методы группировки и структуризации поисковых запросов и их реализация