В основу алгоритмов ранжирования по релевантности (их много) обычно кладется одна или несколько следующих характеристик:

• Количество терминов запроса, встретившихся в найденном документе.

• Частота встречаемости этих терминов в документе.

• Близость расположения терминов в документе (например, они могут быть соседними, находиться в одном предложении или абзаце).

• Место, в котором найден термин (например, если термин находится в заглавии, то документ может быть более релевантным, чем если термин встретился в теле).

Для разных типов содержимого может быть оправдано применение различных подходов к релевантности, но для большинства механизмов поиска содержимое, в котором осуществляется поиск, представляет собой разнородную смесь. Например, документ A может иметь больший ранг, чем документ B, но при этом документ B явно более релевантен. Почему? Потому что документ B представляет собой ссылку в библиографии на действительно релевантную работу, тогда как A -большой документ, в котором оказалось много терминов из запроса поиска. Поэтому чем выше разнородность ваших документов, тем осторожнее следует подходить к ранжированию по релевантности.

Еще одним способом установления релевантности может быть ручное индексирование. Можно выполнить поиск в полях ключевых слов и описаниях, что позволит учесть ценные мнения тех, кто индексировал документы. Например, в качестве релевантных результатов могут быть возвращены вручную выбранные «рекомендации». На рис. 8.18 результаты в первом наборе были предварительно ассоциированы с запросом «.net».

Реализация завоевывающего все большую популярность подхода на основе рекомендаций (в данном случае названных «Best Bets») требует значительных расходов, т. к. для него нужны знание предмета и время, и потому он может применяться лишь к части содержимого сайта. Рекомендации обычно используются в сочетании с автоматически генерируемыми результатами поиска, отображаясь при этом в начале списка результатов.

Есть и другие трудности, связанные с ранжированием по релевантности. Возникает соблазн показать рядом с результатом численную оценку релевантности; в конце концов, именно она определяет место, на которое помещен результат.

Первый результат не производит впечатление удачного. Но в чем в действительности состоит разница между документами с уровнями релевантности 93% и 91%? Их оценки близки друг другу, но один из них - интервью с Эндрю Салливаном, а другой - опубликованный ответ на одну из его колонок. Поскольку алгоритмы действуют сложным и непонятным образом, нам в действительности неизвестно, почему результаты ранжированы именно таким образом. Показ оценок только усугубляет это ощущение непонятности, и ими следует пользоваться с осторожностью. Часто лучше всего обойтись без показа оценок.


Информационная архитектура



Новости за месяц

  • Август
    2019
  • Пн
  • Вт
  • Ср
  • Чт
  • Пт
  • Сб
  • Вс