В основу алгоритмов ранжирования по релевантности (их много) обычно кладется одна или несколько следующих характеристик:

• Количество терминов запроса, встретившихся в найденном документе.

• Частота встречаемости этих терминов в документе.

• Близость расположения терминов в документе (например, они могут быть соседними, находиться в одном предложении или абзаце).

• Место, в котором найден термин (например, если термин находится в заглавии, то документ может быть более релевантным, чем если термин встретился в теле).

Для разных типов содержимого может быть оправдано применение различных подходов к релевантности, но для большинства механизмов поиска содержимое, в котором осуществляется поиск, представляет собой разнородную смесь. Например, документ A может иметь больший ранг, чем документ B, но при этом документ B явно более релевантен. Почему? Потому что документ B представляет собой ссылку в библиографии на действительно релевантную работу, тогда как A -большой документ, в котором оказалось много терминов из запроса поиска. Поэтому чем выше разнородность ваших документов, тем осторожнее следует подходить к ранжированию по релевантности.

Еще одним способом установления релевантности может быть ручное индексирование. Можно выполнить поиск в полях ключевых слов и описаниях, что позволит учесть ценные мнения тех, кто индексировал документы. Например, в качестве релевантных результатов могут быть возвращены вручную выбранные «рекомендации». На рис. 8.18 результаты в первом наборе были предварительно ассоциированы с запросом «.net».

Реализация завоевывающего все большую популярность подхода на основе рекомендаций (в данном случае названных «Best Bets») требует значительных расходов, т. к. для него нужны знание предмета и время, и потому он может применяться лишь к части содержимого сайта. Рекомендации обычно используются в сочетании с автоматически генерируемыми результатами поиска, отображаясь при этом в начале списка результатов.

Есть и другие трудности, связанные с ранжированием по релевантности. Возникает соблазн показать рядом с результатом численную оценку релевантности; в конце концов, именно она определяет место, на которое помещен результат.

Первый результат не производит впечатление удачного. Но в чем в действительности состоит разница между документами с уровнями релевантности 93% и 91%? Их оценки близки друг другу, но один из них - интервью с Эндрю Салливаном, а другой - опубликованный ответ на одну из его колонок. Поскольку алгоритмы действуют сложным и непонятным образом, нам в действительности неизвестно, почему результаты ранжированы именно таким образом. Показ оценок только усугубляет это ощущение непонятности, и ими следует пользоваться с осторожностью. Часто лучше всего обойтись без показа оценок.


Информационная архитектура



Новости за месяц

  • Декабрь
    2019
  • Пн
  • Вт
  • Ср
  • Чт
  • Пт
  • Сб
  • Вс
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31