В основу алгоритмов ранжирования по релевантности (их много) обычно кладется одна или несколько следующих характеристик:
• Количество терминов запроса, встретившихся в найденном документе.
• Частота встречаемости этих терминов в документе.
• Близость расположения терминов в документе (например, они могут быть соседними, находиться в одном предложении или абзаце).
• Место, в котором найден термин (например, если термин находится в заглавии, то документ может быть более релевантным, чем если термин встретился в теле).
Для разных типов содержимого может быть оправдано применение различных подходов к релевантности, но для большинства механизмов поиска содержимое, в котором осуществляется поиск, представляет собой разнородную смесь. Например, документ A может иметь больший ранг, чем документ B, но при этом документ B явно более релевантен. Почему? Потому что документ B представляет собой ссылку в библиографии на действительно релевантную работу, тогда как A -большой документ, в котором оказалось много терминов из запроса поиска. Поэтому чем выше разнородность ваших документов, тем осторожнее следует подходить к ранжированию по релевантности.
Еще одним способом установления релевантности может быть ручное индексирование. Можно выполнить поиск в полях ключевых слов и описаниях, что позволит учесть ценные мнения тех, кто индексировал документы. Например, в качестве релевантных результатов могут быть возвращены вручную выбранные «рекомендации». На рис. 8.18 результаты в первом наборе были предварительно ассоциированы с запросом «.net».
Реализация завоевывающего все большую популярность подхода на основе рекомендаций (в данном случае названных «Best Bets») требует значительных расходов, т. к. для него нужны знание предмета и время, и потому он может применяться лишь к части содержимого сайта. Рекомендации обычно используются в сочетании с автоматически генерируемыми результатами поиска, отображаясь при этом в начале списка результатов.
Есть и другие трудности, связанные с ранжированием по релевантности. Возникает соблазн показать рядом с результатом численную оценку релевантности; в конце концов, именно она определяет место, на которое помещен результат.
Первый результат не производит впечатление удачного. Но в чем в действительности состоит разница между документами с уровнями релевантности 93% и 91%? Их оценки близки друг другу, но один из них - интервью с Эндрю Салливаном, а другой - опубликованный ответ на одну из его колонок. Поскольку алгоритмы действуют сложным и непонятным образом, нам в действительности неизвестно, почему результаты ранжированы именно таким образом. Показ оценок только усугубляет это ощущение непонятности, и ими следует пользоваться с осторожностью. Часто лучше всего обойтись без показа оценок.
1999 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 |
2000 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 |
2001 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 |
2002 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 |
2003 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 |
2004 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 |
2005 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 |
2006 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 |
2007 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 |
2008 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 |
2009 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 |
2010 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 |
2011 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 |
2012 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 |
2013 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 |
2014 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 |
2015 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 |
2016 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 |
2017 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 |
2018 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 |
2019 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 |
2020 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 |
2021 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 |