Если под рукой уже есть подходящий документ, то можно применить алгоритмы, преобразующие этот документ в эквивалент запроса (этот подход обычно называют поиском схожих документов). Из подходящего документа можно удалить «стоп-слова», оставив семантически значимые термины, которые должны хорошо представлять документ. Эти термины преобразуются в запрос, который должен возвратить похожие результаты. Альтернативный подход - представить результаты, которые проиндексированы сходными метаданными.

Такие подходы, как объединенная фильтрация (collaborative filtering) и поиск цитат, идут еще дальше по пути получения расширенных результатов по релевантному документу. В следующем примере из Research Index мы указали статью, которая нам подходит: «Mediators in the Architecture of Future Information Systems» (Посредники в архитектуре информационных систем будущего), которую написал Джио Видерхолд (Gio Wiederhold). Research Index автоматически находит дополнительные документы, применяя различные способы:

Cited by (статьи, в которых цитируется данная)

Какие еще статьи цитируют данную? Связь между цитируемыми и цитирующими статьями предполагает некоторую степень взаимной релевантности. Возможно, авторы даже знакомы друг с другом.

Active bibliography (related documents) (библиография, связанные документы )

Наоборот, статья Видерхолда цитирует в библиографии другие статьи, что предполагает релевантность аналогичного типа.

Users who viewed this document also viewed (пользователи, смотревшие данную статью, смотрели также)

Research Index сохраняет информацию о характере работы пользователей. В данном случае можно увидеть, какие документы просматривали другие пользователи, которые заинтересовались данной статьей.

Similar documents based on text (документы с аналогичным текстом)

Документы автоматически преобразуются в запросы и используются для поиска аналогичных документов.

Related documents from co-citation (совместно цитируемые документы)

Еще один вариант, связанный с цитированием. Совместное цитирование предполагает, что если документы появляются вместе в библиографии других статей, то у них, вероятно, есть нечто общее.

Есть и другие алгоритмы извлечения информации, на которых мы не имеем возможности останавливаться. Важно запомнить, что главная цель этих алгоритмов - определить лучший набор документов, которые должны быть представлены как результат поиска. Однако «лучший» отражает субъективную оценку, и вам придется как следует разобраться в том, что надеются найти пользователи, осуществляющие поиск по вашему сайту. Поняв, что они хотят получить, начинайте поиск инструмента, который реализует алгоритм извлечения информации, способный удовлетворить их потребности.


Информационная архитектура



Новости за месяц

  • Ноябрь
    2019
  • Пн
  • Вт
  • Ср
  • Чт
  • Пт
  • Сб
  • Вс