Кольцо синонимов соединяет группу слов, которые определены как эквивалентные для задач извлечения информации. На практике эти слова не всегда являются подлинными синонимами. Представьте себе, например, что проектируете заново портал потребителей, предоставляющий информацию о рейтингах бытовой техники, производимой разными компаниями.

Изучая журналы поиска и беседуя с пользователями, можно обнаружить, что люди, которые ищут одну и ту же вещь, вводят разные термины. Тот, кто хочет купить кухонный процессор, может ввести «blender» или одно из названий изделия (возможно, с орфографическими ошибками). Взгляните на содержимое и вы найдете много таких вариаций.

Предпочтительный термин может отсутствовать, как и достаточное основание для его выбора. Вместо этого можно обратиться к готовым возможностям поискового механизма и построить кольца синонимов. Для этого может потребоваться всего лишь ввести эквивалентные слова в текстовый файл. Когда пользователь вводит слово в поисковый механизм, оно сравнивается с содержимым этого текстового файла.

Если слово найдено, запрос «расширяется» путем добавления всех эквивалентных слов. Например, с применением булевой логики:

(kitchenaid) превращается в (kitchenaid or "kitchen aid" or blender or "food processor" or cuisinart or cuizinart)

Внезапно на сайте появилась тьма информации о Pocket PC. Простое кольцо синонимов, связывающее «pocketpc» и «pocket pc» решило бы эту распространенную и серьезную проблему с обеих точек зрения -и покупателя, и продавца.

Однако кольца синонимов могут стать источником других трудностей. Если расширение термина происходит неявно, пользователь может быть смущен результатами, в которых нет введенных им ключевых слов. Тесты фирмы Inktomi показывают, что пользователи не любят таких скрытых реализаций. Кроме того, применение колец синонимов может снизить релевантность результатов. Мы снова возвращаемся к проблеме точности и полноты.

Вспомним: точность (precision) характеризует релевантность документов в данном наборе результатов. Чтобы потребовать высокой точности, можно попросить: «Покажите мне только релевантные документы». Полнота характеризует долю релевантных документов в результирующем наборе по отношению ко всем релевантным документам в системе. Чтобы потребовать высокой полноты, можно попросить: «Покажите мне все релевантные документы».

Конечно, идеально было бы одновременно добиться высокой точности и высокой полноты, но те, кто занимается извлечением информации, понимают, что одно можно увеличить только за счет другого. Это имеет важные последствия для применения контролируемых словарей.

Как можно догадаться, кольца синонимов резко увеличивают полноту. В одном из исследований, проведенных в Bellcore в 1980-х годах, применение колец синонимов (названное тогда «unlimited aliasing» -неограниченное назначение псевдонимов) с небольшой тестовой базой данных увеличило полноту с 20% до 80%. Однако кольца синонимов также снижают точность. Оптимальное соотношение можно обеспечить за счет понимания задач пользователей и правильного проектирования интерфейса. Например, можно применять кольца синонимов, но упорядочивать список результатов так, чтобы точные совпадения с ключевыми словами находились в его начале. А можно игнорировать кольца синонимов при начальном поиске, но если результатов мало или нет вообще, дать возможность «расширить поиск, использовав близкие по смыслу слова».

Короче, кольца синонимов дают простую и полезную форму управления словарем. Совершенно непростительно, что на крупнейших вебсайтах бросается в глаза явное отсутствие такой возможности.


Информационная архитектура



Новости за месяц

  • Декабрь
    2019
  • Пн
  • Вт
  • Ср
  • Чт
  • Пт
  • Сб
  • Вс