Большинство веб-сайтов содержит по крайней мере два основных типа страниц: страницы навигации и целевые страницы. Целевые страницы содержат фактическую информацию, которая нужна на веб-сайте: результаты спортивных соревнований, рецензии на книги, документацию по программам и т. д. В число страниц навигации могут входить главная, страницы поиска и страницы, помогающие навигации по сайту. Основное назначение страниц навигации - доставлять посетителей на целевые страницы.
Когда пользователь выполняет поиск на сайте, разумно предположить, что он ищет целевые страницы. Если включить в процедуру извлечения информации страницы навигации, они просто замусорят результаты поиска.
Возьмем простой пример. Компания продает через Интернет продукты для компьютеров. Целевые страницы содержат описания, цены и информацию о том, как сделать заказ, по одной странице для каждого продукта. Кроме того, ряд страниц навигации помогает пользователям найти нужные товары, например, содержит перечень продуктов для разных платформ (например, Macintosh и Windows), перечни продуктов для разных сфер приложений (например, текстовые процессоры, бухгалтерские программы), перечни программ отдельно для бизнеса и для дома и отдельные списки аппаратных и программных продуктов. Что может произойти, если пользователь ищет Quicken разработки Intuit? Вместо того чтобы просто получить страницу продукта Quicken, он может оказаться вынужденным разбираться со следующими страницами:
• Страница указателя по финансовым продуктам
• Страница указателя по продуктам для дома
• Страница указателя по продуктам Macintosh
• Страница продукта Quicken
• Страница указателя по программным продуктам
• Страница указателя по продуктам для Windows
Пользователь получит нужную целевую страницу (т. е. страницу продукта Quicken), но кроме нее еще пять других, чисто навигационных. Иными словами, 83% полученных данных затрудняют пользователю нахождение искомого результата.
Конечно, индексировать схожее содержимое не всегда просто, потому что схожесть оказывается весьма относительной. Не всегда ясно, где проходит черта между страницами навигации и целевыми страницами: в некоторых случаях можно считать, что страница относится к обеим категориям. Этим объясняется необходимость тестирования различий между навигационными и целевыми страницами перед фактическим применением такого разделения. Слабость подхода, различающего навигационные и целевые страницы, состоит в том, что в сущности отнести страницу к целевым или навигационным требует точная схема организации. В следующих трех подходах, описываемых ниже, организационные схемы неоднозначны, а потому терпимее воспринимают отнесение страниц не к одной, а к нескольким категориям.
1999 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 |
2000 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 |
2001 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 |
2002 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 |
2003 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 |
2004 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 |
2005 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 |
2006 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 |
2007 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 |
2008 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 |
2009 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 |
2010 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 |
2011 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 |
2012 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 |
2013 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 |
2014 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 |
2015 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 |
2016 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 |
2017 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 |
2018 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 |
2019 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 |
2020 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 |
2021 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 |