Характеристики Web-pecypcoв. Популярность ресурсов

Популярность различных ресурсов оказывает важное влияние на производительность. Кэширование в браузере и на прокси-сервере наиболее эффективно, если большинство запросов делается на небольшое число ресурсов. Клиент может заранее загрузить ряд ресурсов, участвующих в дальнейших запросах. Популярность также воздействует на нагрузку сервера из-за необходимости ответов на большее число запросов. Наиболее популярные ресурсы скорее всего будут находиться в оперативной памяти сервера, что исключает необходимость их чтения с жесткого диска. Сервер может сохранять наиболее популярные ответы, сгенерированные динамически. Например, поисковый сервер может многократно получать одинаковые запросы. Результаты поиска по этим наиболее популярным запросам могут быть сохранены на сервере. На практике сервер может не иметь достаточно памяти для храпепия большого числа ответов. Компромисс между объемом памяти и повышением производительности зависит от распределения популярности ресурсов.

Характеристики трафика. Популярность ресурса определяется как отношение числа запросов на этог ресурс к общему числу запросов. Функция P(r) описывает долю запросов, относящихся к каждому из ресурсов. Рассмотрим в качестве примера Web-сайт со 100 ресурсами. Если все 100 ресурсов имеют одинаковую популярность, то P(r) = 0.01 для r= 1, 2, …, 100. Кривая, изображенная на рис. 10.5, указывает на то, что некоторые ресурсы значительно более популярны, чем другие. В этом примере на долю наиболее популярного ресурса приходится 20% запросов из пабора из 100 ресурсов. Доля второго по полярности ресурса составляет около 10%. Сайт получает очепь мало запросов на малопопулярпые ресурсы. График, приведенный на рис. 10.5, представляет типичное распределение популярности Web-pecypcoB сайта.

Рис. 10.5. Закон Зипфа

Доля запросов на ресурс обратпо пропорциональна его рапгу. Распределение соответствует закону Зипфа [Zip49]:

где k — коэффициент пропорциональности, нормирующий сумму P(r) к единице. Закоп Зипфа используется для описания, например, частоты появления различных слов в документе; слова "the" или "and" встречаются в документе на английском языке гораздо чаще, чем "jejune". В более общем случае распределение Зипфа имеет вид:

где с — некоторая константа. Меньшее зпачепие с соответствуют меньшему разбросу популярности в наборе ресурсов. Предельный случай, когда c=0, соответствует случаю равной популярности всех ресурсов.

Значение с варьируется для разных прокси- и Web-серверов [CBC95, ABCd096, BCF+99, PQ00J. В рашшх исследованиях запросов к Web-серверам были получены значения с близкие к едипице. Последние исследования оценивают эгу величину в диапазоне от 0.75 до 0.90. Кэширование в браузерах и прокси-серверах приводит к уменьшению числа запросов, достигающих Web-сервера для наиболее популярных ресурсов. В результате доля запросов к некэшируемым ресурсам существенно возрастает. Для Web-сервера запросы, перехваченные прокси-сервером, приводят к меньшим значениям константы с. Прокси-серверы обрабатывают запросы для различных Web-сайтов, что Обычно связано с большим числом ресурсов со сравнимой популярностыо. В дополпепие к этому, эффективность кэширования браузером направлена на уменьшение числа повторяющихся запросов клиента к одному и тому же ресурсу. Тем не менее ресурсы, получаемые от ирокси- и Web-серверов имеют широкий разброс по популярности.

Аналогичные результаты получепы и для Web-сайтов — небольшое число популярных Web-сайтов получают наибольшее число запросов. Разброс в популярности оказывает важное влияние на производительность. Во-первых, локальный DNS-сервер скорее всего имеет кэшированную копию соответствий доменных имеп и IP-адресов для большинства популярных сайтов. Это позволяет устранить задержки, связанные с повторными обращениями к другим DNS-серверам за исключением случаев, когда кэшированпая DNS-запись устаревает. Во-вторых, на практике самые загруженные Web-сайты реплицируются на нескольких Web-cepверах для того, чтобы приблизить содержимое к клиентам. Поскольку эти сайты определяют значительную часть трафика, то эффективная схема репликации этого иебольшого числа сайтов может привести к существенному спижепию сетевой нагрузки и уменьшению времени ожидания ответов пользователями. В-третьих, по- вые технологии повышения производительности не пужпо развертывать на большом числе сайтов, чтобы иметь значительный выигрыш. Достаточно избирательного развертывания на небольшом числе наиболее популярных сайтов.

Влияние распространения новых технологий. Распределение Зинфа получило широкое распространение при описании результатов измерений в Web, с помощью пего описывается поведение ряда других сложных систем вие Web. Однако значения параметров распределения Зипфа меняются со временем и от сайта к сайту. Изменения в распределении популярности ресурсов на Web-сайте или в исследуемом паборе сайтов оказывают влияние на эффективность кэширования. Менее асимметричные распределения с меньшей долей запросов на паиболее популярные ресурсы делают кэширование менее эффективным. Разнородность пользовательских сообществ приводит к тому, что большая часть ресурсов, имеющихся в Web, станет относительно популярной. Например, чем больше людей в мире подключатся к Web, тем больше новых сайтов будут обеспечивать эти пользовательские сообщества. Эти Web-сайты могут оказаться чрезвычайно популярными в некоторых странах и регионах. Однако другие социальные факторы с течением времени могут привести к еще большей пеоднородности в популярности, когда пользователи будут иметь легкий доступ к Web по всему миру. В любом случае эти изменения популярности должны воздействовать на кэширование ресурсов для снижения нагрузки на серверы и сети.

Источник: Web-протоколы. Теория и практика. — M.: ЗАО «Издательство БИНОМ», 2002 г. – 592 c.: ил.

Вы можете следить за любыми ответами на эту запись через RSS 2.0 ленту. Вы можете оставить ответ, или trackback с вашего собственного сайта.

Оставьте отзыв

XHTML: Вы можете использовать следующие теги: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

 
Rambler's Top100