Статистики и распределения вероятностей

Описание рабочей нагрузки включает связывание каждого параметра модели рабочей нагрузки с количественными значениями, полученными на основе анализа результатов измерений. Хотя использование простых статистик, например, среднего, медианы и дисперсии достаточны для некоторых параметров нагрузки, Однако распределения вероятностей обеспечивают более общий способ выяспить, как изменяются параметры в некотором диапазоне зпачепий.

Среднее, медиана и дисперсия

Статистики, гакие как средпее, медиапа и дисперсия, описывают основные свойства многих параметров нагрузки Web. Рассмотрим файл регистрации сервера, в котором записывались Метод запроса и код ответа для каждой Web-транзакции. Определение доли запросов, использующих метод GET, или доли ответов с кодом 200 OK включает в себя число передач каждого гипа. Другие параметры, такие как размер ответного Web-сообщения, имеют существенно более широкий диапазон зпачепий. Вычисление доли ответов с каждым возможным размером сообщения было бы очень утомительным. Вместо этого, характеристики размеров ответов Можно представить некоторой статистикой, например, средпим размером ответа. Однако на практике средпее значение не охватывает всех характеристик изменчивости большинства параметров Web-нагрузки.

Фактически, когда параметр изменяется в широких пределах, средпее значение является очепь обмаичивой статистикой, так как может быть искажено достаточно малым количеством больших зпачепий. Например, предположим, что сервер генерирует пять ответных сообщений с размерами 4100, 4700, 4200, 20000 и 4000 байтов, соответственно. Основанное на этих няти ответах средпее значение равно 7400 байтам. Однако это значение не дает правильного представления о типичном размере ответа. Альтернативной статистикой является медиана — размер «серединного» ресурса — первая половипа ресурсов имеет значения большие, чем медиапа, а вторая половипа — мепьшие. В этом примере медиана равна 4200 байтам, что лучше описывает типичный размер ответа. Однако медиапа не указывает на возможность того, что размер ответа может принимать очепь большое зпачепие. Последовательность 4100, 4700, 4200, 4800 и 4000 будут иметь ту же самую медиапу.

Вычисление среднего и медиапы улучшает картину. Факт того, что медиапа много меньше среднего, говорит о наличии относительно малого числа больших значений. Например, нервая последовательность имеет средпее зпачепие 7400, а медиапу 4200, что как раз и свидетельствует о наличии больших зпачепий ответов сервера. В противоположность этому, вторая последовательность имеет средпее значение 4360, которое очепь близко к медиане, равной 4200. Поэтому Можно предположить, что размеры ответов в этом случае мепяюгся не очепь сильно. Кроме среднего и медианы имеются и другие статистики, такие как дисперсия и средпее квадратическое отклонение, определяющие, пасколько сильно параметр отклоняется от своего среднего зпачепня. Небольшие значения эгих статистик говорят о том, что параметр остается близким к среднему зпачепию, в то время как большие значения свидетельствуют о том, что параметр может принимать значения, существенно отличающиеся от среднего. Однако подобпо средпему и медиапе, дисперсия и средпее квадратическое отклонение даюг только обобщенную характеристику параметра. эти обобщенные характеристики не предоставляют достаточно информации для генерации Web-иагрузок, которые бы давали иредставлеиие о том, как параметр меняется на практике.

Распределения вероятностей

Рис. 10.1. Пример дополнительной функции распределения

Работа с распределением, построенным непосредственно по результатам измерений, может быть затруднена. Представление распределения в виде математического выражения упрощает описание параметров рабочей нагрузки в виде аналитической модели.

Несколько распределений вероятностей хорошо изучены и широко используются для описания рабочей нагрузки. Каждое из распределений может быть представлено относительно простой функцией, зависящей от одной или нескольких переменных. Одним из наиболее популярных распределений является экспопепциаль- пое распределение, которое имеет вид:

Распределение вероятности определяет, как параметр меняется в широком диапазоне зпачепий. Рассмотрим распределение F(x) размеров ответов сервера. F(x) представляет собой долю ответов, значения которых больше x байтов. Такая функция называется дополнительной функцией распределения. Значение F(x), как показано на рис. 10.1, может быть определено непосредственно из результатов измерений. Для последовательности 4100, 4700, 4200, 20000 и 4000 F(x) равна в 1 для интервала x от 0 до 3999, падает до 0,8 при x = 4000, уменьшается до 0,2 при x равном 4100, 4200, 4700, достигая нуля при x = 20000. В этом примере F(x) изменяет значения на небольшом числе точек. На практике больший набор результатов измерений может привести к функции, которая меняется многократно.

со средпим значением равным l/X, где x может принимать значения большие или равные пулю. Другие распределения описываются функциями одной или более переменных, влияющих на форму распределения.

При связывании опытного распределения вероятности с теоретическим распределением требуется проверить гипотезу, что теоретическое распределение не противоречит опытным даипым. Проверка гипотезы состоит из двух осповпых шагов. Сначала определяются параметры теоретического закопа распределения. Например, зпачепие X для экспопенциалыюго распределения может быть определено из среднего размера ответа, полученпого на основе измеренных данных. Далее вычисляется значение критерия согласия для сравпепия теоретического и экспериментального распределений. Значение критерия согласия определяет уровень совпадения теоретического и экспериментального распределений. Если совпадение не удовлетворительно, то Можно рассмотреть другое теоретическое распределение. Например, экспоненциальное распределение не может Точно описывать большинство параметров рабочей иагрузки в таблице 10.1. В некоторых случаях вообще затруднительно подобрать теоретическое раснределепие, соответствующее измеренным данпым. Тогда можио попробовать представить различные части экспериментального распределения с помощью различных теоретических распределений. Например, небольшие значения ответа могут описываться одним распределением, а большие — другим. В течепие мпогих лет сопоставление измеренных данных с теоретическими распределениями и проверка гипотез об уровне их соответствия является активпой областыо статистических исследований. Это подробно обсуждается в различных кпигах [DS86, LK99J.

Описывать разнообразие и эволюцию в таких сложиых системах как Web чрезвычайно трудно. Измерения, проведенные в различных сегментах Web, могут привести к совершенно различным выводам о характеристиках иагрузки. Например, распределение размеров ответов среди клиентов, пользующихся беспроводной свя- зыо, может заметно отличаться от распределения размеров ответов клиентов, использующих широкополосные соединения. Кроме того, появление новых приложений и сервисов может изменить характеристики рабочей иагрузки Web. В некоторых случаях изменение параметров нагрузки может быть описано с помощью изменения параметров распределения вероятности без измепепия вида распределения. Например, хотя средиий размер ответа может меняться в зависимости от пользователя, по изменчивость размера ответа может быть одинакова. Далее при обсуждении параметров нагрузки будет выяспепо, как характеристики нагрузки меняются во времени и будут пайдепы ее осповпые ипвариантпые свойства. Кроме того, будет обсуждено, какие измепепия необходимо сделать в Web-приложепиях, чтобы оказать влияние на пекогорые параметры рабочей нагрузки в дальнейшем.

Источник: Web-протоколы. Теория и практика. — M.: ЗАО «Издательство БИНОМ», 2002 г. – 592 c.: ил.

Вы можете следить за любыми ответами на эту запись через RSS 2.0 ленту. Вы можете оставить ответ, или trackback с вашего собственного сайта.

Оставьте отзыв

XHTML: Вы можете использовать следующие теги: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

 
Rambler's Top100