Как оценить доступность вашей системы

Большинство перебоев в работе сервисов представляют собой результат неполадок в работе оборудования. Эти перерывы в работе могут оказаться длительными, если администраторы сервиса неправильно диагностируют причину сбоя или допустят другие ошибки в устранении возникшей проблемы. Таким образом, для оценки ожидаемой доступности должны использоваться две переменные:

± вероятность возникновения сбоев или неполадок системы в течение оценочного периода;

± ожидаемое время простоя в случае возникновения сбоев и неполадок.

Ожидаемая доступность компонента выражается следующей математической формулой:

Здесь:

± a — ожидаемая доступность;

a = (p – (c × d)) / p.

± c — вероятность (в %) отказа сервера в течение заданного периода;

± d — ожидаемое время простоя вследствие отказа сервера;

± p — оцениваемый период.

Таким образом, если ваш старый компьютер на базе процессора i486 имеет вероятность отказа, которая составляет 40 %, и в этом случае вы предполагаете, что

1 Google spider — поисковый робот Google, программа, представляющая собой часть поисковой системы Google и предназначенная для сканирования интернет-страниц с целью занесения информации о них в базу данных поисковика. Такие программы есть во всех поисковых системах, называться они могут по-разному ("веб-пауки", краулеры). Подробнее см. http://en.wikipedia.org/wiki/Web_crawler, http://www.dmoz.org/Computers/Internet/Searching/Search_Engines/. — Прим. перев.

время   простоя   составит   24   часа,   то   его   ожидаемая   доступность   составит (8760 – (40 % × 24)) / 8760, или 99,9 %.

Показатель доступности 99,9 % выглядит довольно неплохо, особенно для старого компьютера на базе процессора i486, не так ли? Ладно, в данном случае я всего лишь чрезмерно упростил ситуацию. Вы что, действительно верите, что ваше кабельное или DSL-соединение будет работать бесперебойно и никогда не будет разрываться? Вы действительно верите, что за 24 часа вы успеете заменить сервер, сконфигурировать его и восстановить данные с резервной копии? Как обстоят дела с вашим сетевым оборудованием? Насколько надежны ваши резервные копии?

Чтобы получить надежную оценку доступности, вам необходимо оценить все возможные компоненты, отказ которых может привести к перебоям в работе, и просуммировать их. Доступность системы оценивается как разность общей продолжительности оценочного периода минус сумма продолжительности всех простоев в течение этого периода, поделенная на общую продолжительность оценочного периода:

a = (p – SUM(c1×d1 / cn×dn)) / p.

Например, если ваш провайдер обычно испытывает технические проблемы два раза в год, причем время простоя обычно составляет два часа, то доступность интернет-соединения оценивается так:

(8760 – (200 % × 2)) / 8760 = 99,95 %.

Таким образом, общий показатель доступности вашей системы будет таким: (8760 – ((40 % × 24) + (200 % × 2))) / 8760 = 99,84 %.

Этот пример призван продемонстрировать горькую правду о доступности программных систем: чем больше точек отказа (points of failure), которые представляют собой компоненты, отказ которых приведет к простою системы, тем ниже ее рейтинг доступности. Далее, продолжительность времени простоя оказывает еще более сильное влияние на вероятность того, что ваш сервис будет недоступен.

Смягчить проблему помогает избыточность. Если у вас есть два или более физических компонентов, представляющих логические компоненты, то ожидаемое время простоя логического компонента представляет собой ожидаемую продолжительность периода времени в случае события, когда все эти физические компоненты откажут одновременно. Иными словами, формула c × d, используемая для вычисления времени простоя, несколько усложняется и принимает следующий вид:

(c × dn) / (p(– 1)).

В этой формуле n представляет собой уровень избыточности системы. В случае, когда n = 1, формула, как и ожидалось, упрощается:

(c × dn) / (p(– 1)) = (c × d) / (p0) = c × d.

Если в рассматриваемом примере в систему добавить еще один избыточный компонент — еще один сервер с процессором i486, то это позволит быстро переходить на другой ресурс при сбое, и в данном случае оценка доступности вашего Web-сервера будет намного улучшена:

(8760 – ((40 % × 242)) / (8760(2 – 1))) / 8760 = 99,999 %.

Источник: Риз Дж., Облачные вычисления: Пер. с англ. — СПб.: БХВ-Петербург, 2011. — 288 с.: ил.

Вы можете следить за любыми ответами на эту запись через RSS 2.0 ленту. Вы можете промотать до конца и оставить ответ. Pinging в настоящее время не допускается.

Оставьте отзыв

XHTML: Вы можете использовать следующие теги: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

 
Rambler's Top100