Анализ журналов Web-серверов. Общедоступные журналы и трассы

Многие исследования параметров Web-трафика основываются на общедоступных коллекциях журиалов клиентов, прокси-серверов и серверов, а также трасс пакетов. Было нреднринято несколько попыток сформировать централизованное хранилище журналов и трасс. В их числе Internet Traffic Archive [ITAJ, хранилище, созданное грунной Web Characterization Group консорциума World Wide Web Consortium [WCAJ, коллекция NLANR [IRCJ и CAnet Squid Logs [CanJ.

Журиалы Обычно предоставляются «как есть» — в форме, в которой они были записаны прокси-сервером или Web-сервером. В некоторых случаях журиалы могут предоставляться в сжатом виде, чтобы уменьшить требования к объему памяти. Такие поля, как имя/адрес обратившегося с запросом клиента, могут быть удалены или преобразованы, чтобы сохранить конфиденциальность. Организация, нредос- гавляющая журналы, может не иметь серьезного стимула для преобразования журналов в стапдартцый формат и для выявления явпых несоответствий в записях измеренных данных. Пользователям данных приходится расплачиваться за применение недостаточно подготовленных данных; о возникающих при этом проблемах упоминалось в разделе 14.2. Альтернативой является выполнение пользователями различных семантических проверок, которые диктуются конкретным применением данных. Однако проверки, выполняемые после того, как пользователь загрузит журнал, не принесут пользы всем остальным лицам, иснользующим эти же данные из хранилища.

В идеале журналы должны проверяться на наличие ошибок до того, как они станут доступными. Помимо предоставления доступа к журналам, хранилище может содержать список процедур предварительной обработки и их спецификации. Наличие хранилища сертифицированных журиалов дает возможность осуществлять сравнение приложений, использующих данные. Храпилище также предоставляет доступ к исходным журналам, чтобы дать возможность пользователям убедиться в корректности программ, осуществляющих предварительную обработку.

Грунной Web Characterization Group была предпринята попытка определить обобщенный формат для записей журиалов и создать XML-схему для него. Схема представляет собой краткое семантическое описание, как следует интерпретировать ноля в записи. Одной из причин использования XML в качестве языка описания является то, что для проверки корректности записей журнала могут быть использова- пы стандартные инструментальные средства. Если журпал был представлен в формате XML, синтаксический анализатор XML может выполнять различные действия, а именно:

•          Обеспечивать, чтобы каждая запись с результатами измерений имела нужное количество полей. Это облегчает написание простого синтаксического анализатора для журнала, не беспокоясь об ошибочных записях.

•          Обеспечивать, чтобы каждое поле имело ожидаемый тип и диапазон значений. Например, эти проверки могут выявлять все коды ответов, которые не являются допустимыми.

•          Явным образом исправлять любые найденные ошибки, чтобы облегчить преобразование исходного журнала в семантически безупречный журпал, имеющий записи в ожидаемом формате.

Источник: Web-протоколы. Теория и практика. — M.: ЗАО «Издательство БИНОМ», 2002 г. – 592 c.: ил.

Вы можете следить за любыми ответами на эту запись через RSS 2.0 ленту. Вы можете оставить ответ, или trackback с вашего собственного сайта.

Оставьте отзыв

XHTML: Вы можете использовать следующие теги: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

 
Rambler's Top100