Протоколирование на Web-cepвepax

Web-сервер Обычно ведет журнал во время обработки запросов клиентов. Каждая запись журнала соответствует HTTP-запросу, обрабатываемому сервером.

В запись включается информация о запрашивающем клиенте, время запроса и информация о запросе и ответе. Разработчики Web-серверов обычно следуют неформальным стандартам форматов журналов, что более подробно описапо в разделе 9.3. Сходство в форматах журналов и доминирование небольшого числа типов Web-серверов облегчили создапие многочисленных инструментальных средств для анализа журналов. Статистический анализ данных журналов серверов дает ценную информацию для разработчиков и администраторов Web-сайтов. Кроме того, серверные журналы предоставили исследователям уникальную возможность изучить предпочтения групп клиентов по выбору ресурсов. Журналы серверов использовались в большинстве исследовательских работ, посвященных описанию НТТР-тра- фика и новым Web-техиологиям.

Большинство Web-серверов осуществляют по умолчанию протоколирование, по на практике журиалы серверов не предоставляют очень подробной информации. В связи с тем, что запись заголовка запроса приведет к значительным накладным расходам, большинство серверов записывают только метод запроса, запрашиваемый URI и код ответа. Кроме того, серверный журпал не предоставляет точной информации о времени. Например, значение времеии в записи журнала сервера может быть временем получения запроса, временем начала или конца обработки запроса или временем отправки ответа. Журнал сервера редко включает в себя все эти моменты времени. Вдобавок, значения времени могут быть записаны с низкой разрешающей способностью, например, с точностью до секунды. Низкая точность значений времени затрудняет определение того, как долго сервер обрабатывает одиночный запрос, или сколько времеии проходит между последующими запросами. Помимо того, записи в журнале идут не в порядке получения НТТР-запросов, а лишь в порядке регистрации их сервером.

На первый взгляд журнал Web-сервера мог бы использоваться для анализа пользовательских предпочтений и относительной популярности ресурсов на Web-сайте. На самом деле запросы, которые удовлетворяются из кэша браузера или прокси-сервера, не появляются в журнале сервера. Сервер не знает, сколько запросов удовлетворяются из кэша. Между прочим, популярные ресурсы чаще всего удовлетворяются из кэша. Чтобы гарантировать, что все запросы регистрируются в журнале, сервер может быть настроен так, чтобы ограничить кэширование ответов клиентами и прокси-серверами. Например, каждое ответное сообщение с сервера может включать заголовок, запрещающий кэширование или требующий проверки актуальности кэши- рованных ответов. Правда, такие методики увеличивают трафик в сети, уменьшая эффективность кэширования, как это описано далее в главе 11 (раздел 11.11.1).

Каждая запись в журнале сервера включает информацию о клиенте, инициировавшем запрос. Обычно сервер записывает IP-адрес клиента или его доменное имя. Информация об агенте пользователя важна для изучения вопроса о предпочтениях в выборе пользователями браузеров. В то же время соотнесение запросов с реальными пользователями осложнено по множеству причин:

•          Прокси-серверы. Запрос может прийти от прокси-сервера вместо агента пользователя. Один и тот же прокси-сервер может геперировать запросы от лица разных пользователей, что делает сложпым определение пользователя, пославшего тот или иной запрос.

•          Разные пользователи на одной машине. Многие организации имеют компьютеры с отдельными профилями пользователей. IP-адрес клиента перестает быть уникальным идентификатором, когда агенты пользователей работают от лица разных пользователей на одном и том же компьютере.

• Динамическое выделение IР-адресов. IP-адрес, связанный с определенным компьютером, может меняться. Многие пользователи подключаются к Internet с помощью модема. Провайдеры обычно динамически выделяют клиенту IP-адрес из пула свободных адресов.

Запросы от одного и того же пользователя могут приходить с различных IР-адре- сов, а различные пользователи могут делать запросы с одного IP-адреса. Чтобы спять эти двусмысленности, некоторые сайты для отслеживания пользователей используют cookies, которые позволяют более точно идентифицировать пользователя.

Хотя серверные журналы сыграли ключевую роль в изучении Web, данные журнала одного сервера не могут быть репрезентативными для других серверов. Web-сайты силыю отличаются по своей популярности и функционалыюсти. Web-сайт высшего учебного заведения существенно отличается от портала или сайта электронной коммерции. На сайтах могут быть размещены различные типы ресурсов, они имеют различную пользовательскую аудиторию. Кроме того, исследователи Обычно не имеют доступа к журналам серверов коммерческих Web-сайтов. Компании могут считать, что журналы содержат конфиденциальную информацию о покупателях или другую информацию, которая может оказаться полезной копкурептам. В результате мпогие проекты по исследованию Web основываются на журналах университетов и некоммерческих учреждений. К сожалению, трудно перенести результаты этих исследований на коммерческие Web-сайты.

Источник: Web-протоколы. Теория и практика. — M.: ЗАО «Издательство БИНОМ», 2002 г. – 592 c.: ил.

Вы можете следить за любыми ответами на эту запись через RSS 2.0 ленту. Вы можете оставить ответ, или trackback с вашего собственного сайта.

Оставьте отзыв

XHTML: Вы можете использовать следующие теги: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

 
Rambler's Top100