Прогнозирование количества регистраций

Когда сайт с большим числом посетителей развертывает новое приложение, предлагая бесплатный доступ и подписку, оно может привлечь тысячи новых пользователей. Многие из них просто движимы любопытством и на самом деле в этом приложении не заинтересованы, поэтому вероятность того, что они станут платными клиентами, крайне мала. Из-за этого трудно выделить потенциальных клиентов, на которых стоит акцентировать маркетинговые усилия, поэтому многие сайты прибегают к массовой рассылке писем всем открывшим учетную запись, вместо того чтобы действовать более целенаправленно. Для решения этой проблемы было бы полезно уметь прогнозировать вероятность того, что некий пользователь станет платным клиентом. Вы уже знаете, что для этой цели можно воспользоваться байесовским классификатором или нейронной сетью. Однако в данном случае очень важна четкость – если вы знаете, какие факторы указывают на то, что пользователь может стать клиентом, то можете использовать эту информацию при выработке рекламной стратегии, для того чтобы сделать некоторые разделы сайты более легкодоступными или для придумывания других способов увеличения количества платных клиентов. Мы будем рассматривать гипотетическое онлайновое приложение, которое предлагается бесплатно на пробный период. Пользователь регистрируется для пробной работы, на какое-то число дней получает доступ к сайту, а потом должен решить, хочет ли он перейти на базовое или премиальное обслуживание. После того как пользователь зарегистрировался, о нем собирается информация, а в конце пробного периода владельцы сайта узнают, какие пользователи решили стать платными клиентами.

Чтобы не раздражать пользователей и завершить регистрацию как можно скорее, сайт не просит заполнять длинную анкету, а собирает информацию из протоколов сервера, например: с какого сайта пользователь попал сюда, его географическое положение, сколько страниц он просмотрел, прежде чем зарегистрировался, и т. д. Если собрать все эти данные и свести их в таблицу, то получится что-то похожее на табл. 7.1.

Таблица 7.1. Поведение пользователя на сайте и окончательное решение об оплате

Откуда пришел

Местонахождение

Читал FAQ

Сколько

просмотрел

страниц

Выбранное обслуживание

Slashdot

США

Да

18

Нет

Google

Франция

Да

23

Премиальное

Digg

США

Да

24

Базовое

Kiwitobes

Франция

Да

23

Базовое

Google

Великобритания

Нет

21

Премиальное

(напрямую)

Новая Зеландия

Нет

12

Нет

(напрямую)

Великобритания

Нет

21

Базовое

Google

США

Нет

24

Премиальное

Slashdot

Франция

Да

19

Нет

Digg

США

Нет

18

Нет

Google

Великобритания

Нет

18

Нет

Kiwitobes

Великобритания

Нет

19

Нет

Digg

Новая Зеландия

Да

12

Базовое

Google

Великобритания

Да

18

Базовое

Kiwitobes

Франция

Да

19

Базовое

Организуйте данные в виде списка строк, каждая из которых представляет собой список столбцов. В последнем столбце указывается, оформил данный пользователь платный контракт или нет. Именно это значение мы и хотели бы уметь прогнозировать. Создайте новый файл treepredict.py, с которым вы будете работать в этой статье. Если вы хотите вводить данные вручную, включите в начало файла такие строки: my_data=[[‘slashdot’,’USA’,’yes’,18,’None’],

[‘google’,’France’,’yes’,23,’Premium’],

[‘digg’,’USA’,’yes’,24,’Basic’],

[‘kiwitobes’,’France’,’yes’,23,’Basic’],

[‘google’,’UK’,’no’,21,’Premium’],

[‘(direct)’,’New Zealand’,’no’,12,’None’],

[‘(direct)’,’UK’,’no’,21,’Basic’],

[‘google’,’USA’,’no’,24,’Premium’],

[‘slashdot’,’France’,’yes’,19,’None’],

[‘digg’,’USA’,’no’,18,’None’],

[‘google’,’UK’,’no’,18,’None’],

[‘kiWitobes’,’UK’,’no’,19,’None’],

[‘digg’,’New Zealand’,’yes’,12,’Basic’],

[‘slashdot’,’UK’,’no’,21,’None’],

[‘google’,’UK’,’yes’,18,’Basic’], [‘kiwitobes’,’France’,’yes’,19,’Basic’]]

Можете вместо этого загрузить набор данных со страницы http:// kiwitobes.com/tree/decision_tree_example.txt.

Для загрузки нужно включить в файл такую строку:

my_data=[line.split(‘\t’) for line in file(‘decision_tree_example.txt’)] Теперь у нас есть информация о том, где пользователь находится, как он попал на сайт и сколько времени провел на сайте перед тем, как зарегистрироваться. Нужно лишь заполнить последний столбец, поместив в него обоснованную гипотезу.

Вы можете следить за любыми ответами на эту запись через RSS 2.0 ленту. Вы можете оставить ответ, или trackback с вашего собственного сайта.

Оставьте отзыв

XHTML: Вы можете использовать следующие теги: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

 
Rambler's Top100