Кластеризация результатов

Поскольку данные представлены в том же формате, что и выше, для генерирования и изображения иерархических кластеров можно воспользоваться уже написанными функциями (надо лишь добавить функцию tanamoto в файл clusters.py): >> reload(clusters)

>> wants,people,data=clusters.readfile(‘zebo.txt’) >> clust=clusters.hcluster(data,distance=clusters.tanamoto) >> clusters.drawdendrogram(clust,wants)

Эти команды создают новый файл clusters.jpg, в котором представлены кластеры желаемых приобретений. На рис. 3.6 изображен результат, полученный в результате обработки загруженного набора данных. С точки зрения маркетинга никаких откровений здесь нет – одни и те же люди хотят иметь Xbox, PlayStation Portable и PlayStation 3, – однако имеются также четко выраженные группы очень амбициозных людей (катер, самолет, остров) и людей, ищущих духовные ценности (друзья, любовь, счастье). Интересно также отметить, что люди желающие иметь «деньги», хотят просто «дом», тогда как алчущие «много денег» предпочли бы «красивый дом».

Изменив начальные условия поиска, количество скачиваемых страниц или запросив не «желаемые», а «располагаемые» предметы, возможно, удастся найти другие интересные группы. Можно также попробовать транспонировать матрицу и сгруппировать пользователей. Особенно любопытно было бы собрать данные о возрасте, чтобы посмотреть, как возраст сказывается на желаниях.

Вы можете следить за любыми ответами на эту запись через RSS 2.0 ленту. Вы можете оставить ответ, или trackback с вашего собственного сайта.

Оставьте отзыв

XHTML: Вы можете использовать следующие теги: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

 
Rambler's Top100