Кластеризация

Ранее мы видели еще один метод обучения без учителя – кластеризацию.

Там данные были организованы в виде такой же матрицы, что и здесь. Если написанный тогда модуль еще сохранился, импортируйте его в сеансе работы с интерпретатором и примените к только что заданной матрице алгоритм кластеризации: >>> import clusters

>>> clust=clusters.hcluster(wordmatrix) >>> clusters.drawdendrogram(clust,artt,jpeg=’news.jpg’)

На рис. 10.1 показан возможный результат кластеризации, который сохранен в файле news.jpg.

Как и следовало ожидать, похожие новости сгруппированы вместе. Результат получился даже лучше, поскольку в различных публикациях обсуждаются в точности одни и те же события примерно одинаковым языком. Но пара примеров на рис. 10.1 показывает, что распределение новостей по разным «корзинам» не всегда дает точную картину. Так, статья на тему здоровья «The Nose Knows Better» (Нос знает лучше) оказалась в одной группе с «Suffolk Strangler» (Душитель из Суффолка). Иногда новости, как и люди, не раскладываются по полочкам, и каждую следует считать уникальной.

Если хотите, поверните матрицу на 90° и посмотрите, как кластеризуются слова, встречающиеся в новостях. В нашем примере слова station (станция), solar (солнечная) и astronauts (астронавты) оказались в одной группе.

Рис. 10.1. На этой дендрограмме изображен результат кластеризации новостей

Вы можете следить за любыми ответами на эту запись через RSS 2.0 ленту. Вы можете оставить ответ, или trackback с вашего собственного сайта.

Оставьте отзыв

XHTML: Вы можете использовать следующие теги: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

 
Rambler's Top100