Иерархическая кластеризация

Кластеризация применима к любому набору образцов, имеющих одно или несколько числовых свойств. В приведенном ранее примере свойствами блогов были счетчики слов, но, в принципе, для кластеризации подойдет любой набор чисел. Для демонстрации работы алгоритма кластеризации рассмотрим простую таблицу образцов (какие-то буквы алфавита) и некоторые числовые свойства (табл. 12.7).

Таблица 12.7. Простая таблица для кластеризации

Образец

Р1

P2

A

1

8

B

3

8

C

2

6

D

1,5

1

E

4

2

На рис. 12.12 представлен процесс кластеризации этих образцов. Образцы представлены на двумерной диаграмме, где по оси x отложено свойство P1, а по оси y – свойство P2. Сначала находятся два самых близких образца и объединяются в кластер (первый рисунок). На втором рисунке мы видим, что образцы A и B попали в одну группу. Координатами этого кластера считаются усредненные координаты включенных в него образцов. На следующем рисунке ближайшими оказываются образец C и кластер A-B. Процесс продолжается, пока не останется один большой кластер.

В результате создается иерархия, которую можно визуализировать в виде дендрограммы – древовидной структуры, из которой видно, какие

Рис. 12.12. Процесс иерархической кластеризации

 

Рис. 12.13. Дендрограмма кластеризованных букв

образцы и группы были сочтены ближайшими. Дендрограмма рассматриваемого набора данных изображена на рис. 12.13. Два ближайших элемента A и B соединены между собой. Затем к комбинации A и B присоединен образец C. Вы можете выбрать любую точку ветвления на дендрограмме и решить, представляет ли данная группа интерес. Ранее мы видели ветви, состоящие почти исключительно из политических блогов, ветви, объединяющие технологические блоги, и т. д.

Вы можете следить за любыми ответами на эту запись через RSS 2.0 ленту. Вы можете оставить ответ, или trackback с вашего собственного сайта.

Оставьте отзыв

XHTML: Вы можете использовать следующие теги: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

 
Rambler's Top100