Посты для тега : ‘образцов’

Фильтрация по схожести образцов

Мы реализовали механизм рекомендования таким образом, что для создания набора данных необходимы оценки, выставленные каждым пользователем. Для нескольких тысяч людей или предметов это, возможно, и будет работать, но на таком большом сайте, как Amazon, миллионы пользователей и товаров, поэтому сравнение каждого пользователя со всеми другими, а затем сравнение товаров, которым каждый пользователь выставил оценки, займет […]

Читать далее »

k-ближайшие соседи

Ранее рассматривалась тема числового прогнозирования с помощью алгоритма fe-ближайших соседей (kNN). С его помощью были построены модели прогнозирования цен. Алгоритм рекомендования ранее, который прогнозировал, понравится ли данному человеку некий фильм или ссылка, тоже был основан на упрощенном варианте kNN.

Читать далее »

Иерархическая кластеризация

Кластеризация применима к любому набору образцов, имеющих одно или несколько числовых свойств. В приведенном ранее примере свойствами блогов были счетчики слов, но, в принципе, для кластеризации подойдет любой набор чисел. Для демонстрации работы алгоритма кластеризации рассмотрим простую таблицу образцов (какие-то буквы алфавита) и некоторые числовые свойства (табл. 12.7).

Читать далее »

Сравнение методов фильтрации по схожести пользователей и по схожести образцов

Фильтрация по схожести образцов выполняется гораздо быстрее, чем по схожести пользователей, когда нужно выработать список рекомендаций на большом наборе данных, но она требует дополнительных накладных расходов на хранение таблицы коэффициентов подобия образцов. И точность зависит от того, насколько «разрежен» набор данных. В примере с фильмами каждый критик оценил почти все фильмы, поэтому набор данных плотный […]

Читать далее »

Многомерное шкалирование

Ранее к анализу блогов был применен также метод многомерного шкалирования. Как и кластеризация, это метод обучения без учителя. Он предназначен не для прогнозирования, а чтобы понять, как различные образцы связаны между собой. Алгоритм создает представление набора данных в пространстве меньшей размерности, стараясь по возможности сохранить исходные расстояния между элементами. Если речь идет о представлении на […]

Читать далее »

Кластеризация методом K-средних

Еще один метод кластеризации – это метод ^-средних. Если при иерархической кластеризации создается дерево образцов, то метод .^-средних разбивает данные на отдельные группы. Но перед началом работы алгоритма вы должны задать количество желаемых групп. На рис. 12.14 иллюстрируется кластеризация методом . -средних в действии. Здесь мы пытаемся найти два кластера в несколько ином наборе данных.

Читать далее »

Алгоритм k-ближайших соседей

Простейший подход к решению задачи о ценах на вина не отличается от того, которым вы пользуетесь, рассчитывая цены вручную, – найти несколько похожих образцов и предположить, что цены будут примерно одинаковыми. Найдя множество образцов, похожих на тот, что вас интересует, алгоритм может усреднить их цены и предположить, какой будет цена на ваш образец. В этом […]

Читать далее »
 
Rambler's Top100