Сравнение методов фильтрации по схожести пользователей и по схожести образцов

Фильтрация по схожести образцов выполняется гораздо быстрее, чем по схожести пользователей, когда нужно выработать список рекомендаций на большом наборе данных, но она требует дополнительных накладных расходов на хранение таблицы коэффициентов подобия образцов. И точность зависит от того, насколько «разрежен» набор данных. В примере с фильмами каждый критик оценил почти все фильмы, поэтому набор данных плотный (не разреженный). С другой стороны, маловероятно, что на сайте del.icio.us найдутся два человека с одинаковым набором закладок, – большинство закладок сохраняется небольшой группой людей, поэтому набор данных оказывается разреженным. На разреженных наборах данных фильтрация по схожести образцов работает быстрее, чем по схожести пользователей, а на плотных наборах их производительность почти одинакова.

Дополнительную информацию о различии в производительности этих двух алгоритмов можно найти в статье Sarwar и др. «Item-based Collaborative Filtering Recommendation Algorithms» на сайте http://citeseer.ist.psu.edu/sarwarOlitembased.html.

Однако фильтрацию по схожести пользователей проще реализовать, и она не требует дополнительных шагов, поэтому зачастую она более предпочтительна для небольших наборов данных, умещающихся целиком в памяти, которые к тому же очень быстро изменяются. Наконец, в некоторых приложениях отыскание людей, предпочтения которых схожи с предпочтениями данного пользователя, имеет самостоятельную ценность – на сайте онлайновой торговли это, может быть, и ни к чему, а вот на сайтах обмена ссылками или рекомендования музыки было бы очень кстати.

Теперь вы знаете, как вычислять коэффициенты подобия и пользоваться ими для сравнения людей и предметов. Кроме того, вы воспользовались API сайта del.icio. us для построения системы рекомендования ссылок.

Вы можете следить за любыми ответами на эту запись через RSS 2.0 ленту. Вы можете оставить ответ, или trackback с вашего собственного сайта.

Оставьте отзыв

XHTML: Вы можете использовать следующие теги: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

 
Rambler's Top100