Посты для тега : ‘классификатор’

Фильтрация блогов

Для тестирования классификатора на реальных данных и демонстрации различных способов использования можно применить его к записям из блогов или других RSS-каналов. Для этого вам потребуется библиотека Universal Feed Parser. Если вы еще не скачали ее, зайдите на сайт http://feedparser.org. Дополнительную информацию об установке Feed Parser см. в приложении А.

Читать далее »

Метод опорных векторов

Ранее  были рассмотрены машины опорных векторов (SVM). Пожалуй, это самый сложный метод классификации из всех описанных в книге. SVM принимает набор данных, состоящий из чисел, и пытается спрогнозировать, в какую категорию он попадает. Можно, например, определить роль игрока в баскетбольной команде по его росту и скорости бега. Для простоты рассмотрим всего две возможности: позиция в […]

Читать далее »

Сохранение обученных классификаторов

В реальном приложении маловероятно, что обучение и классификацию удастся полностью провести в рамках одного сеанса. Если классификатор – часть веб-приложения, то, наверное, вы захотите сохранить результаты обучения, проведенного пользователем, и восстановить их, когда пользователь придет в следующий раз.

Читать далее »

Усовершенствование алгоритма обнаружения признаков

Во всех рассмотренных до сих пор примерах функция создания списка признаков просто разбивает текст на слова по символам, отличным от букв и цифр. Кроме того, она преобразует слова в нижний регистр, поэтому пропадает возможность обнаружить чрезмерное количество слов, написанных заглавными буквами. Ситуацию можно улучшить несколькими способами:

Читать далее »

Простая линейная классификация

Этот классификатор будет совсем простым, но послужит неплохой основой для дальнейшей работы. Он ищет среднее по всем данным в каждом классе и строит точку, представляющую центр этого класса. Новые точки классифицируются по близости к имеющимся центрам. Нам потребуется функция, которая вычисляет среднюю точку класса. В данном случае есть всего два класса, соответствующие 0 и 1. […]

Читать далее »

Байесовский классификатор

Байесовские классификаторы рассматривались ранее. Мы показали, как построить систему классификации документов, например, для фильтрации спама или разбиения множества документов по категориям при наличии неоднозначных результатов поиска по ключевым словам.

Читать далее »

Байесовская классификация

Напомним, что байесовская классификация – это метод обучения с учителем. Если вы собираетесь воспользоваться классификатором, то сначала должны сами классифицировать несколько новостей, чтобы его обучить. Затем классификатор сможет распределить остальные новости по заранее заданным категориям. Помимо очевидного недостатка – необходимости начального обучения – у этого подхода есть и еще одно ограничение – разработчик должен сам […]

Читать далее »
 
Rambler's Top100