Архив для категории: ‘теория’

Использование службы Akismet

Разговор о службе Akismet уведет нас немного в сторону от изучения алгоритмов классификации текстов, но для некоторого класса приложений эта служба позволяет решить задачу фильтрации спама с минимальными усилиями и избавить вас от необходимости строить собственный классификатор.

Читать далее »

Ранжирование по содержимому

Пока что мы научились находить страницы, соответствующие запросам, но возвращаем мы их в том порядке, в котором они посещались пауком. Если набор страниц велик, то вам предстоит просеять кучу не относящихся к делу документов, в которых встречаются упомянутые в запросе слова, чтобы найти то, что вас действительно интересует. Чтобы решить эту проблему, необходимо как-то присвоить […]

Читать далее »

Поиск реальных авиарейсов

Разобравшись с тестовыми данными, попробуем применить те же самые методы оптимизации к реальным данным об авиарейсах. Мы загрузим данные с сайта Kayak, который предоставляет API для поиска авиарейсов. Основное отличие тестовых данных от реальных заключается в том, что между крупными городами бывает гораздо больше девяти рейсов в день.

Читать далее »

Перекрестный контроль

Перекрестным контролем называется методика, смысл которой заключается в разделении данных на обучающие и тестовые наборы. Обучающий набор передается алгоритму вместе с правильными ответами (в данном случае ценами) и затем используется для прогнозирования. После этого у алгоритма запрашиваются прогнозы для каждого образца из тестового набора. Полученные ответы сравниваются с правильными, и вычисляется суммарная оценка качества алгоритма.

Читать далее »

Обучение на основе действий пользователя

Рис. 4.4. Проект нейронной сети отслеживания переходов Одно из основных достоинств онлайновых приложений состоит в том, что они все время получают обратную связь в виде поведения пользователей. В случае поисковой машины каждый пользователь тут же сообщает о том, насколько ему понравились результаты поиска, щелкая по одному результату и игнорируя остальные. В этом разделе мы рассмотрим […]

Читать далее »

Оценка плотности распределения вероятности

Вместо того чтобы вычислять средневзвешенное соседей и получать оценку в виде одного числа, в данном случае интересно знать вероятность того, что образец попадает в некоторую ценовую категорию. Для 20-летнего вина с рейтингом 99% искомая функция должна была бы сообщить, что с вероятностью 50% цена окажется в диапазоне от $40 до $80 и с вероятностью 50% […]

Читать далее »

Круговой турнир

Следуя идеологии коллективного разума, надо было бы проверять пригодность программ в игре против людей и соответственно проводить эволюцию. Было бы замечательно учесть при разработке «умной» программы поведение тысяч людей. Но при большой популяции и многих поколениях пришлось бы сыграть десятки тысяч игр, в большинстве своем с очень слабыми противниками. На практике это нереализуемо, поэтому сначала […]

Читать далее »

Введение в теорию деревьев решений

Деревья решений – один из простейших методов машинного обучения. Это совершенно прозрачный способ классификации наблюдений, и после обучения они представляются в виде последовательности предложений if-then (если-то), организованных в виде дерева. На рис. 7.1 приведен пример дерева решений для классификации фруктов.

Читать далее »

Гауссова функция

описывает плотность распределения вероятности нормальной кривой. Она использовалась в книге как весовая функция во взвешенном методе k-ближайших соседей, поскольку ее начальное значение велико и быстро убывает, никогда не становясь равным 0. Формула гауссова распределения с дисперсией о показана ниже:

Читать далее »

Фильтрация блогов

Для тестирования классификатора на реальных данных и демонстрации различных способов использования можно применить его к записям из блогов или других RSS-каналов. Для этого вам потребуется библиотека Universal Feed Parser. Если вы еще не скачали ее, зайдите на сайт http://feedparser.org. Дополнительную информацию об установке Feed Parser см. в приложении А.

Читать далее »
 
Rambler's Top100