Архив для категории: ‘AI’

Простой подсчет ссылок

Простейший способ работы с внешними ссылками заключается в том, чтобы подсчитать, сколько их ведет на каждую страницу, и использовать результат в качестве метрики. Так обычно оцениваются научные работы; считается, что их значимость тем выше, чем чаще их цитируют. Представленная ниже функция ранжирования создает словарь счетчиков, делая запрос к таблице ссылок для каждого уникального идентификатора URL […]

Читать далее »

Фильтрация по схожести образцов

Мы реализовали механизм рекомендования таким образом, что для создания набора данных необходимы оценки, выставленные каждым пользователем. Для нескольких тысяч людей или предметов это, возможно, и будет работать, но на таком большом сайте, как Amazon, миллионы пользователей и товаров, поэтому сравнение каждого пользователя со всеми другими, а затем сравнение товаров, которым каждый пользователь выставил оценки, займет […]

Читать далее »

Библиотека LIBSVM

Из предыдущего раздела вам, наверное, ясно, как и почему работают машины опорных векторов, но в их обучении задействованы математические методы, требующие огромного объема вычислений и выходящие далеко за рамки этой статьи. Поэтому мы воспользуемся библиотекой LIBSVM с открытыми исходными текстами, которая позволяет обучить SVM-модель, делать прогнозы и проверять их на том же наборе данных. В […]

Читать далее »

Гетерогенные переменные

Все переменные, используемые для прогнозирования цены, более-менее сравнимы между собой и все существенны для получения конечного результата. Так как все переменные попадают в один и тот же диапазон, то имеет смысл вычислять сразу все расстояния между ними. Представьте, однако, что имеется еще одна переменная, влияющая на цену, скажем объем бутылки в миллилитрах. В отличие от […]

Читать далее »

Коэффициент Джини

измеряет неоднородность набора. Если имеется набор [A, A, B, B, B, С], то коэффициент Джини – это вероятность того, чтобы вы ошибетесь, выбрав какой-то элемент и попытавшись случайно угадать его метку. Если бы набор состоял только из элементов A, то вы всегда говорили бы A и никогда не ошибались, следовательно, набор полностью однороден.

Читать далее »

Подбор пар на сайте Facebook

Сайт Facebook – это популярная социальная сеть, которая первоначально была ориентирована на студентов колледжей, но затем открылась для более широкой аудитории. Как и другие социальные сети, она позволяет пользователям создавать профили, вводить о себе демографическую информацию и общаться с друзьями на сайте. Кроме того, Facebook предоставляет API, позволяющий запрашивать информацию о людях и узнавать, являются […]

Читать далее »

Идея ядерных методов

Посмотрите, что получится, если применить линейный классификатор к набору данных, подобному изображенному на рис. 9.7. Где окажутся средние точки каждого класса? В точности в одном и том же месте! Хотя и вам, и мне ясно, что все точки внутри круга – крестики, а вне него – кружки, линейный классификатор не в состоянии различить эти классы.

Читать далее »

pysqlite

– это интерфейс из языка Python к встраиваемой базе данных SQLite. В отличие от традиционных СУБД, встраиваемая база работает не в отдельном процессе, поэтому установка и настройка не требует больших усилий. Вся база данных SQLite хранится в одном файле. В этой книге библиотека использовалась для сохранения некоторых собранных данных.

Читать далее »

Использование данных о фондовом рынке

Алгоритм NMF может работать не только с дискретными данными, например счетчиками слов, но и с числовыми. В этом разделе мы покажем, как применить его к объему торгов на рынке акций США, воспользовавшись данными с сайта Yahoo! Finance. Возможно, что в результате анализа нам удастся обнаружить паттерны, определяющие важность торговых сессий, или понять, от каких факторов […]

Читать далее »

Неотрицательная матричная факторизация

В предыдущих статьях рассматривался алгоритм неотрицательной матричной факторизации (NMF), который разбивает набор числовых наблюдений на компоненты. Этот метод был применен к задаче тематической классификации новостей и к задаче обнаружения событий, повлиявших на объемы торгов отдельными акциями или группами акций. Алгоритм не нуждается в учителе, поскольку применяется для того, чтобы охарактеризовать данные, а не для прогнозирования […]

Читать далее »
 
Rambler's Top100