Посты для тега : ‘признаков’

Использование данных о фондовом рынке

Алгоритм NMF может работать не только с дискретными данными, например счетчиками слов, но и с числовыми. В этом разделе мы покажем, как применить его к объему торгов на рынке акций США, воспользовавшись данными с сайта Yahoo! Finance. Возможно, что в результате анализа нам удастся обнаружить паттерны, определяющие важность торговых сессий, или понять, от каких факторов […]

Читать далее »

Неотрицательная матричная факторизация

В предыдущих статьях рассматривался алгоритм неотрицательной матричной факторизации (NMF), который разбивает набор числовых наблюдений на компоненты. Этот метод был применен к задаче тематической классификации новостей и к задаче обнаружения событий, повлиявших на объемы торгов отдельными акциями или группами акций. Алгоритм не нуждается в учителе, поскольку применяется для того, чтобы охарактеризовать данные, а не для прогнозирования […]

Читать далее »

Библиотека NumPy

В стандартном дистрибутиве Python нет функций для операций над матрицами. Хотя их несложно написать самостоятельно, но лучше установить пакет NumPy, который не только предоставляет объект matrix и поддерживает все необходимые операции, но и сравним по производительности с коммерческими программами. Загрузить этот пакет можно с сайта http://numpy.scipy.org.

Читать далее »

Неотрицательная матричная факторизация

Техника выделения существенных признаков из данных называется неотрицательной матричной факторизацией (Non-negative Matrix Factorization – NMF). Это один из наиболее сложных методов во всей книге, поэтому потребуется чуть больше объяснений и краткое введение в линейную алгебру. Но в этом разделе мы рассмотрим все, что нужно знать.

Читать далее »

Выделение независимых признаков

В этой статье мы узнаем, как выделять признаки из набора данных, в котором результаты заранее не проставлены. Как и в случае кластеризации, задача состоит не столько в том, чтобы делать прогнозы, сколько в попытке охарактеризовать данные и сообщить о них интересную информацию.

Читать далее »

Документы и слова

Классификатору, который мы построим, будут необходимы признаки для классификации различных образцов. Признаком можно считать любое свойство, относительно которого можно сказать, присутствует оно в образце или нет. Если классифицируются документы, то образцом считается документ, а признаками – встречающиеся в нем слова. Когда слова рассматриваются как признаки, мы предполагаем, что некоторые слова вероятнее встретить в спаме, чем […]

Читать далее »

Усовершенствование алгоритма обнаружения признаков

Во всех рассмотренных до сих пор примерах функция создания списка признаков просто разбивает текст на слова по символам, отличным от букв и цифр. Кроме того, она преобразует слова в нижний регистр, поэтому пропадает возможность обнаружить чрезмерное количество слов, написанных заглавными буквами. Ситуацию можно улучшить несколькими способами:

Читать далее »

Байесовский классификатор

Байесовские классификаторы рассматривались ранее. Мы показали, как построить систему классификации документов, например, для фильтрации спама или разбиения множества документов по категориям при наличии неоднозначных результатов поиска по ключевым словам.

Читать далее »
 
Rambler's Top100