Посты для тега : ‘решений’

Введение в теорию деревьев решений

Деревья решений – один из простейших методов машинного обучения. Это совершенно прозрачный способ классификации наблюдений, и после обучения они представляются в виде последовательности предложений if-then (если-то), организованных в виде дерева. На рис. 7.1 приведен пример дерева решений для классификации фруктов.

Читать далее »

Восполнение отсутствующих данных

Еще одно достоинство деревьев решений заключается в их способности восполнять отсутствующие данные. В имеющемся у вас наборе данных какая-то информация может отсутствовать. Так, в рассматриваемом примере не всегда удается определить географическое местонахождение по IP-адресу, поэтому соответствующее поле может быть пусто. Чтобы приспособить дерево решений к такой ситуации, нужно будет по-другому реализовать функцию прогнозирования. Если отсутствуют […]

Читать далее »

Моделирование с помощью деревьев решений

Выше вы ознакомились с различными автоматическими классификаторами, а в этой статье мы продолжим эту тему и поговорим об очень полезном методе, который называется обучением деревьев решений. В отличие от других классификаторов, модели, порождаемые деревьями решений, легко поддаются интерпретации. Список чисел, которые выдает байесовский классификатор, говорит об относительной важности каждого слова, но для получения окончательного результата […]

Читать далее »

Генетические алгоритмы

Еще один класс методов оптимизации, также навеянный природой, называется генетическими алгоритмами. Принцип их работы состоит в том, чтобы создать набор случайных решений, который называется популяцией. На каждом шаге оптимизации целевая функция вычисляется для всей популяции, в результате чего получается ранжированный список решений. В табл. 5.1 приведен пример.

Читать далее »

Классификация новых наблюдений

Теперь нам необходима функция, которая классифицирует новое наблюдение в соответствии с деревом решений. Добавьте ее в файл treepredict.py: def classify(observation,tree): if tree.results!=None: return tree.results else: v=observation[tree.col] branch=None

Читать далее »

Отсечение ветвей дерева

У описанных выше методов обучения дерева есть один недостаток: оно может оказаться переученным (overfitted), то есть излишне ориентированным на данные, предъявленные в процессе обучения. Вероятность ответа, возвращенного переученным деревом, может оказаться выше, чем на самом деле, из-за того что были созданы ветви, лишь немного уменьшающие энтропию предъявленного множества наблюдений, хотя выбранное условие расщепления в действительности […]

Читать далее »

Классификатор на базе деревьев решений

Деревья решений рассматривались ранее  на примере построения модели поведения пользователя исходя из записей в протоколах сервера. Отличительной особенностью деревьев решений является исключительная простота интерпретации. На рис. 12.1 показан пример дерева:

Читать далее »

Алгоритм спуска с горы

Случайное апробирование решений очень неэффективно, потому что пренебрегает выгодами, которые можно получить от анализа уже найденных хороших решений. В нашем примере можно предположить, что расписание с низкой полной стоимостью похоже на другие расписания с низкой стоимостью. Но алгоритм случайной оптимизации беспорядочно прыгает с места на место и не пытается автоматически просмотреть похожие расписания, чтобы найти […]

Читать далее »

Более сложные способы классификации: ядерные методы и машины опорных векторов

В предыдущих статьях мы рассмотрели несколько классификаторов: деревья решений, байесовские классификаторы и нейронные сети. Сейчас мы ознакомимся с линейными классификаторами и ядерными методами, и это послужит прелюдией к одному из самых продвинутых методов классификации, который все еще является предметов активных исследований, – машинам опорных векторов (Support Vector Machines – SVM).

Читать далее »

Рекурсивное построение дерева

Чтобы оценить, насколько хорош выбранный атрибут, алгоритм сначала вычисляет энтропию всей группы. Затем он пытается разбить группу по возможным значениям каждого атрибута и вычисляет энтропию двух новых групп. Для определения того, какой атрибут дает наилучшее разбиение, вычисляется информационный выигрыш, то есть разность между текущей энтропией и средневзвешенной энтропией двух новых групп. Он вычисляется для каждого […]

Читать далее »
 
Rambler's Top100