В каких случаях применять деревья решений

Пожалуй, основное достоинство деревьев решений – это простота интерпретации обученной модели. Применив алгоритм к рассмотренной задаче, мы получили не только дерево, способное делать прогнозы о поведении новых пользователей, но и список вопросов, на которые нужно ответить для выработки решения. Например, видно, что люди, приходящие на данный сайт с сайта Slashdot, никогда не становятся платными подписчиками, тогда как нашедшие его с помощью Google и просмотревшие по меньшей мер 20 страниц, вероятно, оформят подписку на премиальное обслуживание. Это, в свою очередь, наводит на мысль изменить рекламную стратегию, сфокусировавшись на сайтах, дающих наиболее высококачественный трафик. Мы выяснили также, что

некоторые переменные, например место проживания, не влияют на результат. Если какие-то данные трудно собрать, а в итоге оказывается, что они несущественны, то можно прекратить их сбор. В отличие от других алгоритмов машинного обучения, деревья решения могут работать как с числовыми, так и с дискретными данными. В первом примере мы классифицировали страницы по нескольким дискретным показателям. Далее некоторые алгоритмы требуют предварительной подготовки или нормализации данных, а программы из этой статьи принимают любой список данных, содержащих числовые или дискретные параметры, и строят соответствующее им дерево решений.

Деревья решений допускают также вероятностные прогнозы. В некоторых задачах для проведения четкого разграничения иногда не хватает данных – в дереве решений может встретиться узел, для которого есть несколько возможностей, а дальнейшее расщепление невозможно. Программа, представленная в этой статье, возвращает словарь счетчиков для различных результатов, и с помощью этой информации мы можем решить, в какой мере результат заслуживает доверия. Не все алгоритмы способны оценить вероятность результата в условиях неопределенности.

Однако у деревьев решений есть и очевидные недостатки. Они хорошо подходят для задач с небольшим числом возможных результатов, но неприменимы к наборам данных, где число возможных исходов велико. В нашем первом примере было всего три результата: «Нет», «Базовое» и «Премиальное». Если бы количество результатов исчислялось сотнями, то построенное дерево оказалось бы слишком сложным и, скорее всего, давало бы плохие прогнозы.

Еще один крупный недостаток рассмотренных выше деревьев решений заключается в том, что хотя они и способны работать с простыми числовыми данными, но условие может формулироваться только в терминах «больше/меньше». Это затрудняет применение деревьев решений к задачам, где класс определяется более сложным сочетанием переменных. Например, если бы результат определялся на основе величины разности между двумя переменными, то дерево выросло бы до невообразимых размеров и очень быстро утратило бы точность прогнозирования.

Подводя итог, можно сказать, что деревья решения – не самый удачный выбор для задач с большим количеством числовых входов и выходов или со сложными взаимосвязями между числовыми входами, какие встречаются, например, при интерпретации финансовых данных или анализе изображений. Напротив, деревья решения – отличный инструмент анализа наборов с большим числом дискретных и числовых данных с четкими точками расщепления. Они оптимальны, когда важно понимать процесс принятия решения; как вы могли убедиться, наблюдение за рассуждением иногда не менее важно, чем конечный прогноз.

Вы можете следить за любыми ответами на эту запись через RSS 2.0 ленту. Вы можете оставить ответ, или trackback с вашего собственного сайта.

Оставьте отзыв

XHTML: Вы можете использовать следующие теги: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

 
Rambler's Top100