Ограничения машинного обучения

У машинного обучения есть свои слабости. Алгоритмы разнятся по способности делать обобщения на основе больших наборов паттернов, и если некий паттерн никогда прежде не встречался, то возможна его ошибочная интерпретация. Человек обладает общекультурной подготовкой и опытом, на котором основывает свои суждения, а также уникальной способностью распознавать похожие ситуации, когда принимает решения на основе новой информации. Методы же машинного обучения могут делать обобщения лишь для тех данных, которые уже видели раньше, и даже в этом существенно ограничены. Метод фильтрации спама, с которым вы ознакомитесь в этой книге, основан на анализе вхождений некоторых слов или фраз без учета их семантики и структуры предложения. Хотя теоретически возможно построить алгоритм, который будет принимать в расчет грамматику, на практике так поступают редко, потому что затраты несоразмерны с улучшением, которого можно достичь. Понимание смысла слов или их соотнесенности с жизнью конкретного человека требует куда больше информации, чем могут получить современные фильтры спама. Кроме того, все алгоритмы машинного обучения в той или иной мере страдают от проблемы чрезмерного обобщения. Как часто бывает в жизни, строгое обобщение на основе немногих примеров редко оказывается точным. Вполне может статься, что вы получите от друга важное письмо, содержащее слова online pharmacy. В таком случае вы сообщите алгоритму, что это сообщение не является спамом, а он может сделать вывод, что от данного отправителя следует принимать любые сообщения. Природа алгоритмов машинного обучения такова, что они продолжают обучаться по мере поступления новой информации.

Вы можете следить за любыми ответами на эту запись через RSS 2.0 ленту. Вы можете оставить ответ, или trackback с вашего собственного сайта.

Оставьте отзыв

XHTML: Вы можете использовать следующие теги: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

 
Rambler's Top100