Посты для тега : ‘docclass’

Документы и слова

Классификатору, который мы построим, будут необходимы признаки для классификации различных образцов. Признаком можно считать любое свойство, относительно которого можно сказать, присутствует оно в образце или нет. Если классифицируются документы, то образцом считается документ, а признаками – встречающиеся в нем слова. Когда слова рассматриваются как признаки, мы предполагаем, что некоторые слова вероятнее встретить в спаме, чем […]

Читать далее »

Сохранение обученных классификаторов

В реальном приложении маловероятно, что обучение и классификацию удастся полностью провести в рамках одного сеанса. Если классификатор – часть веб-приложения, то, наверное, вы захотите сохранить результаты обучения, проведенного пользователем, и восстановить их, когда пользователь придет в следующий раз.

Читать далее »

Краткое введение в теорему Байеса

Теорема Байеса описывает соотношение между условными вероятностями. Обычно она записывается в виде Pr(A | B) = Pr(B | A) x Pr(A) / Pr(B) В применении к нашему примеру эта формула принимает следующий вид: Pr(Категория | Документ) = Pr(Документ | Категория) x x Pr(Категория) / Pr(Документ) В предыдущем разделе мы показали, как вычислить Pr(Документ | Категория), […]

Читать далее »

Метод Фишера

, названный по имени Р. А. Фишера (R. A. Fisher), – это альтернативный метод классификации, который дает очень точные результаты, особенно применительно к фильтрации спама. Он используется в подключаемом к программе Outlook фильтре SpamBayes, который написан на языке Python. В отличие от наивной байесовской фильтрации, когда для вычисления вероятности всего документа перемножаются вероятности отдельных признаков, […]

Читать далее »
 
Rambler's Top100