Фильтрация спама

Первые попытки фильтрации спама полагались на классификаторы на основе правил, когда человек сам формулировал правила, в соответствии с которыми сообщение признавалось полезным или спамом. Обычно правила касались слишком большого числа заглавных букв, упоминания фармацевтической продукции или чрезмерно пестрой раскраски. Но довольно быстро выявился очевидный недостаток подобных классификаторов – спамеры изучили все правила и перестали явно выдавать себя, научившись обходить фильтры. И наоборот, люди, чьи престарелые родители так и не научились нажимать клавишу Caps Lock, обнаружили, что вполне нормальные сообщения от них классифицируются как спам.

У фильтров на основе правил есть и еще один минус. Признаки спама меняются в зависимости от того, откуда отправлено сообщение и кому оно адресовано. Ключевые слова, которые для одного пользователя, форума или раздела Википедии служат несомненным признаком спа- ма, в другой ситуации считаются совершенно нормальными. Чтобы разрешить эту проблему, мы в данной статье рассмотрим программы, которые обучаются по мере того, как вы сообщаете им, что считать спамом, а что нет, причем это происходит как на начальной стадии, так и в процессе получения новых сообщений. Таким образом можно подготовить различные экземпляры и наборы данных для разных пользователей, групп и сайтов, каждый из которых будет по-своему уточнять, что такое спам.

Вы можете следить за любыми ответами на эту запись через RSS 2.0 ленту. Вы можете оставить ответ, или trackback с вашего собственного сайта.

Оставьте отзыв

XHTML: Вы можете использовать следующие теги: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

 
Rambler's Top100