Архив для категории: ‘теория’

Проектирование сети отслеживания переходов

Есть много разновидностей нейронных сетей, но все они состоят из множества узлов (нейронов) и связей между ними (синапсов). Сеть, которую мы собираемся построить, называется многоуровневым перцеп- троном (multilayer perceptron – MLP). Такая сеть состоит из нескольких уровней нейронов, первый из которых принимает входные данные – в данном случае поисковые слова, введенные пользователем. Последний уровень возвращает […]

Читать далее »

Создание начальной популяции

Хотя программы для генетического программирования можно создавать и вручную, но обычно начальная популяция состоит из случайно сгенерированных программ. Это упрощает запуск процесса, поскольку отпадает необходимость проектировать несколько программ, которые почти решают задачу. Кроме того, таким образом в начальную популяцию вносится разнообразие, тогда как разные программы для решения одной задачи, написанные одним программистом, скорее всего, были […]

Читать далее »

Определение метрики близости

Для набора данных о блогах, где значениями являются счетчики слов, коэффициент корреляции Пирсона работает неплохо. Но в данном случае у нас есть лишь единицы и нули, представляющие соответственно наличие и отсутствие, и было бы полезнее определить некую меру перекрытия между людьми, желающими иметь два предмета. Такая мера существует и называется коэффициентом Танимото; это отношение мощности […]

Читать далее »

Python Imaging Library

(PIL) – библиотека с открытыми исходными текстами, которая наделяет Python средствами для создания и обработки изображений. Домашняя страница – http://www.pythonware. com/products/pil. Установка на платформе Windows Для библиотеки PIL на платформе Windows имеется Мастер установки. Зайдя на домашнюю страницу, прокрутите окно вниз, найдите раздел Downloads и скачайте последнюю версию исполняемого файла для вашей версии Python. Запустите […]

Читать далее »

Примеры из реальной жизни

В Интернете сейчас есть много сайтов, которые собирают информацию от различных людей и обрабатывают ее методами машинного обучения и математической статистики. Поисковая машина Google – один из ярчайших примеров; она не только использует ссылки для ранжирования страниц, но и постоянно собирает информацию о том, по каким рекламным ссылкам переходили разные пользователи. Это позволяет выдавать рекламу […]

Читать далее »

matplotlib

– это библиотека двумерной графики для Python, которая гораздо лучше приспособлена для создания графиков математических функций, чем Python Imaging Library. Качество создаваемых ею рисунков вполне приемлемо для включения в печатные публикации. Установка

Читать далее »

Что такое коллективный разум

Выражение «коллективный разум» в ходу уже несколько десятилетий, но стало важным и популярным с приходом новых коммуникационных технологий. Оно может вызвать ассоциации с групповым сознанием или сверхъестественными явлениями, но технически ориентированные люди обычно понимают под этим извлечение нового знания из объединенных предпочтений, поведения и представлений некоторой группы людей.

Читать далее »

Разбор страниц сайта Zebo

Структура страницы результатов поиска на сайте Zebo довольно сложна, но определить, какие части страницы относятся к списку элементов, просто, так как для них задан класс bgverdanasmall. Воспользовавшись этим, мы можем извлечь из страницы интересующие нас данные. Создайте файл downloadzebodata.py и включите в него такой код: from BeautifulSoup import BeautifulSoup import urllib2 import re

Читать далее »

Иерархическая кластеризация

Алгоритм иерархической кластеризации строит иерархию групп, объединяя на каждом шаге две самые похожие группы. В начале каждая группа состоит из одного элемента, в данном случае – одного блога. На каждой итерации вычисляются попарные расстояния между группами, и группы, оказавшиеся самыми близкими, объединяются в новую группу. Так повторяется до тех пор, пока не останется всего одна […]

Читать далее »

Документы и слова

Классификатору, который мы построим, будут необходимы признаки для классификации различных образцов. Признаком можно считать любое свойство, относительно которого можно сказать, присутствует оно в образце или нет. Если классифицируются документы, то образцом считается документ, а признаками – встречающиеся в нем слова. Когда слова рассматриваются как признаки, мы предполагаем, что некоторые слова вероятнее встретить в спаме, чем […]

Читать далее »
 
Rambler's Top100