Посты для тега : ‘данные’

Кластеризация результатов

Поскольку данные представлены в том же формате, что и выше, для генерирования и изображения иерархических кластеров можно воспользоваться уже написанными функциями (надо лишь добавить функцию tanamoto в файл clusters.py): >> reload(clusters)

Читать далее »

Масштабирование данных

Когда для сравнения использовался только возраст, нам было достаточно исходных данных, по которым вычислялись средние и расстояния; ведь сравнивать переменные, обозначающие одно и то же, вполне допустимо. Однако теперь мы ввели несколько новых переменных, которые с возрастом несравнимы, так как принимают гораздо меньшие значения. Разное отношение к детям (возможные значения 1 и -1, максимальное расстояние […]

Читать далее »

Открытие вашей базы данных всему миру

  Когда вы решаете предоставить ваши данные для совместного использования, прежде всего, следует решить, могут ли другие пользователи изменять вашу информацию. Как вы увидите, распространять копии своей БД легко, а вот обеспечить работу многих пользователей с одним и тем же файлом БД в одно и то же время — более сложное дело.

Читать далее »

Использование набора данных MovieLens

В последнем примере мы рассмотрим реальный набор данных с оценками фильмов, который называется MovieLens. Этот набор был подготовлен в ходе работы над проектом GroupLens в университете штата Миннесота. Загрузить его можно со страницы http://www.grouplens. org/node/12. Там есть два набора данных. Скачайте набор 100 000 в формате tar.gz или zip в зависимости от платформы, на которой […]

Читать далее »

Что такое XML на самом деле?

  Сам по себе язык XML воспринимается как нечто суперсовременное. Пользователи часто описывают его как формат хранения информации. Например, вместо сохранения данных в документах Word, электронных таблицах Excel или обычных текстовых файлах можно сохранять данные в XML-файле. Эта простота кажущаяся, и два фактора делают язык XML чем-то особенным.

Читать далее »

Экспортируемые типы файлов

  Также как можно импортировать информацию из других файлов и включить ее в вашу БД, можно взять имеющиеся данные и экспортировать их в другой формат. Чаще всего вам придется выполнять эту операцию, чтобы разрешить другому пользователю или программе воспользоваться вашей информацией без обращения к программе Access.

Читать далее »

Разделенные формы

  У режимов представления одиночной записи и множественных записей есть свои достоинства. В режиме отображения одиночной записи у вас много места для просмотра записи и вас не отвлекает обилие информации на экране. В режиме одновременного представления нескольких записей вы можете сравнить текущую запись с соседними записями.

Читать далее »

Учитесь любить PDF-файлы

  Возможно, вы слышали о PDF — популярном формате компании Adobe, предназначенном для коллективного использования отформатированных, готовых к выводу па печать документов.   Формат PDF применяется для распространения сопроводительных руководств к изделиям, буклетов и электронных документов всех сортов. В отличие от форматов документов, таких как XLSX, PDF-файлы разработаны для просмотра и печати, но не для […]

Читать далее »

Классификатор на базе деревьев решений

Деревья решений рассматривались ранее  на примере построения модели поведения пользователя исходя из записей в протоколах сервера. Отличительной особенностью деревьев решений является исключительная простота интерпретации. На рис. 12.1 показан пример дерева:

Читать далее »

Обучение дерева

В этой статье используется алгоритм CART (Classification and Regression Trees – деревья классификации и регрессии). Для построения дерева решений алгоритм сначала создает корневой узел. Рассмотрев все наблюдения в таблице, он выбирает наилучшую переменную, по которой можно разбивать данные на две части. Для этого нужно решить, какое условие (например, «Читал ли пользователь FAQ (Часто задаваемые вопросы)?») […]

Читать далее »
 
Rambler's Top100