Посты для тега : ‘numpredict’

Гетерогенные переменные

Все переменные, используемые для прогнозирования цены, более-менее сравнимы между собой и все существенны для получения конечного результата. Так как все переменные попадают в один и тот же диапазон, то имеет смысл вычислять сразу все расстояния между ними. Представьте, однако, что имеется еще одна переменная, влияющая на цену, скажем объем бутылки в миллилитрах. В отличие от […]

Читать далее »

Перекрестный контроль

Перекрестным контролем называется методика, смысл которой заключается в разделении данных на обучающие и тестовые наборы. Обучающий набор передается алгоритму вместе с правильными ответами (в данном случае ценами) и затем используется для прогнозирования. После этого у алгоритма запрашиваются прогнозы для каждого образца из тестового набора. Полученные ответы сравниваются с правильными, и вычисляется суммарная оценка качества алгоритма.

Читать далее »

Оценка плотности распределения вероятности

Вместо того чтобы вычислять средневзвешенное соседей и получать оценку в виде одного числа, в данном случае интересно знать вероятность того, что образец попадает в некоторую ценовую категорию. Для 20-летнего вина с рейтингом 99% искомая функция должна была бы сообщить, что с вероятностью 50% цена окажется в диапазоне от $40 до $80 и с вероятностью 50% […]

Читать далее »

Оптимизация масштаба

В данном случае выбрать подходящие параметры масштабирования не так уж сложно, потому что вы заранее знаете, какие переменные существенны. Но обычно приходится работать с наборами данных, построенными кем-то другим, поэтому априорной информации о том, какие переменные существенны, а какие – нет, может и не быть. Теоретически можно попробовать много разных сочетаний коэффициентов, пока не найдется […]

Читать далее »

Взвешенные соседи

Один из способов компенсировать тот факт, что алгоритм может отбирать слишком далеких соседей, заключается в том, чтобы взвешивать их с учетом расстояния. Это напоминает метод когда предпочтения людей взвешивались с учетом того, насколько они схожи с предпочтениями человека, нуждающегося в рекомендации.

Читать далее »

Неравномерные распределения

До сих пор мы предполагали, что если взять среднее или взвешенное среднее данных, то мы получим приемлемую оценку конечной цены. Часто так оно и есть, но бывают ситуации, когда на результат влияет какая-то неизмеренная переменная. Представьте себе, что покупатели вина делятся на две группы: покупающие в специализированных винных магазинах и в магазинах эконом-класса, где дают […]

Читать далее »

Графическое представление вероятностей

Чтобы не гадать, какие диапазоны апробировать, можно создать графическое представление плотности распределения вероятности. Для построения графиков существует отличная библиотека matplotlib, которую можно скачать с сайта http://matplotlib.sourceforge.net.

Читать далее »

Алгоритм k-ближайших соседей

Простейший подход к решению задачи о ценах на вина не отличается от того, которым вы пользуетесь, рассчитывая цены вручную, – найти несколько похожих образцов и предположить, что цены будут примерно одинаковыми. Найдя множество образцов, похожих на тот, что вас интересует, алгоритм может усреднить их цены и предположить, какой будет цена на ваш образец. В этом […]

Читать далее »

Построение демонстрационного набора данных

Интересный набор данных для тестирования алгоритмов числового прогнозирования должен обладать несколькими свойствами, которые усложняли бы выработку прогноза. Если посмотреть телевизор, то можно придти к выводу, что чем больше, тем лучше; подобные задачи проще решать традиционными статистическими методами. Поэтому было бы более любопытно изучить такой набор данных, где цена не просто возрастает пропорционально размеру или количеству […]

Читать далее »
 
Rambler's Top100