Коэффициент Джини

измеряет неоднородность набора. Если имеется набор [A, A, B, B, B, С], то коэффициент Джини – это вероятность того, чтобы вы ошибетесь, выбрав какой-то элемент и попытавшись случайно угадать его метку. Если бы набор состоял только из элементов A, то вы всегда говорили бы A и никогда не ошибались, следовательно, набор полностью однороден.

рассчитывается по формуле B.6.

Формула B.6.

Следующая функция принимает список элементов и вычисляет для него коэффициент Джини:

def giniimpurity(l): total=len(l) counts={} for item in l:

counts.setdefault(ltem,0) counts[ltem]+=1

lmp=0

for j ln l: f1=float(counts[]])/total for k ln l: lf j==k: contlnue f2=float(counts[k])/total lmp+=f1*f2 return lmp

Ранее коэффициент Джини использовался при моделировании с помощью деревьев решений, чтобы определить, станет ли набор более однородным после разбиения.

Вы можете следить за любыми ответами на эту запись через RSS 2.0 ленту. Вы можете оставить ответ, или trackback с вашего собственного сайта.

Оставьте отзыв

XHTML: Вы можете использовать следующие теги: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

 
Rambler's Top100