Простой подсчет ссылок

Простейший способ работы с внешними ссылками заключается в том, чтобы подсчитать, сколько их ведет на каждую страницу, и использовать результат в качестве метрики. Так обычно оцениваются научные работы; считается, что их значимость тем выше, чем чаще их цитируют. Представленная ниже функция ранжирования создает словарь счетчиков, делая запрос к таблице ссылок для каждого уникального идентификатора URL в списке rows, а затем возвращает нормализованный результат:

def inboundlinkscore(self,rows):

uniqueurls=set([row[0] for row in rows]) inboundcount=dict([(u,self.con.execute( \

‘select count(*) from link where toid=%d’ % u).fetchone( )[0]) \ for u in uniqueurls]) return self.normalizescores(inboundcount)

Очевидно, что при использовании одной лишь этой метрики будут возвращены все страницы, содержащие поисковые слова, упорядоченные по числу внешних ссылок на них. В нашем наборе данных на страницу Programming language о языках программирования ведет гораздо больше ссылок, чем на страницу Python, но, если вы выполняли поиск по слову Python, то, надо полагать, хотели бы увидеть соответствующую страницу первой в списке. Чтобы объединить релевантность с ранжированием по внешним ссылкам, надо использовать последнее в сочетании с одной из рассмотренных выше метрик.

Кроме того, описанный алгоритм трактует все внешние ссылки одинаково, но такой уравнительный подход открывает возможность для манипулирования, поскольку кто угодно может создать несколько сайтов, указывающих на страницу, ранг которой он хочет поднять. Также возможно, что людям более интересны страницы, которые привлекли внимание каких-то популярных сайтов. Далее мы увидим, как придать ссылкам с популярных сайтов больший вес при вычислении ранга страницы.

Вы можете следить за любыми ответами на эту запись через RSS 2.0 ленту. Вы можете оставить ответ, или trackback с вашего собственного сайта.

Оставьте отзыв

XHTML: Вы можете использовать следующие теги: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

 
Rambler's Top100