Библиотека Beautiful Soup

Beautiful Soup – это великолепная библиотека для разбора и построения структурированного представления веб-страницы. Она позволяет найти элемент страницы по типу, идентификатору или любому свойству и получить строковое представление его содержимого. Beautiful Soup очень терпимо относится к страницам с некорректной HTML- разметкой, что весьма полезно при генерации наборов данных с вебсайтов.

Скачать библиотеку Beautiful Soup можно с сайта http://crummy.com/ software/BeautifulSoup. Она поставляется в виде одного файла на языке Python, который следует поместить в то место, где интерпретатор сможет его найти. Или можете поместить ее в свою рабочую папку и запускать интерпретатор, находясь в этой папке.

Установив библиотеку Beautiful Soup, проверьте ее в действии, запустив интерпретатор в интерактивном режиме: >> import urllib2

>> from BeautifulSoup import BeautifulSoup

>> c=urllib2.urlopen(‘http://kiwitobes.com/wiki/Programming_language.html’) >> soup=BeautifulSoup(c.read( )) >> links=soup(‘a’) >> links[10]

<a href="/wiki/Algorithm.html" title="Algorithm">algorithms</a> >> links[10][‘href’]

u’/wiki/Algorithm.html’

Чтобы «сварить суп» (так в Beautiful Soup называется представление веб-страницы), достаточно передать конструктору содержимое страницы. Затем можно вызвать «суп», передав ему тип тега (в примере выше – a) и получить в ответ список объектов этого типа. Каждый объект, в свою очередь, адресуем, то есть можно запросить его свойства и список объектов, находящихся ниже него в иерархии.

Вы можете следить за любыми ответами на эту запись через RSS 2.0 ленту. Вы можете оставить ответ, или trackback с вашего собственного сайта.

Оставьте отзыв

XHTML: Вы можете использовать следующие теги: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

 
Rambler's Top100