Beautiful Soup

Библиотека – это написанный на Python анализатор документов в форматах HTML и XML. Он спроектирован так, что способен работать с плохо написанными веб-страницами. В книге мы неоднократно применяли эту библиотеку для создания наборов данных с сайтов, не имеющих API, а также для выделения из страниц текста для индексирования. Домашняя страница библиотеки – http://www.crummy. com/software/BeautifulSoup.

Установка для всех платформ

Библиотека поставляется в виде одного исходного файла. Ближе к концу домашней страницы имеется ссылка для скачивания файла BeautifulSoup.py. Скачайте и поместите библиотеку либо в рабочую папку, либо в папку Python/Lib.

Простой пример использования

В следующем примере разбирается HTML-разметка домашней страницы Google и показывается, как извлекать элементы из DOM и искать ссылки:

>>> from BeautifulSoup import BeautifulSoup >>> from urllib import urlopen

>>> soup=BeautifulSoup(urlopen(‘http://google.com’)) >>> soup.head.title <title>Google</title> >>> links=soup(‘a’) >>> len(links) 21

>>> links[0]

<a href="http://www.google.com/ig?hl=en">iGoogle</a>

>>> links[0].contents[0]

u’iGoogle’

Более полный набор примеров имеется на странице http://www.crummy. com/software/BeautifulSoup/documentation.html.

Вы можете следить за любыми ответами на эту запись через RSS 2.0 ленту. Вы можете оставить ответ, или trackback с вашего собственного сайта.

Оставьте отзыв

XHTML: Вы можете использовать следующие теги: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

 
Rambler's Top100