Посты для тега : ‘документов’

Что такое поисковая машина

Первый шаг при создании поисковой машины – разработать методику сбора документов. Иногда для этого применяется ползание (начинаем с небольшого набора документов и переходим по имеющимся в них ссылкам), а иногда отправной точкой служит фиксированный набор документов, быть может, хранящихся в корпоративной сети интранет. Далее собранные документы необходимо проиндексировать. Обычно для этого строится большая таблица, содержащая […]

Читать далее »

Учитесь любить PDF-файлы

  Возможно, вы слышали о PDF — популярном формате компании Adobe, предназначенном для коллективного использования отформатированных, готовых к выводу па печать документов.   Формат PDF применяется для распространения сопроводительных руководств к изделиям, буклетов и электронных документов всех сортов. В отличие от форматов документов, таких как XLSX, PDF-файлы разработаны для просмотра и печати, но не для […]

Читать далее »

Наивная классификация

Имея вероятности для слов, входящих в документ, вы должны выбрать какой-то способ комбинирования вероятностей отдельных слов для вычисления вероятности того, что документ в целом принадлежит данной категории. В этой статье мы рассмотрим два разных метода классификации. Оба работают в большинстве случаев, но несколько отличаются по качеству при решении конкретных задач. Предметом этого раздела будет наивный […]

Читать далее »

Краткое введение в теорему Байеса

Теорема Байеса описывает соотношение между условными вероятностями. Обычно она записывается в виде Pr(A | B) = Pr(B | A) x Pr(A) / Pr(B) В применении к нашему примеру эта формула принимает следующий вид: Pr(Категория | Документ) = Pr(Документ | Категория) x x Pr(Категория) / Pr(Документ) В предыдущем разделе мы показали, как вычислить Pr(Документ | Категория), […]

Читать далее »

Спайдеры

Спайдер (spider) — это программа, используемая для получения некоторых или всех ресурсов с большого числа Web-сайтов. На первых порах спайдеры [Fic94] использовались в качестве вспомогательного средства при обслуживании Web-сай- тов. В настоящее время спайдеры в основном используются для сбора информации в интересах поисковых систем. До сих пор мы обсуждали роль Web-браузеров — наиболее распространенного типа […]

Читать далее »
 
Rambler's Top100