Многие путают и две разные программы – граббер и парсер. В них есть кое-что общее – обе сканируют сайты, но назначение и, самое главное, функционал, у них разные. Разберёмся подробнее, в чём отличия граббера от парсера, и для каких целей используются эти программы.

Отличие граббера от парсера

Отличие граббера от парсера кроется в функционале.

Что такое граббер

Это в общем-то не очень сложная программа, которая копирует контент на сайте и сохраняет его. Некоторые грабберы могут полностью скопировать весь сайт. Конечно, он будет просто набором html-страниц, но выглядеть они будут так же, как оригинал. За исключением интерактивных элементов – скрипты на JavaScript и функции на PHP граббер не скопирует. Собственно, некоторые нечестные люди так создают клоны чужих сайтов, лишенные некоторого функционала, но полностью идентичные по содержанию.

Граббер может работать и по другому принципу. Например, есть грабберы, которые выполнены в виде плагинов к популярным CMS, например, WordPress. Их можно настроить на RSS-ленты других сайтов, и они будут копировать новые статьи с них к себе. На их основе строят так называемые самонаполняющиеся сайты, обычно новостные. Конечно, такие скопированные тексты требуют переработки, иначе их публикация будет нарушением авторских прав.

В целом, граббер просто берёт и копирует всю страницу или контент с неё в указанное место. На этом его функции заканчиваются.

Что такое парсер

Это гораздо более сложная программа для практически тех же целей, но отличия граббера от парсера кроются в функционале. Парсер также сканирует страницы сайта, но делает это более интеллектуально, по более сложным алгоритмам, которые можно настроить под свои нужды. Например, парсер может, как и граббер, копировать страницы полностью. Но он может и выбирать определённую информацию, например, только отзывы или цены, или описания товаров.

Парсер может производить определённый анализ собранной информации и представлять результат в виде таблиц. Этим широко пользуются SEO-оптимизаторы, которым парсер помогает собрать важнейшие технические данные по каждой странице и указать на имеющиеся ошибки.

Граббер просто берёт контент, а парсер обрабатывает код страницы, и может работать со структурой сайта и его кодом, вычленяя определённые теги и находя нужные блоки информации. В этом основные отличия граббера от парсера, хотя сегодня эти понятия практически слились. Грабберы тоже нарастили некоторый функционал, хотя парсеры всё-равно остаются впереди, по крайней мере, лучшие из них.

Основные направления применения граббера и парсера

Каждый инструмент имеет своё предназначение. Грабберы и парсеры в этом смысле имеют много общего. Они извлекают информацию с сайтов, каждый по-своему, но использоваться она может с одинаковыми целями:

  • Для автонаполнения сайтов. Граббер копирует неуникальный контент, как есть, часто с ошибками. Парсер может иметь встроенный синонимайзер и сразу придавать тексту некоторую уникальность.
  • Для поддержки уникальности информации, например, цен на товары, ассортимента. С этим лучше справляются парсеры, производя выборку на других сайтах по заданным шаблонам.
  • Для моментального наполнения сайта. Создание, например, интернет-магазина – долгое занятие, особенно наполнение его товарами и описаниями. Парсер может это сделать быстро, отобрав товары в нужных категориях на других сайтах. Он скопирует описания, цены, изображения, видеоролики.
  • Для интегрирования информации. Так как в Интернете находится очень много сайтов, на которых разбросано много разрозненной информации по определённым темам, Парсеры и грабберы помогут создать ресурс, который будет объединять её в одном месте.

Как видим, грабберы и парсеры в определённых ситуациях оказываются очень полезными. Они делают ту же работу, которую мог бы сделать и человек вручную, но делают это очень быстро. Это просто автоматизация рутины, и пользоваться ими можно. Но следует проявлять осторожность, особенно с грабберами, и дорабатывать неуникальный контент, который они берут с других сайтов.

Рубрики: Блог