Datacol – парсер для збору інформації з сайтів

| Переглядів:
Відправимо матеріал вам на EMail:


Время чтения: 8 мин.

Чи часто ви стикаєтеся з проблемою, коли необхідно швидко вивантажити список товарів з інтернет-магазину або зібрати інформацію з сайту? При цьому потрібно зберегти певні дані. Наприклад, такі як назва, ціна, картинка, посилання на товар і ін. Уявіть, скільки часу йде, на те, щоб зробити все це вручну! Якщо траплялися подібні ситуації, то даний огляд саме для вас. Оскільки, в ньому мова піде про програму Datacol, яка є парсером для збору інформації з сайтів. З її допомогою ви зможете дізнатися як правильно парсити сайт і автоматизувати завдання з отримання даних з сайтів, не вдаючись до допомоги фахівців.

Програма дуже корисна і має великі можливості. Але в ній досить складно розібратися, не розглянувши роботу парсеру на реальному прикладі. Сподіваюся, огляд вирішить цю проблему. Освоїтися з програмою для парсинга сайтів також допоможе форум підтримки, відео уроки, онлайн довідка по роботі з парсером.

Що таке парсинг і парсер сайту?

Якщо ви коли-небудь задавалися питанням, що таке парсер сайту, то це і є програма, за допомогою якої можна отримати певні дані з сайтів. А парсинг – це власне процес отримання інформації з будь-якого відкритого веб-ресурсу.

Тепер приступимо до огляду парсеру Datacol. Завантажити демо версію можна з офіційного сайту. Головною її відмінністю від повнофункціональної версії є кількість зібраних даних. У демо версії ви можете отримати до 25 результатів, а в повній обмеження відсутні. Також в демо версії недоступні:

  • доступ в закритий розділ форуму;
  • платні консультації по використанню;
  • замовлення платних налаштувань;
  • замовлення платних плагінів.

Отже, запускаємо програму для парсинга сайтів і поїхали!

Перш ніж перейти до процесу налаштування парсеру скажу, що розробники значно полегшили справу, створивши інструмент “Автоналаштування”. Як воно працює – дивіться на відео:

Запуск программы

Після запуску виходить віконце, де ви побачите у верхній частині панель меню, а нижче три блоки:

  • бонус у вигляді списку кампаній, вже налаштованих на виконання певних завдань;
  • FAQ;
  • статистика роботи і новини проекту.

Переглянути налаштування існуючих кампаній ви зможете і самі. А зараз, давайте розберемося, як працює парсер сайтів на конкретному прикладі. В даному випадку, я працювала з інтернет-магазином меблів «Шанс».

Створюємо нову кампанію. Натискаємо кнопку «Додати кампанію» і з’являється майстер додавання кампанії. Вводимо назву (називайте так, як вам зручно, у мене це – marketshans) і натискаємо «Next».

Добавить кампанию

Далі необхідно ввести вхідні дані – URL, за якими парсер Datacol почне свою роботу. В поле «Вхідні дані» вказуємо сторінки, з яких ми хочемо отримати інформацію. Для свого прикладу я взяла одну з категорій інтернет-магазину і вказала посилання на неї в даному полі.

Входные данные

Якщо ви забудете вказати всі сторінки, з яких хочете спарсити інформацію, то потім ці налаштування можна буде відредагувати.

Далі необхідно налаштувати «Збір посилань». Для цього скористаємося інструментом «Picker», який знаходиться праворуч від поля введення Xpath.

Сбор ссылок

Він працює дуже просто. Відкриваєте Picker і автоматично повинна завантажитися сторінка (як в браузері), яку ми вказали у вхідних даних.

Тепер необхідно отримати Xpath вираз, за допомогою якого програма буде збирати посилання на товари. Для цього натискаємо лівою кнопкою миші на одному з товарів і Xpath створюється автоматично. Його ви можете побачити в самій нижній частині вікна в полі «Підбір Xpath».

Подбор Xpath

Якщо вираз спрацював вірно, то справа в блоці «Посилання» ви повинні побачити результат роботи.

Але повинна попередити, що в деяких випадках, Xpath не функціонує належним чином. І тоді необхідно допрацьовувати його. А це проблематично, якщо ви раніше не стикалися з мовою Xpath і не знаєте, що це таке.

Є 2 варіанти вирішення цієї проблеми:

  • Вам доведеться все-таки самостійно розібратися з Xpath (можете погуглити).
  • Для отримання посилань також можна використовувати регулярні вирази ( «Довідка» допоможе вам розібратися).

У мене вийшло 9 посилань. І це вірно. Тому як на сторінці знаходиться 9 товарів. Копіюємо отриманий Xpath вираз і вставляємо в поле «Xpath для збору посилань».

Xpath для сбора ссылокАле нам необхідно, щоб програма зібрала товари зі всієї категорії. А значить потрібно прописати ще один Xpath вираз для збору посилань з наступних сторінок. Принцип той же: відкриваємо знову Picker, натискаємо лівою кнопкою миші на подальшу сторінку (досить одну, так як правило однаково працюватиме для всіх сторінок) і отримуємо Xpath.

Полученное Xpath выражениеОтриманий вираз також копіюємо і вставляємо в новий рядок в поле «Xpath для збору посилань».

поле «Xpath для сбора ссылок»

Наступним етапом є налагодження полів для збору інформації. Натискаємо кнопку «Додати поле даних». Вводимо, наприклад, «назва» і натискаємо «Зберегти».

Для кожного поля необхідно також налаштувати вираз, як ми це робили раніше. Тільки тепер в Picker завантажуємо сторінку з конкретним товаром з категорії і тут збираємо наші вирази. Кількаємо на назву, отримуємо наше вираз і копіюємо його. Повертаємося до налаштувань. Вибираємо пункт «Xpath вирізання» і вставляємо отриманий вираз в «Редактор колекції рядків».

Зверніть увагу, що внизу вікна встановлена галочка «Зберігати посилання на сторінку». Це означає, що до полів, налаштованих нами, додасться і поле «URL».

Редактор коллекции строк

Але на даному етапі не можна перевірити чи правильно працює підібраний вираз. Тому натискаємо «Next» і завершуємо налаштування кампанії. Після цього вона буде доступна в дереві кампаній.

Але ми ж ще не все налаштували, значить запускати нам її немає сенсу. Тому натискаємо правою кнопкою миші на створену кампанію і відкриваємо «Налаштування». Виходить наступне вікно.

Настройки

Не лякайтесь. На перший погляд здається страшно. А насправді нічого складного. Для виконання більшості завдань, використовуються тільки 3 вкладки: навігація, збір даних і експорт. По суті, вкладку «Навігація» ми вже набудували. Залишилося тільки налаштувати «Збір даних» і «Експорт».

Давайте перевіримо, як працює додане нами поле даних «Назва». Переходимо на вкладку «Збір даних» → «Поля даних». Зверніть увагу, що у нас вже є створені поля: «Назва» та «URL».

Поле «URL» було створено автоматично (якщо тільки ви не прибрали галочку «Зберігати посилання на сторінку»). Для нього не потрібно прописувати Xpath. Просто перевірте, щоб у вкладці «Спец значення» було встановлено «URL».

Далі вибираємо «Назва» та перевіряємо, щоб поле «Xpath вирізання» не було порожнім. Якщо все-таки воно виявляється порожнім, то необхідно ще раз налаштувати Xpath за допомогою Picker. Після того, як ви це зробите, внизу вікна є інструмент «Тестування збору даних». Вводимо туди посилання, яку ми налаштовували (посилання на конкретний товар) і натискаємо кнопку «Тестувати» (Надалі, при перевірці всіх інших полів можна використовувати комбінацію «Ctrl + T»).

Якщо все працює правильно, то ви повинні побачити назву і посилання товару.

название и ссылка на товар

Ура! Все працює!

Якщо раптом ви впевнені на 100%, що вираз працює правильно, і не хочете тестувати його, то тут потрібно знати один нюанс. В такому випадку, необхідно натиснути кнопку «Застосувати», яка знаходитися в самому верху вікна. Інакше ваші налаштування не будуть збережені.

Подібним чином, створюються всі необхідні поля. Розповім тільки ще про одне, яке трохи відрізняється.

Це картинка”. Тут є деякі моменти, що вимагають пояснення. Спочатку все робиться, так само як і з попередніми налаштуваннями. Додаєте поле «картинка» (або «зображення» – кому як зручно) і підбираєте Xpath вираз. Наступна ваша дія залежить від того, що ви хочете зробити c отриманими зображеннями:

  • завантажити на локальний диск;
  • зберегти віртуальний шлях;
  • завантажити файли на

Мені необхідно зберегти віртуальний шлях. Тому переходимо на вкладку «Завантаження файлів» і встановлюємо галочку “Завантажувати файли», де необхідно вказати віртуальний шлях (до папки, де знаходяться картинки) і встановити маркер «Повертати віртуальні шляхи».

Возвращать виртуальные путиЯкщо все налаштовано правильно, то тестування пройде успішно.

Тестирование

Якщо поле «картинка» після тестування пусте, то необхідно розбиратися, що ж зроблено не так.

Я створювала кілька кампаній в datacol і в одній з них зіткнулася з проблемою, коли кожна картинка знаходиться в новій папці. А це означає, що не можна до всіх зображень прописати один віртуальний шлях. Я поки ще в процесі вивчення цієї проблеми, але впевнена, що рішення є.

Якщо ж все працює, то залишився останній, але не менш важливий пункт. Необхідно налаштувати експорт файлів. Для цього переходимо у вкладку «Експорт». Як бачите, там є вибір формату експорту. Вибиріть необхідний вам тип файлу і встановіть шлях до збереження файлу у вкладці «Формати експорту».

Тепер сміливо натискайте кнопку «Зберегти і вийти». І залишається найприємніше – натиснути на «Пуск» і побачити, що процес парсинга почався. Це може зайняти деякий час, все залежить від кількості сторінок, які він обробляє. Результати парсинга видно в нижній частині вікна. Кампанію можна редагувати під час роботи. Якщо ви захотіли щось змінити, то необхідно натиснути «Стоп» і тільки потім можна змінювати налаштування.

Файл експортується автоматично. Тому відразу після завершення парсинга, ви можете відкрити папку, в яку ви зберегли файл і подивитися результат вашої роботи з програмою Datacol.

Рішення інших завдань за допомогою парсера сайтів Datacol

За допомогою цієї програми для парсинга сайтів ви зможете вирішити й інші завдання, наприклад ви можете спарсити:

  • оголошення;
  • ціни і товари інтернет-магазину;
  • інформацію з форумів;
  • SEO параметри сайтів;
  • видачу пошукових систем;
  • позиції сайту по певним запитам в пошуковій системі;
  • email адреси;
  • в принципі будь-який контент на сайтах;
  • парсинг сайту з експортом в WordPress і багато іншого.

На офіційному сайті зараз є знижки на придбання ліцензії до 55%. Фахівцям, які часто стикаються з подібними завданнями, такими наприклад як парсинг товарів з будь-яких сайтів, я б порадила задуматися про придбання ліцензії на програму Datacol.

Переваги та недоліки парсеру сайтів Datacol

Переваги:

  • рішення великої кількості завдань;
  • порівняно невелика ціна (з огляду на те, що ціни на аналоги на порядок вище, а справляються вони тільки з одним завданням);
  • різні формати експорту;
  • економія часу.

Недоліки:

  • не завжди підібрані Xpath працюють правильно (тому ви витрачаєте додатковий час, щоб самостійно доопрацювати вираз);
  • складно розібратися в довідці.

Якщо недоліки у вигляді складності налаштування вас все таки налякали, рекомендую звернути увагу на інші продукти:

  • Pritraxer – парсер цін з будь-яких інтернет-магазинів.
  • A-Parser – збирає вміст HTML з будь-якої частини сайту. Будь-які метадані, текст сторінки. Парсер підходить для всіх пошукових систем, різних сервісів і сайтів. 90+ готових парсеров, 200+ додаткових парсерів в каталозі.