Форум SAPE.RU

Форум SAPE.RU (http://forum.sape.ru/index.php)
-   Софт для оптимизаторов и вебмастеров (http://forum.sape.ru/forumdisplay.php?f=36)
-   -   BatchURLScraper - Извлечение данных методами XPath, CSSPath, XQuery и RegExp (http://forum.sape.ru/showthread.php?t=99412)

Chaser 17.11.2020 19:07

BatchURLScraper - Извлечение данных методами XPath, CSSPath, XQuery и RegExp
 
Всем привет!

Представляю вашему вниманию бесплатную программу BatchURLScraper, предназначенную для извлечения данных со страниц сайтов используя XPath, CSS-селекторы, XQuery и RegExp.

https://site-analyzer.ru/pages/soft/buscr/buscr.png

https://site-analyzer.ru/pages/soft/...rape-rules.png

https://site-analyzer.ru/pages/soft/...uscr-debug.png

Возможности программы BatchURLScraper:
  • парсинг и извлечение данных по списку URL
  • гибкая настройка парсинга используя XPath, CSSPath, XQuery и RegExp
  • модуль для тестирования правил парсинга
  • экспорт отчетов в Excel (CSV-формат)

Страница скачивания (5 Мб): https://site-analyzer.ru/soft/batch-url-scraper/

Буду рад любым отзывам и пожеланиям по работе программы.

Chaser 26.11.2020 18:23

Новая версия BatchURLScraper 1.3

https://site-analyzer.ru/pages/artic...scr/get-ga.png

https://site-analyzer.ru/pages/artic...es-counter.png

https://site-analyzer.ru/pages/artic...r-settings.png

Что нового:
  • расширено число страниц для парсинга с 1000 до 5000 URL
  • добавлена возможность скрапинга через HTML templates
  • добавлена возможность извлечения данных через атрибуты CSS
  • добавлена возможность скрапинга через внешний и внутренний HTML
  • добавлена возможность использования списков Proxy
  • исправлен баг некорректного сохранения User-Agent

Страница скачивания: https://site-analyzer.ru/soft/batch-url-scraper/

Chaser 08.12.2020 19:45

Новая версия BatchURLScraper 1.4 (build 27), 08.12.2020:
  • исправлена ошибка с валидацией HTML-темплейтов
  • оптимизирована работа с регулярными выражениями
  • добавлена возможность неучета повторений при скрейпинге
  • исправлена проблема с учетом пауз между запросами
  • диапазон пауз между запросами расширен до полутора минут
  • доработан и улучшен перевод программы
  • устранены утечки памяти


Часовой пояс GMT +3, время: 03:12.

Работает на vBulletin® версия 3.8.7.
Copyright ©2000 - 2021, Jelsoft Enterprises Ltd.
Перевод: zCarot
SAPE.RU — система купли-продажи ссылок с главных и внутренних страниц сайтов.