Старый 17.11.2020, 19:07   #1
Специалист
 
Аватар для Chaser
 
Регистрация: 19.01.2007
Сообщений: 290
Вес репутации: 207
Chaser - за этого человека можно гордитсяChaser - за этого человека можно гордитсяChaser - за этого человека можно гордитсяChaser - за этого человека можно гордитсяChaser - за этого человека можно гордитсяChaser - за этого человека можно гордитсяChaser - за этого человека можно гордитсяChaser - за этого человека можно гордится
Lightbulb BatchURLScraper - Извлечение данных методами XPath, CSSPath, XQuery и RegExp

Всем привет!

Представляю вашему вниманию бесплатную программу BatchURLScraper, предназначенную для извлечения данных со страниц сайтов используя XPath, CSS-селекторы, XQuery и RegExp.







Возможности программы BatchURLScraper:
  • парсинг и извлечение данных по списку URL
  • гибкая настройка парсинга используя XPath, CSSPath, XQuery и RegExp
  • модуль для тестирования правил парсинга
  • экспорт отчетов в Excel (CSV-формат)

Страница скачивания (5 Мб): https://site-analyzer.ru/soft/batch-url-scraper/

Буду рад любым отзывам и пожеланиям по работе программы.
Chaser вне форума   Ответить с цитированием
Старый 26.11.2020, 18:23   #2
Специалист
 
Аватар для Chaser
 
Регистрация: 19.01.2007
Сообщений: 290
Вес репутации: 207
Chaser - за этого человека можно гордитсяChaser - за этого человека можно гордитсяChaser - за этого человека можно гордитсяChaser - за этого человека можно гордитсяChaser - за этого человека можно гордитсяChaser - за этого человека можно гордитсяChaser - за этого человека можно гордитсяChaser - за этого человека можно гордится
По умолчанию

Новая версия BatchURLScraper 1.3







Что нового:
  • расширено число страниц для парсинга с 1000 до 5000 URL
  • добавлена возможность скрапинга через HTML templates
  • добавлена возможность извлечения данных через атрибуты CSS
  • добавлена возможность скрапинга через внешний и внутренний HTML
  • добавлена возможность использования списков Proxy
  • исправлен баг некорректного сохранения User-Agent

Страница скачивания: https://site-analyzer.ru/soft/batch-url-scraper/
Chaser вне форума   Ответить с цитированием
Старый 08.12.2020, 19:45   #3
Специалист
 
Аватар для Chaser
 
Регистрация: 19.01.2007
Сообщений: 290
Вес репутации: 207
Chaser - за этого человека можно гордитсяChaser - за этого человека можно гордитсяChaser - за этого человека можно гордитсяChaser - за этого человека можно гордитсяChaser - за этого человека можно гордитсяChaser - за этого человека можно гордитсяChaser - за этого человека можно гордитсяChaser - за этого человека можно гордится
По умолчанию

Новая версия BatchURLScraper 1.4 (build 27), 08.12.2020:
  • исправлена ошибка с валидацией HTML-темплейтов
  • оптимизирована работа с регулярными выражениями
  • добавлена возможность неучета повторений при скрейпинге
  • исправлена проблема с учетом пауз между запросами
  • диапазон пауз между запросами расширен до полутора минут
  • доработан и улучшен перевод программы
  • устранены утечки памяти
Chaser вне форума   Ответить с цитированием
Старый 30.08.2022, 10:08   #4
Новичок
 
Регистрация: 30.08.2022
Сообщений: 1
Вес репутации: 0
FrencoLtd на пути к лучшему
По умолчанию

1. XPath

XPath is a language that is used to query XML documents. It was originally developed by W3C as a way to query XML documents. You can use XPath to extract information from HTML pages, RSS feeds, and many other types of web content.

2. CSS Path

CSS Path is a method of selecting elements based on their position in a document. In order to select an element, you need to know its location relative to the rest of the page. CSS path is similar to XPath, except that instead of querying an XML file, it queries the style sheet.

3. XQuery

XQuery is a standard language that is used to access and manipulate XML documents. It was created by W3C and is used to query XML files.

4. Regular Expression

Regular expression is a pattern-matching language that is used to search strings for specific patterns. A regular expression is a string of characters that define what constitutes a match.

5. RegExr

RegExr is a tool that helps you create, test, and debug regular expressions. It provides syntax highlighting, automatic completion, and a variety of other features. https://frencoltd.com/
FrencoLtd вне форума   Ответить с цитированием
Ответ

Опции темы

Ваши права в разделе
Вы не можете создавать новые темы
Вы не можете отвечать в темах
Вы не можете прикреплять вложения
Вы не можете редактировать свои сообщения

BB коды Вкл.
Смайлы Вкл.
[IMG] код Вкл.
HTML код Выкл.

Быстрый переход

Похожие темы
Тема Автор Раздел Ответов Последнее сообщение
Что за формат данных?! Deicider Разработка и сопровождение сайтов 3 20.02.2013 12:40
Экспорт данных Корней Вопросы по работе системы 1 07.07.2011 10:58
Помогите с RegExp: нужно удалить из текста слова состоящие из одной, двух и трех букв Красавчег Курилка 8 15.04.2011 19:08
экспорт данных Savilinna Вопросы от новичков 4 01.07.2010 15:15
Копирование данных - эскпорт/импорт данных проекта. primec Вопросы по работе системы 3 30.11.2009 10:49


Часовой пояс GMT +3, время: 13:31.