10.06.2008, 18:28 | #1 |
Особый статус
|
Ищу парсер web.archive.org
Ищу-ищу, а нету =( Нужно выдергивать архивы сайтов из вебархива, никто не подскажет софт? Всякие оффлайн-эксплореры не подходят ибо парсят все подряд и, в итоге, начнут парсить сайт самого вебархива...
|
11.06.2008, 02:02 | #2 |
Специалист
Регистрация: 08.05.2008
Сообщений: 197
Вес репутации: 0
|
"Всякие оффлайн-эксплореры" как-раз таки подходят, нужно только произвести тонкую настройку что качать а что нет, там и по адресу и по типу файлов можно фильтровать и маски всякие в условия вписывать, когда-то очень давно, я так скачивал отдельные разделы какого-то справочного сайта.
__________________
Возможно на заказ. |
11.06.2008, 02:22 | #3 |
Особый статус
|
Поясню причину отказа от оффлайн утилит. Вебархив периодически выплевывает ошибки, якобы страницы нет, не было и не будет. Это надо учитывать. Иногда, через несколько секунд/минут страница чудесным образом появляется))) Кроме того, такой софт должен попытаться найти страницу по другим датам. Тут много тонкостей, сложно все описать. В конце концов, все программы для выкачки сайтов, что мне попадались, пишут напарсенные картинки/флеш/css в папки вида index.html.files - такая структура мне даром не нужна...
|
11.06.2008, 15:59 | #5 |
Особый статус
|
|
09.06.2009, 12:10 | #8 |
пусто
Регистрация: 28.10.2007
Сообщений: 3,115
Вес репутации: 375
|
появились, появились
__________________
|
09.06.2009, 12:17 | #9 |
Эксперт
|
В личку не намекнёте? Уже пол инета перерыл.
Добавлено через 30 секунд Самое толковое - ссылка в Яше на этот топик.
__________________
Последний раз редактировалось alex063; 09.06.2009 в 12:17. Причина: Добавлено сообщение |
Опции темы | |
|
|
Похожие темы | ||||
Тема | Автор | Раздел | Ответов | Последнее сообщение |
Подскажите парсер ЯКа | bulya | Курилка | 17 | 25.04.2012 19:34 |
Парсер YACA | Алексей Барыкин | Разработка и сопровождение сайтов | 44 | 06.09.2008 00:11 |
Алекса каталог - парсер? | Set13 | Google, MSN, Yahoo | 4 | 30.04.2008 20:58 |
YACA Парсер | Wink | Разработка и сопровождение сайтов | 35 | 27.02.2008 19:53 |
Парсер Я.Каталога | kip | Курилка | 3 | 06.10.2007 20:17 |
Часовой пояс GMT +3, время: 22:10.