04.01.2008, 01:09 | #1 |
Новичок
Регистрация: 11.10.2007
Сообщений: 40
Вес репутации: 204
|
gzip сжатый контент
Огромная просьба научить бота sape понимать GZIP сжатый контент страниц. Это будет огромная экономия трафика, плюс отпадает необходимость ловить ваши IPшники в логах и специально для вас выдавать несжатые страницы. Либо сделайте для бота, который чекает ссылки нормального UserAgent, как у того который "watching you". Не нужно прикрываться мозиллой. Тогда можно будет отдавать несжатый контент по UserAgent, хоть это и половинчатое решение проблемы. А то вот вы переехали с IP на IP, ссылки стоят, а денег на счету который день в поступлениях нет. Пока вспомнили что для вас патч делался, потеряли кучу времени и денег. А если вы думаете что по UA будут махинации - стоит банить при любой попытке клоакинга и желающие отпадут моментально.
|
04.01.2008, 11:57 | #2 | |
Специалист
|
Цитата:
ЗЫ: неужели сапебот там много кушает траффа? Больше Яндекс-бота? Ведь Ябот тоже только не сжатый контент понимает и ходит по сайты каждый день и навернон поболее сапе-бота. Ты Яндекс тоже просил переделать под тебя бота? |
|
04.01.2008, 12:36 | #3 |
Злой модератор
Регистрация: 25.03.2007
Адрес: Deep forest
Сообщений: 5,343
Вес репутации: 502
|
На счет трафика согласен, а вот с отлавливанием IP эт вы перемудрили. Сервер должен отдавать сжатый контент только при наличии в заголовках "Accept-Encoding: gzip,deflate" независимо от user-agent и IP, во всех остальных случаях отдается несжатый.
|
04.01.2008, 14:56 | #4 |
Специалист
|
Я мож чего не понимаю, но вроде траффик бы везде бесплатный, а где и платный, то его там столько, что гигом большие или меньше - роли не играет.
Если уж совсем траффа жалко: запрети идексировать сайт Yahoo/Webalte/пр. поисковикам - неплохо сэкономишь. Но вообще это бред - экономить на том, на чем зарабатываешь. |
04.01.2008, 15:36 | #5 | |
Эксперт
Регистрация: 18.06.2007
Адрес: Картофель
Сообщений: 2,417
Вес репутации: 356
|
Цитата:
да собственно все поисковые боты обращаются по HTTP/1.0 и разумеется без "Accept-Encoding: gzip,deflate" - и это помоему проще и корректнее |
|
04.01.2008, 15:52 | #6 |
Злой модератор
Регистрация: 25.03.2007
Адрес: Deep forest
Сообщений: 5,343
Вес репутации: 502
|
Бред - разбрасываться ресурсами там, где этого можно избежать.
Сайт со средним размером странички в 45Кб и количестве страничек на продажу 150 штук отдаст роботу в месяц 400Мб трафика, тот же сайт, использующий сжатие, всего 70Мб. Разница есть. И далеко не везде трафика завались и он бесплатный, не надо обобщать. |
04.01.2008, 16:07 | #7 | |
Злой модератор
Регистрация: 25.03.2007
Адрес: Deep forest
Сообщений: 5,343
Вес репутации: 502
|
Цитата:
Неправда. Поддерживают gzip и корректно отдают Accept-Encoding боты Yahoo Slurp и Googlebot второй версии |
|
04.01.2008, 21:38 | #9 |
Эксперт
Регистрация: 18.06.2007
Адрес: Картофель
Сообщений: 2,417
Вес репутации: 356
|
обрабатывать чанки несколько сложнее, да и тут еще и keepalive и вообще все фишечки 1.1, а у некторых стоят различные кривые движки, которые криво отрабатывают gzip-сжатие, криво формируют заголовки и т.д. и т.п...
вот я и собственно по этому и против - лучше чтобы бот обращался за контентом по HTTP/1.0 и без всяких излишеств и премудрств, чем проще процесс тем меньше ошибок возникает в дальнейшем |
|
|
Похожие темы | ||||
Тема | Автор | Раздел | Ответов | Последнее сообщение |
Продам контент! | kirin | Деловое сотрудничество | 3 | 14.07.2008 16:10 |
Контент менеджер | new | Курилка | 6 | 07.07.2008 19:30 |
Проблемы с установкой контекста (gzip) | sVs | Вопросы по работе системы | 1 | 11.04.2008 23:45 |
Контент | Zifrit | Яндекс | 8 | 17.12.2007 15:30 |
Часовой пояс GMT +3, время: 22:33.