Форум SAPE.RU

Форум SAPE.RU (http://forum.sape.ru/index.php)
-   Пожелания пользователей системы (http://forum.sape.ru/forumdisplay.php?f=15)
-   -   gzip сжатый контент (http://forum.sape.ru/showthread.php?t=7505)

stealthy 04.01.2008 01:09

gzip сжатый контент
 
Огромная просьба научить бота sape понимать GZIP сжатый контент страниц. Это будет огромная экономия трафика, плюс отпадает необходимость ловить ваши IPшники в логах и специально для вас выдавать несжатые страницы. Либо сделайте для бота, который чекает ссылки нормального UserAgent, как у того который "watching you". Не нужно прикрываться мозиллой. Тогда можно будет отдавать несжатый контент по UserAgent, хоть это и половинчатое решение проблемы. А то вот вы переехали с IP на IP, ссылки стоят, а денег на счету который день в поступлениях нет. Пока вспомнили что для вас патч делался, потеряли кучу времени и денег. А если вы думаете что по UA будут махинации - стоит банить при любой попытке клоакинга и желающие отпадут моментально.

grey 04.01.2008 11:57

Цитата:

Это будет огромная экономия трафика, плюс отпадает необходимость ловить ваши IPшники в логах и специально для вас выдавать несжатые страницы
Настрой сам или попроси кого-ть настроить правильно сервер, тогда отпадет необходимость что-то фильтровать: если кто-то поддерживает сжатие - будет получать сжатое, иначе - в обычном виде данные.

ЗЫ: неужели сапебот там много кушает траффа? Больше Яндекс-бота? Ведь Ябот тоже только не сжатый контент понимает и ходит по сайты каждый день и навернон поболее сапе-бота. Ты Яндекс тоже просил переделать под тебя бота?

Wink 04.01.2008 12:36

Цитата:

Сообщение от stealthy (Сообщение 71500)
Это будет огромная экономия трафика, плюс отпадает необходимость ловить ваши IPшники в логах и специально для вас выдавать несжатые страницы.

На счет трафика согласен, а вот с отлавливанием IP эт вы перемудрили. Сервер должен отдавать сжатый контент только при наличии в заголовках "Accept-Encoding: gzip,deflate" независимо от user-agent и IP, во всех остальных случаях отдается несжатый.

grey 04.01.2008 14:56

Я мож чего не понимаю, но вроде траффик бы везде бесплатный, а где и платный, то его там столько, что гигом большие или меньше - роли не играет.

Если уж совсем траффа жалко: запрети идексировать сайт Yahoo/Webalte/пр. поисковикам - неплохо сэкономишь. Но вообще это бред - экономить на том, на чем зарабатываешь.

seocore 04.01.2008 15:36

Цитата:

Сообщение от Wink (Сообщение 71573)
На счет трафика согласен, а вот с отлавливанием IP эт вы перемудрили. Сервер должен отдавать сжатый контент только при наличии в заголовках "Accept-Encoding: gzip,deflate" независимо от user-agent и IP, во всех остальных случаях отдается несжатый.

экономия это конечно хорошо, но могут быть проблемы в обработке: Transfer-Encoding: chunked

да собственно все поисковые боты обращаются по HTTP/1.0 и разумеется без "Accept-Encoding: gzip,deflate" - и это помоему проще и корректнее :)

Wink 04.01.2008 15:52

Бред - разбрасываться ресурсами там, где этого можно избежать.
Сайт со средним размером странички в 45Кб и количестве страничек на продажу 150 штук отдаст роботу в месяц 400Мб трафика, тот же сайт, использующий сжатие, всего 70Мб. Разница есть.

И далеко не везде трафика завались и он бесплатный, не надо обобщать.

Wink 04.01.2008 16:07

Цитата:

Сообщение от seocore (Сообщение 71631)
экономия это конечно хорошо, но могут быть проблемы в обработке: Transfer-Encoding: chunked

Transfer-Encoding: chunked - несжатый контент, передаваемый пакетами. Какие могут быть проблемы и как это связано с Transfer-Encoding: gzip?

Цитата:

Сообщение от seocore (Сообщение 71631)
да собственно все поисковые боты обращаются по HTTP/1.0 и разумеется без "Accept-Encoding: gzip,deflate" - и это помоему проще и корректнее :)

Неправда. Поддерживают gzip и корректно отдают Accept-Encoding боты Yahoo Slurp и Googlebot второй версии

Wink 04.01.2008 16:21

Цитата:

Transfer-Encoding: chunked - несжатый контент, передаваемый пакетами.
Здесь я наврал, конечно :p Но проблемы всё равно не вижу.

seocore 04.01.2008 21:38

Цитата:

Сообщение от Wink (Сообщение 71639)
Здесь я наврал, конечно :p Но проблемы всё равно не вижу.

обрабатывать чанки несколько сложнее, да и тут еще и keepalive и вообще все фишечки 1.1, а у некторых стоят различные кривые движки, которые криво отрабатывают gzip-сжатие, криво формируют заголовки и т.д. и т.п...

вот я и собственно по этому и против - лучше чтобы бот обращался за контентом по HTTP/1.0 и без всяких излишеств и премудрств, чем проще процесс тем меньше ошибок возникает в дальнейшем :)

stealthy 19.01.2008 19:21

Я так понимаю что реакции от разработчиков не последовало, значит подобных исправлений ждать не приходится. Очень жаль.


Часовой пояс GMT +3, время: 09:54.

Работает на vBulletin® версия 3.8.7.
Copyright ©2000 - 2024, Jelsoft Enterprises Ltd.
Перевод: zCarot
SAPE.RU — система купли-продажи ссылок с главных и внутренних страниц сайтов.