Вернуться   Форум SAPE.RU > Система SAPE.ru > Пожелания пользователей системы

-->
Ответ
 
Опции темы
Старый 04.01.2008, 01:09   #1
Новичок
 
Регистрация: 11.10.2007
Сообщений: 40
Вес репутации: 204
stealthy - как роза среди колючекstealthy - как роза среди колючекstealthy - как роза среди колючек
По умолчанию gzip сжатый контент

Огромная просьба научить бота sape понимать GZIP сжатый контент страниц. Это будет огромная экономия трафика, плюс отпадает необходимость ловить ваши IPшники в логах и специально для вас выдавать несжатые страницы. Либо сделайте для бота, который чекает ссылки нормального UserAgent, как у того который "watching you". Не нужно прикрываться мозиллой. Тогда можно будет отдавать несжатый контент по UserAgent, хоть это и половинчатое решение проблемы. А то вот вы переехали с IP на IP, ссылки стоят, а денег на счету который день в поступлениях нет. Пока вспомнили что для вас патч делался, потеряли кучу времени и денег. А если вы думаете что по UA будут махинации - стоит банить при любой попытке клоакинга и желающие отпадут моментально.
stealthy вне форума   Ответить с цитированием
Старый 04.01.2008, 11:57   #2
Специалист
 
Регистрация: 01.08.2007
Сообщений: 256
Вес репутации: 209
grey скоро станет известен
Отправить сообщение для grey с помощью ICQ
По умолчанию

Цитата:
Это будет огромная экономия трафика, плюс отпадает необходимость ловить ваши IPшники в логах и специально для вас выдавать несжатые страницы
Настрой сам или попроси кого-ть настроить правильно сервер, тогда отпадет необходимость что-то фильтровать: если кто-то поддерживает сжатие - будет получать сжатое, иначе - в обычном виде данные.

ЗЫ: неужели сапебот там много кушает траффа? Больше Яндекс-бота? Ведь Ябот тоже только не сжатый контент понимает и ходит по сайты каждый день и навернон поболее сапе-бота. Ты Яндекс тоже просил переделать под тебя бота?
grey вне форума   Ответить с цитированием
Старый 04.01.2008, 12:36   #3
Злой модератор
 
Аватар для Wink
 
Регистрация: 25.03.2007
Адрес: Deep forest
Сообщений: 5,343
Вес репутации: 502
Wink - прекрасное будущееWink - прекрасное будущееWink - прекрасное будущееWink - прекрасное будущееWink - прекрасное будущееWink - прекрасное будущееWink - прекрасное будущееWink - прекрасное будущееWink - прекрасное будущееWink - прекрасное будущееWink - прекрасное будущее
По умолчанию

Цитата:
Сообщение от stealthy Посмотреть сообщение
Это будет огромная экономия трафика, плюс отпадает необходимость ловить ваши IPшники в логах и специально для вас выдавать несжатые страницы.
На счет трафика согласен, а вот с отлавливанием IP эт вы перемудрили. Сервер должен отдавать сжатый контент только при наличии в заголовках "Accept-Encoding: gzip,deflate" независимо от user-agent и IP, во всех остальных случаях отдается несжатый.
Wink вне форума   Ответить с цитированием
Старый 04.01.2008, 14:56   #4
Специалист
 
Регистрация: 01.08.2007
Сообщений: 256
Вес репутации: 209
grey скоро станет известен
Отправить сообщение для grey с помощью ICQ
По умолчанию

Я мож чего не понимаю, но вроде траффик бы везде бесплатный, а где и платный, то его там столько, что гигом большие или меньше - роли не играет.

Если уж совсем траффа жалко: запрети идексировать сайт Yahoo/Webalte/пр. поисковикам - неплохо сэкономишь. Но вообще это бред - экономить на том, на чем зарабатываешь.
grey вне форума   Ответить с цитированием
Старый 04.01.2008, 15:36   #5
Эксперт
 
Аватар для seocore
 
Регистрация: 18.06.2007
Адрес: Картофель
Сообщений: 2,417
Вес репутации: 356
seocore - прекрасное будущееseocore - прекрасное будущееseocore - прекрасное будущееseocore - прекрасное будущееseocore - прекрасное будущееseocore - прекрасное будущееseocore - прекрасное будущееseocore - прекрасное будущееseocore - прекрасное будущееseocore - прекрасное будущееseocore - прекрасное будущее
По умолчанию

Цитата:
Сообщение от Wink Посмотреть сообщение
На счет трафика согласен, а вот с отлавливанием IP эт вы перемудрили. Сервер должен отдавать сжатый контент только при наличии в заголовках "Accept-Encoding: gzip,deflate" независимо от user-agent и IP, во всех остальных случаях отдается несжатый.
экономия это конечно хорошо, но могут быть проблемы в обработке: Transfer-Encoding: chunked

да собственно все поисковые боты обращаются по HTTP/1.0 и разумеется без "Accept-Encoding: gzip,deflate" - и это помоему проще и корректнее
seocore вне форума   Ответить с цитированием
Старый 04.01.2008, 15:52   #6
Злой модератор
 
Аватар для Wink
 
Регистрация: 25.03.2007
Адрес: Deep forest
Сообщений: 5,343
Вес репутации: 502
Wink - прекрасное будущееWink - прекрасное будущееWink - прекрасное будущееWink - прекрасное будущееWink - прекрасное будущееWink - прекрасное будущееWink - прекрасное будущееWink - прекрасное будущееWink - прекрасное будущееWink - прекрасное будущееWink - прекрасное будущее
По умолчанию

Бред - разбрасываться ресурсами там, где этого можно избежать.
Сайт со средним размером странички в 45Кб и количестве страничек на продажу 150 штук отдаст роботу в месяц 400Мб трафика, тот же сайт, использующий сжатие, всего 70Мб. Разница есть.

И далеко не везде трафика завались и он бесплатный, не надо обобщать.
Wink вне форума   Ответить с цитированием
Старый 04.01.2008, 16:07   #7
Злой модератор
 
Аватар для Wink
 
Регистрация: 25.03.2007
Адрес: Deep forest
Сообщений: 5,343
Вес репутации: 502
Wink - прекрасное будущееWink - прекрасное будущееWink - прекрасное будущееWink - прекрасное будущееWink - прекрасное будущееWink - прекрасное будущееWink - прекрасное будущееWink - прекрасное будущееWink - прекрасное будущееWink - прекрасное будущееWink - прекрасное будущее
По умолчанию

Цитата:
Сообщение от seocore Посмотреть сообщение
экономия это конечно хорошо, но могут быть проблемы в обработке: Transfer-Encoding: chunked
Transfer-Encoding: chunked - несжатый контент, передаваемый пакетами. Какие могут быть проблемы и как это связано с Transfer-Encoding: gzip?

Цитата:
Сообщение от seocore Посмотреть сообщение
да собственно все поисковые боты обращаются по HTTP/1.0 и разумеется без "Accept-Encoding: gzip,deflate" - и это помоему проще и корректнее
Неправда. Поддерживают gzip и корректно отдают Accept-Encoding боты Yahoo Slurp и Googlebot второй версии
Wink вне форума   Ответить с цитированием
Старый 04.01.2008, 16:21   #8
Злой модератор
 
Аватар для Wink
 
Регистрация: 25.03.2007
Адрес: Deep forest
Сообщений: 5,343
Вес репутации: 502
Wink - прекрасное будущееWink - прекрасное будущееWink - прекрасное будущееWink - прекрасное будущееWink - прекрасное будущееWink - прекрасное будущееWink - прекрасное будущееWink - прекрасное будущееWink - прекрасное будущееWink - прекрасное будущееWink - прекрасное будущее
По умолчанию

Цитата:
Transfer-Encoding: chunked - несжатый контент, передаваемый пакетами.
Здесь я наврал, конечно Но проблемы всё равно не вижу.
Wink вне форума   Ответить с цитированием
Старый 04.01.2008, 21:38   #9
Эксперт
 
Аватар для seocore
 
Регистрация: 18.06.2007
Адрес: Картофель
Сообщений: 2,417
Вес репутации: 356
seocore - прекрасное будущееseocore - прекрасное будущееseocore - прекрасное будущееseocore - прекрасное будущееseocore - прекрасное будущееseocore - прекрасное будущееseocore - прекрасное будущееseocore - прекрасное будущееseocore - прекрасное будущееseocore - прекрасное будущееseocore - прекрасное будущее
По умолчанию

Цитата:
Сообщение от Wink Посмотреть сообщение
Здесь я наврал, конечно Но проблемы всё равно не вижу.
обрабатывать чанки несколько сложнее, да и тут еще и keepalive и вообще все фишечки 1.1, а у некторых стоят различные кривые движки, которые криво отрабатывают gzip-сжатие, криво формируют заголовки и т.д. и т.п...

вот я и собственно по этому и против - лучше чтобы бот обращался за контентом по HTTP/1.0 и без всяких излишеств и премудрств, чем проще процесс тем меньше ошибок возникает в дальнейшем
seocore вне форума   Ответить с цитированием
Старый 19.01.2008, 19:21   #10
Новичок
 
Регистрация: 11.10.2007
Сообщений: 40
Вес репутации: 204
stealthy - как роза среди колючекstealthy - как роза среди колючекstealthy - как роза среди колючек
По умолчанию

Я так понимаю что реакции от разработчиков не последовало, значит подобных исправлений ждать не приходится. Очень жаль.

Последний раз редактировалось stealthy; 19.01.2008 в 19:23.
stealthy вне форума   Ответить с цитированием
Ответ


Ваши права в разделе
Вы не можете создавать новые темы
Вы не можете отвечать в темах
Вы не можете прикреплять вложения
Вы не можете редактировать свои сообщения

BB коды Вкл.
Смайлы Вкл.
[IMG] код Вкл.
HTML код Выкл.

Быстрый переход

Похожие темы
Тема Автор Раздел Ответов Последнее сообщение
Продам контент! kirin Деловое сотрудничество 3 14.07.2008 16:10
Контент менеджер new Курилка 6 07.07.2008 19:30
Проблемы с установкой контекста (gzip) sVs Вопросы по работе системы 1 11.04.2008 23:45
Контент Zifrit Яндекс 8 17.12.2007 15:30


Часовой пояс GMT +3, время: 22:33.