Вернуться   Форум SAPE.RU > Практика оптимизации > Яндекс

-->
Ответ
 
Опции темы
Старый 16.06.2008, 14:43   #1
Новичок
 
Регистрация: 16.01.2008
Сообщений: 11
Вес репутации: 0
mpm на пути к лучшему
По умолчанию Робот и заголовки

Странная картина наблюдается.. Кстати постоянно!
Почему робот яши регулярно индексирует и ходит по страницам, которые ему отвечают на if-modified-since с параметром даты скажем с прошлого года и вплоть до сейчашнего момента -> "HTTP/1.1 304 Not Modified"?
Больше ему заняться нечем, чем индексить страницы, которые не менялись и ему в лоб об этом говорят..
Кто-нибудь наблюдал подобное?
mpm вне форума   Ответить с цитированием
Старый 16.06.2008, 16:34   #2
Специалист
 
Аватар для Kashey
 
Регистрация: 02.07.2007
Сообщений: 453
Вес репутации: 217
Kashey - очень-очень хороший человекKashey - очень-очень хороший человекKashey - очень-очень хороший человекKashey - очень-очень хороший человек
По умолчанию

..И он тутже уходит на след страницу...
Если вы хотите подсказать яндексу не сканировать страницу - выставте ей правильный Expired+Cache control+SiteMap
я думаю поможет
__________________
Нужны новости? - На скане полмиллиона новостей. Всяко разных.
И как всегда это все ScanLog записывает
Kashey вне форума   Ответить с цитированием
Старый 16.06.2008, 16:54   #3
Новичок
 
Регистрация: 16.01.2008
Сообщений: 11
Вес репутации: 0
mpm на пути к лучшему
По умолчанию

Цитата:
Сообщение от Kashey Посмотреть сообщение
..И он тутже уходит на след страницу...
Если вы хотите подсказать яндексу не сканировать страницу - выставте ей правильный Expired+Cache control+SiteMap
я думаю поможет
А зачем нужно гадать Expired, если есть Last-Modified - последнее обновление страницы, реальное..
В том то и дело, что никуда не уходит, а ест страницу до конца. PHP-cчетчик ловит робота в самом конце, т.е. после предполагаемой отправки ему заголовка "HTTP/1.1 304 Not Modified" и die!
Иными словами все выглядит так, как будто Яша не пользует if-modified-since в залоговках и как следствие индексирует все что попадется!
mpm вне форума   Ответить с цитированием
Старый 16.06.2008, 19:36   #4
Мастер
 
Регистрация: 17.03.2008
Сообщений: 638
Вес репутации: 237
ahsinis - прекрасное будущееahsinis - прекрасное будущееahsinis - прекрасное будущееahsinis - прекрасное будущееahsinis - прекрасное будущееahsinis - прекрасное будущееahsinis - прекрасное будущееahsinis - прекрасное будущееahsinis - прекрасное будущееahsinis - прекрасное будущееahsinis - прекрасное будущее
По умолчанию

Как это php-счетчик ловит? о_О У PHP буферизация вывода есть. Отключите буферизацию тогда смотрите, полностью или нет (если повезет).

ЗЫ Скачивание еще не значит индексация, он ведь может и размер сравнить, да и мало ли чего ему еще надо.
ahsinis вне форума   Ответить с цитированием
Старый 16.06.2008, 20:51   #5
Новичок
 
Регистрация: 16.01.2008
Сообщений: 11
Вес репутации: 0
mpm на пути к лучшему
По умолчанию

Цитата:
Сообщение от ahsinis Посмотреть сообщение
Как это php-счетчик ловит? о_О У PHP буферизация вывода есть. Отключите буферизацию тогда смотрите, полностью или нет (если повезет).
Она и отключена, да и вообще здесь не при чем! Я имел в виду, что до счетчика (а он на стороне сервера) по идее и доходить дело не должно, т.к. он вызывался бы, если бы не было отправки заголовка "HTTP/1.0 304 Not Modified" и затем вызова функции DIE или EXIT.. А так выходит, что просто не приходит Яндекс на сайт с заголовком "If-modified-Since" или же приходит, но ведет себя странно

Цитата:
Сообщение от ahsinis Посмотреть сообщение
ЗЫ Скачивание еще не значит индексация, он ведь может и размер сравнить, да и мало ли чего ему еще надо.
Вот это более похоже на правду.. тогда Яша уникум, все остальные поисковики ведут себя в данном варианте однозначно и именно запрашивают у сервера Last-Modified, а не сами сравнивают по своей базе))

PS Поставил вести log всех, кто заходит на сайт с заголовком "If-modified-Since". Итог за 3 часа: 95% - Google (спрашивает и радостный, что ничего не поменялось отваливает), 3% - Yahoo, ~2% остальные, ~ >0% Яндекс (как и предполагалось вел себя странно, упрямо долбился в одну страницу (а их у него в базе более 50000), меняя дату в запросе).
Ч.Т.Д. - Яндекс неадекватен в работе с заголовками!
mpm вне форума   Ответить с цитированием
Старый 16.06.2008, 23:40   #6
Сапер со стажем
 
Аватар для Smok
 
Регистрация: 16.05.2007
Адрес: Днепропетровск
Сообщений: 4,382
Вес репутации: 521
Smok - прекрасное будущееSmok - прекрасное будущееSmok - прекрасное будущееSmok - прекрасное будущееSmok - прекрасное будущееSmok - прекрасное будущееSmok - прекрасное будущееSmok - прекрасное будущееSmok - прекрасное будущееSmok - прекрасное будущееSmok - прекрасное будущее
Smile

Цитата:
Сообщение от mpm Посмотреть сообщение
Ч.Т.Д. - Яндекс неадекватен в работе с заголовками!
Если сайт белый и пушистый, то смело пишите Платонам!
Ответ сюда не забудьте запостить, а то действительно интересно.
__________________
Кто счастлив сам, другим зла не желает.
Л. Н. Толстой
Smok вне форума   Ответить с цитированием
Старый 17.06.2008, 10:48   #7
Специалист
 
Аватар для Kashey
 
Регистрация: 02.07.2007
Сообщений: 453
Вес репутации: 217
Kashey - очень-очень хороший человекKashey - очень-очень хороший человекKashey - очень-очень хороший человекKashey - очень-очень хороший человек
По умолчанию

Если вы выставите Expired и другие Cache-control то вы скажете яндексу и гуглу и так далее не заходить на страницу и не чекать ее ПОТОМУ ЧТО ВЫ СКАЗАЛИ ЧТО ОНА НЕ ИЗМЕНИТЬСЯ некоторое время..
__________________
Нужны новости? - На скане полмиллиона новостей. Всяко разных.
И как всегда это все ScanLog записывает
Kashey вне форума   Ответить с цитированием
Старый 17.06.2008, 13:06   #8
Новичок
 
Регистрация: 16.01.2008
Сообщений: 11
Вес репутации: 0
mpm на пути к лучшему
По умолчанию

Цитата:
Сообщение от Kashey Посмотреть сообщение
Если вы выставите Expired и другие Cache-control то вы скажете яндексу и гуглу и так далее не заходить на страницу и не чекать ее ПОТОМУ ЧТО ВЫ СКАЗАЛИ ЧТО ОНА НЕ ИЗМЕНИТЬСЯ некоторое время..
Это неверное решение! Откуда я заранее знаю сколько роботу НЕ заходить на страницу: день, неделю, год?! Зато я четко знаю, когда были последние изменения на странице и оперирую именно этим! Было изменение - заходи качай, не было изменений - проходи мимо.. для этих целей и был собственно создан вышеупомянутый зоголовок.

PS Опять про log.. за ночь ситуация сильно поменялась. Яндекс занял порядка 35-40% позиций по заходам с заголовком "if-modified-since" и отработал все четко, как и положено. НО после того как получил ответ "Not Modified" продолжал обращаться к этим страницам без этого заголовка, так как будто и не в курсе, что они не менялись.. Вырисовывается картина, что быстроробот Yandex не корректно взаимодействует с обычным роботом-индексатором и не рассказывает ему о страницах, которые не менялись. Похоже на косячок нашего могучего поисковика))
mpm вне форума   Ответить с цитированием
Старый 19.06.2008, 10:45   #9
Новичок
 
Регистрация: 30.05.2008
Сообщений: 49
Вес репутации: 0
stumed может только надеяться на улучшение
По умолчанию

У меня например, ведется подрбнейшая статистика на одном из сайтов. И некоторые страницы запрещены к индексации в роботс.тхт
А яндекс почему-то ходит по этим страницам
Что он там ищет - неизвестно, но то что ходит - факт. Конечно, в индекс они не попадают, но зачем он суётся туда где не должен быть?
И это не просто робот маскирующийся юзер-агентом под яшу, а именно яндекс (ip адрес совпадает тоже)....
__________________
Обращение к ВЦ - эксперимент!!!
stumed вне форума   Ответить с цитированием
Старый 19.06.2008, 11:26   #10
Сапер со стажем
 
Аватар для Smok
 
Регистрация: 16.05.2007
Адрес: Днепропетровск
Сообщений: 4,382
Вес репутации: 521
Smok - прекрасное будущееSmok - прекрасное будущееSmok - прекрасное будущееSmok - прекрасное будущееSmok - прекрасное будущееSmok - прекрасное будущееSmok - прекрасное будущееSmok - прекрасное будущееSmok - прекрасное будущееSmok - прекрасное будущееSmok - прекрасное будущее
Post

Цитата:
Сообщение от stumed Посмотреть сообщение
У меня например, ведется подрбнейшая статистика на одном из сайтов. И некоторые страницы запрещены к индексации в роботс.тхт
А яндекс почему-то ходит по этим страницам
Что он там ищет - неизвестно, но то что ходит - факт. Конечно, в индекс они не попадают, но зачем он суётся туда где не должен быть?
И это не просто робот маскирующийся юзер-агентом под яшу, а именно яндекс (ip адрес совпадает тоже)....
Все правильно.
Так и должно быть.
А вдруг у Вас там линкопомойка или еще что нить интересное.
С чего Вы решили, что он не должен туда соватся?!
Должен, должен.
__________________
Кто счастлив сам, другим зла не желает.
Л. Н. Толстой
Smok вне форума   Ответить с цитированием
Ответ


Ваши права в разделе
Вы не можете создавать новые темы
Вы не можете отвечать в темах
Вы не можете прикреплять вложения
Вы не можете редактировать свои сообщения

BB коды Вкл.
Смайлы Вкл.
[IMG] код Вкл.
HTML код Выкл.

Быстрый переход

Похожие темы
Тема Автор Раздел Ответов Последнее сообщение
Отвалившиеся страницы и заголовки! etoYa Яндекс 14 14.07.2008 18:55
робот-обманщик romkin Ошибки при работе с системой 0 29.03.2008 04:05
Я - не робот! Parazny Ошибки при работе с системой 9 24.12.2007 22:22
Ваш робот переидексации trOid Вопросы по работе системы 16 28.11.2007 22:43
Робот не пересчитывает ВС SilentSmart Ошибки при работе с системой 1 08.08.2007 16:43


Часовой пояс GMT +3, время: 07:53.