16.06.2008, 14:43 | #1 |
Новичок
Регистрация: 16.01.2008
Сообщений: 11
Вес репутации: 0
|
Робот и заголовки
Странная картина наблюдается.. Кстати постоянно!
Почему робот яши регулярно индексирует и ходит по страницам, которые ему отвечают на if-modified-since с параметром даты скажем с прошлого года и вплоть до сейчашнего момента -> "HTTP/1.1 304 Not Modified"? Больше ему заняться нечем, чем индексить страницы, которые не менялись и ему в лоб об этом говорят.. Кто-нибудь наблюдал подобное? |
16.06.2008, 16:34 | #2 |
Специалист
Регистрация: 02.07.2007
Сообщений: 453
Вес репутации: 222
|
..И он тутже уходит на след страницу...
Если вы хотите подсказать яндексу не сканировать страницу - выставте ей правильный Expired+Cache control+SiteMap я думаю поможет
__________________
И как всегда это все ScanLog записывает |
16.06.2008, 16:54 | #3 | |
Новичок
Регистрация: 16.01.2008
Сообщений: 11
Вес репутации: 0
|
Цитата:
В том то и дело, что никуда не уходит, а ест страницу до конца. PHP-cчетчик ловит робота в самом конце, т.е. после предполагаемой отправки ему заголовка "HTTP/1.1 304 Not Modified" и die! Иными словами все выглядит так, как будто Яша не пользует if-modified-since в залоговках и как следствие индексирует все что попадется! |
|
16.06.2008, 19:36 | #4 |
Мастер
Регистрация: 17.03.2008
Сообщений: 638
Вес репутации: 242
|
Как это php-счетчик ловит? о_О У PHP буферизация вывода есть. Отключите буферизацию тогда смотрите, полностью или нет (если повезет).
ЗЫ Скачивание еще не значит индексация, он ведь может и размер сравнить, да и мало ли чего ему еще надо. |
16.06.2008, 20:51 | #5 | ||
Новичок
Регистрация: 16.01.2008
Сообщений: 11
Вес репутации: 0
|
Цитата:
Цитата:
PS Поставил вести log всех, кто заходит на сайт с заголовком "If-modified-Since". Итог за 3 часа: 95% - Google (спрашивает и радостный, что ничего не поменялось отваливает), 3% - Yahoo, ~2% остальные, ~ >0% Яндекс (как и предполагалось вел себя странно, упрямо долбился в одну страницу (а их у него в базе более 50000), меняя дату в запросе). Ч.Т.Д. - Яндекс неадекватен в работе с заголовками! |
||
16.06.2008, 23:40 | #6 |
Сапер со стажем
Регистрация: 16.05.2007
Адрес: Днепропетровск
Сообщений: 4,382
Вес репутации: 526
|
Если сайт белый и пушистый, то смело пишите Платонам!
Ответ сюда не забудьте запостить, а то действительно интересно.
__________________
Л. Н. Толстой |
17.06.2008, 10:48 | #7 |
Специалист
Регистрация: 02.07.2007
Сообщений: 453
Вес репутации: 222
|
Если вы выставите Expired и другие Cache-control то вы скажете яндексу и гуглу и так далее не заходить на страницу и не чекать ее ПОТОМУ ЧТО ВЫ СКАЗАЛИ ЧТО ОНА НЕ ИЗМЕНИТЬСЯ некоторое время..
__________________
И как всегда это все ScanLog записывает |
17.06.2008, 13:06 | #8 | |
Новичок
Регистрация: 16.01.2008
Сообщений: 11
Вес репутации: 0
|
Цитата:
PS Опять про log.. за ночь ситуация сильно поменялась. Яндекс занял порядка 35-40% позиций по заходам с заголовком "if-modified-since" и отработал все четко, как и положено. НО после того как получил ответ "Not Modified" продолжал обращаться к этим страницам без этого заголовка, так как будто и не в курсе, что они не менялись.. Вырисовывается картина, что быстроробот Yandex не корректно взаимодействует с обычным роботом-индексатором и не рассказывает ему о страницах, которые не менялись. Похоже на косячок нашего могучего поисковика)) |
|
19.06.2008, 10:45 | #9 |
Новичок
Регистрация: 30.05.2008
Сообщений: 49
Вес репутации: 0
|
У меня например, ведется подрбнейшая статистика на одном из сайтов. И некоторые страницы запрещены к индексации в роботс.тхт
А яндекс почему-то ходит по этим страницам Что он там ищет - неизвестно, но то что ходит - факт. Конечно, в индекс они не попадают, но зачем он суётся туда где не должен быть? И это не просто робот маскирующийся юзер-агентом под яшу, а именно яндекс (ip адрес совпадает тоже)....
__________________
|
19.06.2008, 11:26 | #10 | |
Сапер со стажем
Регистрация: 16.05.2007
Адрес: Днепропетровск
Сообщений: 4,382
Вес репутации: 526
|
Цитата:
Так и должно быть. А вдруг у Вас там линкопомойка или еще что нить интересное. С чего Вы решили, что он не должен туда соватся?! Должен, должен.
__________________
Л. Н. Толстой |
|
|
|
Похожие темы | ||||
Тема | Автор | Раздел | Ответов | Последнее сообщение |
Отвалившиеся страницы и заголовки! | etoYa | Яндекс | 14 | 14.07.2008 18:55 |
робот-обманщик | romkin | Ошибки при работе с системой | 0 | 29.03.2008 04:05 |
Я - не робот! | Parazny | Ошибки при работе с системой | 9 | 24.12.2007 22:22 |
Ваш робот переидексации | trOid | Вопросы по работе системы | 16 | 28.11.2007 22:43 |
Робот не пересчитывает ВС | SilentSmart | Ошибки при работе с системой | 1 | 08.08.2007 16:43 |
Часовой пояс GMT +3, время: 11:12.