22.06.2007, 11:38 | #1 |
Эксперт
Регистрация: 04.06.2007
Сообщений: 1,448
Вес репутации: 267
|
Индексация некоторых ссылок не работает?
Писал по этой проблеме в обратку, не получил ответа, возможно уже пофиксено - хотелось бы увидеть комментарии, если возможно. Собираюсь сайт переиндексировать.
Смысл в том, что, похоже, робот SAPE игнорит ссылки, на конце которых видит .mp3, .jpg и прочее. Например, ссылка вида http://site.ru/file.php?name=music.mp3 - не индексируется SAPE. Хотя доподлинно присутствует в Я. И является, собственно, страничкой с описанием такого-то файла и ещё кучей текстовой информации (а не файлом mp3). То же самое - с .jpg. В принципе, тут проще простого - роботу достаточно проверить, какой content-type отдаёт сервер в заголовке у такой-то страницы. А то видимо сейчас стоит просто - раз в конце расширение - значит типа файл. А сие есть неправда. Идём далее. Есть на моём ресурсе ссылки вида http://site.ru/list.php?start=21 - и их целая куча. Все представляют из себя реальные страницы, НЕ дубликаты, все проиндексированы в Я - и SAPE их тоже не видит, хотя это ОЧЕНЬ странно - тут-то, казалось бы, что такого? При том, что ссылки вида http://site.ru/list.php?char=90 (сортировка по имени контента) - проиндексировались. Странно! Всех этих непроиндексированных страниц у меня вагон и маленькая тележка, посему, конечно, хотелось бы всё же решить сей вопрос. Либо объясните мне, почему я дурак и не лечусь - я не обижусь. ПС точно на вид моих ссылок не ругались никогда. |
22.06.2007, 11:56 | #2 |
Администратор
Регистрация: 05.02.2007
Сообщений: 18,405
Вес репутации: 715
|
по первой части - странные несоответсвия лучше не учитывать. Когда саповский робот начал сравнивать кодировку сервера и кодировку в мете и при их НЕсовпадении - ставить еррор - это было правильно. А писать стандартные расширения и при этом отдавать не то что написано - странный подход.. поэтому - скорее всего еррор и будет. Или неучет, как в Вашем случае.
По второму - непонятно. ЗЫ Сапе в отличие от поисковиков не пытается проиндексить все и вся, в надежде найти нужный контент там где автор не знаком со стандартами. Тут несколько другая задача стоит, согласитесь.
__________________
Читаем ФАК |
22.06.2007, 12:12 | #3 | |
Эксперт
Регистрация: 04.06.2007
Сообщений: 1,448
Вес репутации: 267
|
Цитата:
Например: ссылка http://site.ru/music.mp3 - да, это ссылка на файл. И глупо по этой ссылке отдавать что-то другое (если не предписано иным случаем). Моя ссылка: http://site.ru/list.php?file=music.mp3 - это ссылка НА страничку http://site.ru/list.php С ПАРАМЕТРОМ 'file' РАВНЫМ 'music.mp3'. НИГДЕ, НИ В КАКИХ стандартах не написано, что в параметрах GET в URL'е нельзя писать 'music.mp3', или другое, что заблагорассудится. Разницу чувствуете? |
|
22.06.2007, 12:22 | #4 |
Администратор
Регистрация: 05.02.2007
Сообщений: 18,405
Вес репутации: 715
|
Да можно! Можно писать что угодно!
Можно в мете написать чарстет 1251, а сервер будет отдавть КОИ8. И будет работать нормально. Вопрос в другом. ЗАЧЕМ РОБОТУ САПЕ лезть в сомнительную ситуацию? А вдруг там действительно файл? Или картинка? ЗАЧЕМ напрягатся, когда можно НЕ напрягатся, вот в чем вопрос. У Вас - правильно отработает, у другого - файл будет лежать. А по параметру file я бы на месте сапы и вовсе не пошел Есть маза качнуть мп3шник. А нафига он роботу нужен? Я же не рассматриваю один, отдельно взятый ресурс.
__________________
Читаем ФАК |
22.06.2007, 12:53 | #5 | |
Эксперт
Регистрация: 04.06.2007
Сообщений: 1,448
Вес репутации: 267
|
Цитата:
Итак, что мы имеем? Мы имеем СПЕЦИАЛЬНЫЙ фикс в коде робота SAPE, который ВООБЩЕ не ходит по ссылкам, на конце которых имеется '.mp3'. Это именно специальный фикс. С одной стороны он оправдан, но в моём случае (и не только в моём, думаю, просто остальные могли или не заметить, или молчат) - это приводит к ошибке. Выход из ситуации - проверять content-type отклика сервера. Для этого НЕ НУЖНО качать файл. Достаточно просто проверить заголовок - если скрипт произведёт переадресацию на mp3 файл (или выдаст mp3 файл) - то и content-type будет соответствующий. Хотя, я понимаю, по переадресациям робот просто не ходит - и это, в общем-то, правильно. Но у меня переадресаций нет. У меня честная страничка, и content-type будет text/html. Вы посоветуете мне убиться об стену? Изменить код на всём сайте, ждать полгода, пока Яндекс опять это всё всосёт, смотреть на упавший до уровня канализации счётчик посещаемости? Полноте, это меня не слишком устраивает. SAPE мне нравится как система, и если этот глючок пофиксить - она станет только лучше, а никак не хуже. |
|
03.07.2007, 09:20 | #6 |
Эксперт
Регистрация: 04.06.2007
Сообщений: 1,448
Вес репутации: 267
|
Прошу уважаемую администрацию прокомментировать. Я, в принципе, даже уже смирился с ситуацией насчёт ?file=music.mp3 - фиг с ним. Но крайне странная ситуация со ?start=10 и т.д.? Индексатор игнорирует и страницы с start= в URL'е?
|
28.11.2007, 13:41 | #7 |
Новичок
Регистрация: 28.11.2007
Сообщений: 1
Вес репутации: 0
|
Та же проблема. Вчера заказал переиндексацию сайта. После переиндексации новые страницы вида:
PHP код:
Последний раз редактировалось Mouser; 28.11.2007 в 13:43. |
|
|
Похожие темы | ||||
Тема | Автор | Раздел | Ответов | Последнее сообщение |
Индексация ссылок | visavi | Яндекс | 4 | 15.05.2008 08:45 |
Индексация сайтов не работает? | Маленькая сосна | Ошибки при работе с системой | 2 | 07.05.2008 14:26 |
Индексация некоторых страниц | valiko | Яндекс | 1 | 17.02.2008 16:51 |
ERROR для некоторых ссылок | zweroboy1 | Ошибки при работе с системой | 6 | 14.02.2008 15:34 |
индексация страниц и Error некоторых ссылок | V!rus | Ошибки при работе с системой | 9 | 19.08.2007 00:53 |
Часовой пояс GMT +3, время: 19:18.