Форум SAPE.RU - Индексация сайта с учетом robots.txt

Форум SAPE.RU (http://forum.sape.ru/index.php)

- Пожелания пользователей системы (http://forum.sape.ru/forumdisplay.php?f=15)

- - Индексация сайта с учетом robots.txt (http://forum.sape.ru/showthread.php?t=12742)

Индексация сайта с учетом robots.txt

А нельзя ли? :confused:
Каждый раз одно и то же приходится делать - удалять страницы запрещенные роботсом.
1.Муторно.
2.Теряется время.

Что сапа robots.txt не читает?

Насколько я вижу - нет.
Или частично...
По крайней мере вот такие хвосты точно не воспринимает:

Disallow: /*tellafriend=1$

Т.е. индексится ссылка
http://www.ru/ad3160.htm
и
http://www.ru/ad3160.htm/&tellafriend=1
тоже.

Цитата:

Сообщение от Сергей Ш (Сообщение 149147)

Disallow: /*tellafriend=1$ - не по стандарту инструкция.
* - расширение не всеми ПС поддерживаемое.
$ - что подразумевает?

"Все ПС" нас не интересуют, нам важен Яндекс, ведь так?

Вот оттуда и берем:

Использование спецсимволов "*" и "$".

При указании путей директив Allow-Disallow можно использовать спецсимволы '*' и '$', задавая, таким образом, определенные регулярные выражения. Спецсимвол '*' означает любую (в том числе пустую) последовательность символов. Примеры:
User-agent: Yandex
Disallow: /cgi-bin/*.aspx # запрещает '/cgi-bin/example.aspx' и '/cgi-bin/private/test.aspx'
Disallow: /*private # запрещает не только '/private', но и '/cgi-bin/private'

Спецсимвол '$'.

По умолчанию к концу каждого правила, описанного в robots.txt, приписывается '*', например:
User-agent: Yandex
Disallow: /cgi-bin* # блокирует доступ к страницам начинающимся с '/cgi-bin'
Disallow: /cgi-bin # то же самое

чтобы отменить '*' на конце правила, можно использовать спецсимвол '$', например:
User-agent: Yandex
Disallow: /example$ # запрещает '/example', но не запрещает '/example.html'
User-agent: Yandex
Disallow: /example # запрещает и '/example', и '/example.html'
User-agent: Yandex
Disallow: /example$ # запрещает только '/example'
Disallow: /example*$ # так же, как 'Disallow: /example' запрещает и /example.html и /example

Я думаю что робот Сапы должен обрабатывать роботс 1 в 1 как Яндекс. Иначе смысл?

Цитата:

нам важен Яндекс, ведь так?

Ещё Гугль и иногда Рамблер.
Они про * и $ знают?

:mad::mad::mad:
Речь тут идет об удалении каждый раз ручками тех страниц которые попадают после переиндексации, и удаление это никак не связано ни с рамблером ни с гуглем, а ТОЛЬКО с яндексом, иначе сайт не проходит модерацию.
Что непонятного в этой теме?
Изза этого я потерял два дня - потому как не все страницы заметил, много их.

Нельзя ли чтоб автоматом этого не происходило?

Раз сапа требует чтоб все страницы были проиндексированы _ЯНДЕКСОМ_ то пусть и ведет себя как яндекс при индексации. Нафиг всем двойная работа?

Просто выберите пункт УДАЛИТЬ НАВСЕГДА. И ненужные страницы больше не появятся.
Кстати, Robots.txt можно переписать. От отсутствия $ и * поисковики не станут читать его как-то иначе :)

Удалить навсегда - это понятно.
К следующей переиндексации таких новых страниц опять будет куча.

Посоветуйте если это возможно, как переписать robots в данном случае? Чтоб "и нашим и вашим".

Цитата:

Сообщение от Сергей Ш (Сообщение 149385)

Да просто уберите * и $. Я, например, их никогда не писал. И все роботы прекрасно понимают. Смысл, как понимаю, тоже не меняется.