Индексация сайта с учетом robots.txt
А нельзя ли? :confused:
Каждый раз одно и то же приходится делать - удалять страницы запрещенные роботсом. 1.Муторно. 2.Теряется время. |
Что сапа robots.txt не читает?
|
Насколько я вижу - нет.
Или частично... По крайней мере вот такие хвосты точно не воспринимает: Disallow: /*tellafriend=1$ Т.е. индексится ссылка http://www.ru/ad3160.htm и http://www.ru/ad3160.htm/&tellafriend=1 тоже. |
Цитата:
* - расширение не всеми ПС поддерживаемое. $ - что подразумевает? |
"Все ПС" нас не интересуют, нам важен Яндекс, ведь так?
Вот оттуда и берем: Использование спецсимволов "*" и "$". При указании путей директив Allow-Disallow можно использовать спецсимволы '*' и '$', задавая, таким образом, определенные регулярные выражения. Спецсимвол '*' означает любую (в том числе пустую) последовательность символов. Примеры: User-agent: Yandex Disallow: /cgi-bin/*.aspx # запрещает '/cgi-bin/example.aspx' и '/cgi-bin/private/test.aspx' Disallow: /*private # запрещает не только '/private', но и '/cgi-bin/private' Спецсимвол '$'. По умолчанию к концу каждого правила, описанного в robots.txt, приписывается '*', например: User-agent: Yandex Disallow: /cgi-bin* # блокирует доступ к страницам начинающимся с '/cgi-bin' Disallow: /cgi-bin # то же самое чтобы отменить '*' на конце правила, можно использовать спецсимвол '$', например: User-agent: Yandex Disallow: /example$ # запрещает '/example', но не запрещает '/example.html' User-agent: Yandex Disallow: /example # запрещает и '/example', и '/example.html' User-agent: Yandex Disallow: /example$ # запрещает только '/example' Disallow: /example*$ # так же, как 'Disallow: /example' запрещает и /example.html и /example Я думаю что робот Сапы должен обрабатывать роботс 1 в 1 как Яндекс. Иначе смысл? |
Цитата:
Они про * и $ знают? |
:mad::mad::mad:
Речь тут идет об удалении каждый раз ручками тех страниц которые попадают после переиндексации, и удаление это никак не связано ни с рамблером ни с гуглем, а ТОЛЬКО с яндексом, иначе сайт не проходит модерацию. Что непонятного в этой теме? Изза этого я потерял два дня - потому как не все страницы заметил, много их. Нельзя ли чтоб автоматом этого не происходило? Раз сапа требует чтоб все страницы были проиндексированы _ЯНДЕКСОМ_ то пусть и ведет себя как яндекс при индексации. Нафиг всем двойная работа? |
Просто выберите пункт УДАЛИТЬ НАВСЕГДА. И ненужные страницы больше не появятся.
Кстати, Robots.txt можно переписать. От отсутствия $ и * поисковики не станут читать его как-то иначе :) |
Удалить навсегда - это понятно.
К следующей переиндексации таких новых страниц опять будет куча. Посоветуйте если это возможно, как переписать robots в данном случае? Чтоб "и нашим и вашим". |
Цитата:
|
Часовой пояс GMT +3, время: 02:48. |
Работает на vBulletin® версия 3.8.7.
Copyright ©2000 - 2024, Jelsoft Enterprises Ltd.
Перевод: zCarot
SAPE.RU — система купли-продажи ссылок с главных и внутренних страниц сайтов.