Форум SAPE.RU

Форум SAPE.RU (http://forum.sape.ru/index.php)
-   Пожелания пользователей системы (http://forum.sape.ru/forumdisplay.php?f=15)
-   -   Индексация сайта с учетом robots.txt (http://forum.sape.ru/showthread.php?t=12742)

Сергей Ш 08.05.2008 11:43

Индексация сайта с учетом robots.txt
 
А нельзя ли? :confused:
Каждый раз одно и то же приходится делать - удалять страницы запрещенные роботсом.
1.Муторно.
2.Теряется время.

Алексей Барыкин 08.05.2008 11:46

Что сапа robots.txt не читает?

Сергей Ш 08.05.2008 11:52

Насколько я вижу - нет.
Или частично...
По крайней мере вот такие хвосты точно не воспринимает:

Disallow: /*tellafriend=1$

Т.е. индексится ссылка
http://www.ru/ad3160.htm
и
http://www.ru/ad3160.htm/&tellafriend=1
тоже.

Алексей Барыкин 08.05.2008 11:55

Цитата:

Сообщение от Сергей Ш (Сообщение 149147)
Насколько я вижу - нет.
Или частично...
По крайней мере вот такие хвосты точно не воспринимает:

Disallow: /*tellafriend=1$

Т.е. индексится ссылка
http://www.ru/ad3160.htm
и
http://www.ru/ad3160.htm/&tellafriend=1
тоже.

Disallow: /*tellafriend=1$ - не по стандарту инструкция.
* - расширение не всеми ПС поддерживаемое.
$ - что подразумевает?

Сергей Ш 08.05.2008 12:02

"Все ПС" нас не интересуют, нам важен Яндекс, ведь так?

Вот оттуда и берем:

Использование спецсимволов "*" и "$".

При указании путей директив Allow-Disallow можно использовать спецсимволы '*' и '$', задавая, таким образом, определенные регулярные выражения. Спецсимвол '*' означает любую (в том числе пустую) последовательность символов. Примеры:
User-agent: Yandex
Disallow: /cgi-bin/*.aspx # запрещает '/cgi-bin/example.aspx' и '/cgi-bin/private/test.aspx'
Disallow: /*private # запрещает не только '/private', но и '/cgi-bin/private'

Спецсимвол '$'.

По умолчанию к концу каждого правила, описанного в robots.txt, приписывается '*', например:
User-agent: Yandex
Disallow: /cgi-bin* # блокирует доступ к страницам начинающимся с '/cgi-bin'
Disallow: /cgi-bin # то же самое

чтобы отменить '*' на конце правила, можно использовать спецсимвол '$', например:
User-agent: Yandex
Disallow: /example$ # запрещает '/example', но не запрещает '/example.html'
User-agent: Yandex
Disallow: /example # запрещает и '/example', и '/example.html'
User-agent: Yandex
Disallow: /example$ # запрещает только '/example'
Disallow: /example*$ # так же, как 'Disallow: /example' запрещает и /example.html и /example

Я думаю что робот Сапы должен обрабатывать роботс 1 в 1 как Яндекс. Иначе смысл?

Алексей Барыкин 08.05.2008 12:06

Цитата:

нам важен Яндекс, ведь так?
Ещё Гугль и иногда Рамблер.
Они про * и $ знают?

Сергей Ш 08.05.2008 12:11

:mad::mad::mad:
Речь тут идет об удалении каждый раз ручками тех страниц которые попадают после переиндексации, и удаление это никак не связано ни с рамблером ни с гуглем, а ТОЛЬКО с яндексом, иначе сайт не проходит модерацию.
Что непонятного в этой теме?
Изза этого я потерял два дня - потому как не все страницы заметил, много их.

Нельзя ли чтоб автоматом этого не происходило?

Раз сапа требует чтоб все страницы были проиндексированы _ЯНДЕКСОМ_ то пусть и ведет себя как яндекс при индексации. Нафиг всем двойная работа?

D.iK.iJ 08.05.2008 16:23

Просто выберите пункт УДАЛИТЬ НАВСЕГДА. И ненужные страницы больше не появятся.
Кстати, Robots.txt можно переписать. От отсутствия $ и * поисковики не станут читать его как-то иначе :)

Сергей Ш 08.05.2008 17:34

Удалить навсегда - это понятно.
К следующей переиндексации таких новых страниц опять будет куча.

Посоветуйте если это возможно, как переписать robots в данном случае? Чтоб "и нашим и вашим".

D.iK.iJ 09.05.2008 10:40

Цитата:

Сообщение от Сергей Ш (Сообщение 149385)
Удалить навсегда - это понятно.
К следующей переиндексации таких новых страниц опять будет куча.

Посоветуйте если это возможно, как переписать robots в данном случае? Чтоб "и нашим и вашим".

Да просто уберите * и $. Я, например, их никогда не писал. И все роботы прекрасно понимают. Смысл, как понимаю, тоже не меняется.


Часовой пояс GMT +3, время: 00:56.

Работает на vBulletin® версия 3.8.7.
Copyright ©2000 - 2024, Jelsoft Enterprises Ltd.
Перевод: zCarot
SAPE.RU — система купли-продажи ссылок с главных и внутренних страниц сайтов.