Старый 08.05.2008, 11:43   #1
Новичок
 
Регистрация: 14.04.2008
Сообщений: 22
Вес репутации: 0
Сергей Ш на пути к лучшему
По умолчанию Индексация сайта с учетом robots.txt

А нельзя ли?
Каждый раз одно и то же приходится делать - удалять страницы запрещенные роботсом.
1.Муторно.
2.Теряется время.
Сергей Ш вне форума   Ответить с цитированием
Старый 08.05.2008, 11:46   #2
Хитрый жук
 
Аватар для Алексей Барыкин
 
Регистрация: 05.12.2007
Адрес: Конаково
Сообщений: 2,987
Вес репутации: 340
Алексей Барыкин - прекрасное будущееАлексей Барыкин - прекрасное будущееАлексей Барыкин - прекрасное будущееАлексей Барыкин - прекрасное будущееАлексей Барыкин - прекрасное будущееАлексей Барыкин - прекрасное будущееАлексей Барыкин - прекрасное будущееАлексей Барыкин - прекрасное будущееАлексей Барыкин - прекрасное будущееАлексей Барыкин - прекрасное будущееАлексей Барыкин - прекрасное будущее
По умолчанию

Что сапа robots.txt не читает?
Алексей Барыкин вне форума   Ответить с цитированием
Старый 08.05.2008, 11:52   #3
Новичок
 
Регистрация: 14.04.2008
Сообщений: 22
Вес репутации: 0
Сергей Ш на пути к лучшему
По умолчанию

Насколько я вижу - нет.
Или частично...
По крайней мере вот такие хвосты точно не воспринимает:

Disallow: /*tellafriend=1$

Т.е. индексится ссылка
http://www.ru/ad3160.htm
и
http://www.ru/ad3160.htm/&tellafriend=1
тоже.
Сергей Ш вне форума   Ответить с цитированием
Старый 08.05.2008, 11:55   #4
Хитрый жук
 
Аватар для Алексей Барыкин
 
Регистрация: 05.12.2007
Адрес: Конаково
Сообщений: 2,987
Вес репутации: 340
Алексей Барыкин - прекрасное будущееАлексей Барыкин - прекрасное будущееАлексей Барыкин - прекрасное будущееАлексей Барыкин - прекрасное будущееАлексей Барыкин - прекрасное будущееАлексей Барыкин - прекрасное будущееАлексей Барыкин - прекрасное будущееАлексей Барыкин - прекрасное будущееАлексей Барыкин - прекрасное будущееАлексей Барыкин - прекрасное будущееАлексей Барыкин - прекрасное будущее
По умолчанию

Цитата:
Сообщение от Сергей Ш Посмотреть сообщение
Насколько я вижу - нет.
Или частично...
По крайней мере вот такие хвосты точно не воспринимает:

Disallow: /*tellafriend=1$

Т.е. индексится ссылка
http://www.ru/ad3160.htm
и
http://www.ru/ad3160.htm/&tellafriend=1
тоже.
Disallow: /*tellafriend=1$ - не по стандарту инструкция.
* - расширение не всеми ПС поддерживаемое.
$ - что подразумевает?
Алексей Барыкин вне форума   Ответить с цитированием
Старый 08.05.2008, 12:02   #5
Новичок
 
Регистрация: 14.04.2008
Сообщений: 22
Вес репутации: 0
Сергей Ш на пути к лучшему
По умолчанию

"Все ПС" нас не интересуют, нам важен Яндекс, ведь так?

Вот оттуда и берем:

Использование спецсимволов "*" и "$".

При указании путей директив Allow-Disallow можно использовать спецсимволы '*' и '$', задавая, таким образом, определенные регулярные выражения. Спецсимвол '*' означает любую (в том числе пустую) последовательность символов. Примеры:
User-agent: Yandex
Disallow: /cgi-bin/*.aspx # запрещает '/cgi-bin/example.aspx' и '/cgi-bin/private/test.aspx'
Disallow: /*private # запрещает не только '/private', но и '/cgi-bin/private'

Спецсимвол '$'.

По умолчанию к концу каждого правила, описанного в robots.txt, приписывается '*', например:
User-agent: Yandex
Disallow: /cgi-bin* # блокирует доступ к страницам начинающимся с '/cgi-bin'
Disallow: /cgi-bin # то же самое

чтобы отменить '*' на конце правила, можно использовать спецсимвол '$', например:
User-agent: Yandex
Disallow: /example$ # запрещает '/example', но не запрещает '/example.html'
User-agent: Yandex
Disallow: /example # запрещает и '/example', и '/example.html'
User-agent: Yandex
Disallow: /example$ # запрещает только '/example'
Disallow: /example*$ # так же, как 'Disallow: /example' запрещает и /example.html и /example

Я думаю что робот Сапы должен обрабатывать роботс 1 в 1 как Яндекс. Иначе смысл?
Сергей Ш вне форума   Ответить с цитированием
Старый 08.05.2008, 12:06   #6
Хитрый жук
 
Аватар для Алексей Барыкин
 
Регистрация: 05.12.2007
Адрес: Конаково
Сообщений: 2,987
Вес репутации: 340
Алексей Барыкин - прекрасное будущееАлексей Барыкин - прекрасное будущееАлексей Барыкин - прекрасное будущееАлексей Барыкин - прекрасное будущееАлексей Барыкин - прекрасное будущееАлексей Барыкин - прекрасное будущееАлексей Барыкин - прекрасное будущееАлексей Барыкин - прекрасное будущееАлексей Барыкин - прекрасное будущееАлексей Барыкин - прекрасное будущееАлексей Барыкин - прекрасное будущее
По умолчанию

Цитата:
нам важен Яндекс, ведь так?
Ещё Гугль и иногда Рамблер.
Они про * и $ знают?
Алексей Барыкин вне форума   Ответить с цитированием
Старый 08.05.2008, 12:11   #7
Новичок
 
Регистрация: 14.04.2008
Сообщений: 22
Вес репутации: 0
Сергей Ш на пути к лучшему
По умолчанию


Речь тут идет об удалении каждый раз ручками тех страниц которые попадают после переиндексации, и удаление это никак не связано ни с рамблером ни с гуглем, а ТОЛЬКО с яндексом, иначе сайт не проходит модерацию.
Что непонятного в этой теме?
Изза этого я потерял два дня - потому как не все страницы заметил, много их.

Нельзя ли чтоб автоматом этого не происходило?

Раз сапа требует чтоб все страницы были проиндексированы _ЯНДЕКСОМ_ то пусть и ведет себя как яндекс при индексации. Нафиг всем двойная работа?
Сергей Ш вне форума   Ответить с цитированием
Старый 08.05.2008, 16:23   #8
Дикий
 
Аватар для D.iK.iJ
 
Регистрация: 02.06.2007
Адрес: <Noindex>
Сообщений: 2,536
Вес репутации: 305
D.iK.iJ - прекрасное будущееD.iK.iJ - прекрасное будущееD.iK.iJ - прекрасное будущееD.iK.iJ - прекрасное будущееD.iK.iJ - прекрасное будущееD.iK.iJ - прекрасное будущееD.iK.iJ - прекрасное будущееD.iK.iJ - прекрасное будущееD.iK.iJ - прекрасное будущееD.iK.iJ - прекрасное будущееD.iK.iJ - прекрасное будущее
По умолчанию

Просто выберите пункт УДАЛИТЬ НАВСЕГДА. И ненужные страницы больше не появятся.
Кстати, Robots.txt можно переписать. От отсутствия $ и * поисковики не станут читать его как-то иначе
D.iK.iJ вне форума   Ответить с цитированием
Старый 08.05.2008, 17:34   #9
Новичок
 
Регистрация: 14.04.2008
Сообщений: 22
Вес репутации: 0
Сергей Ш на пути к лучшему
По умолчанию

Удалить навсегда - это понятно.
К следующей переиндексации таких новых страниц опять будет куча.

Посоветуйте если это возможно, как переписать robots в данном случае? Чтоб "и нашим и вашим".
Сергей Ш вне форума   Ответить с цитированием
Старый 09.05.2008, 10:40   #10
Дикий
 
Аватар для D.iK.iJ
 
Регистрация: 02.06.2007
Адрес: <Noindex>
Сообщений: 2,536
Вес репутации: 305
D.iK.iJ - прекрасное будущееD.iK.iJ - прекрасное будущееD.iK.iJ - прекрасное будущееD.iK.iJ - прекрасное будущееD.iK.iJ - прекрасное будущееD.iK.iJ - прекрасное будущееD.iK.iJ - прекрасное будущееD.iK.iJ - прекрасное будущееD.iK.iJ - прекрасное будущееD.iK.iJ - прекрасное будущееD.iK.iJ - прекрасное будущее
По умолчанию

Цитата:
Сообщение от Сергей Ш Посмотреть сообщение
Удалить навсегда - это понятно.
К следующей переиндексации таких новых страниц опять будет куча.

Посоветуйте если это возможно, как переписать robots в данном случае? Чтоб "и нашим и вашим".
Да просто уберите * и $. Я, например, их никогда не писал. И все роботы прекрасно понимают. Смысл, как понимаю, тоже не меняется.
D.iK.iJ вне форума   Ответить с цитированием
Ответ

Опции темы

Ваши права в разделе
Вы не можете создавать новые темы
Вы не можете отвечать в темах
Вы не можете прикреплять вложения
Вы не можете редактировать свои сообщения

BB коды Вкл.
Смайлы Вкл.
[IMG] код Вкл.
HTML код Выкл.

Быстрый переход

Похожие темы
Тема Автор Раздел Ответов Последнее сообщение
Запрещена индексация сайта rock555 Разработка и сопровождение сайтов 13 04.07.2008 13:31
Индексация сайта Яшей, что-то тут не то! peeplanet Яндекс 30 26.05.2008 19:19
Индексация сайта остановилась m@}{ Ошибки при работе с системой 3 22.01.2008 00:10
Индексация сайта vitalius Вопросы по работе системы 29 03.12.2007 19:11
Индексация статического сайта alextarasov Вопросы по работе системы 7 11.10.2007 19:47


Часовой пояс GMT +3, время: 09:05.