Индексация нового сайта или переиндексация имеющегося, путем импорта из ЯВ
Офтоп: черт, в яв оказывается нет экспорта всех проиндексированных страниц... Ссылки можно вытащить в CSV, а страницы нет. Ну ладно, изложу все-же, а чем сделать экспорт - уже вопрос техники.
Сейчас все сайты проверяю Винкоплагином и удаляю непроиндексированные яшей страницы. Жесть... Предлагаю рассмотреть следующий вариант индексации сайта как нового, так и переиндексации имеющегося. Делаем экспорт из ЯВ всех проиндексированных страниц в файл оговоренного формата. При добавлении сайта или отправки на переиндексацию открывается страница с двумя вариантами на выбор: 1.Как сейчас - пауком. 2.Грузим этот файл, и паук идет уже только по тем урлам, которые в нем есть, типа сайтмапа для паука. Ессно, он проверяет на наличие страницы, доступность, УВ итд. А другие страницы паук просто не ищет. Это позволит сэкономить время и ресурсы системы, избавит ВМ от лишних телодвижений по проверке индексированности страниц и даст оптимизаторам только проиндексированные страницы. При переиндексации делаем снова экспорт и грузим файл. Система сравнивает новые урлы с теми что уже есть, добавляет те, которых нет и сравнивает остальные, для того, чтобы показать после переиндексации ВМ-ру те страницы, которые есть в системе, но отсутствуют в новом файле, то есть вылетевшие из индекса. ВМ сможет их удалить или оставить, или удалить выборочно. Суть, думаю понятна, кто что думает по этому поводу? Добавлено через 15 минут Добавил еще и сюда http://ideas.sape.ru/ Здесь давайте пообсуждаем. Для сайтов с сотней-двумя страниц оно не особо надо, но для сайтов, где несколько десятков тысяч страниц, фишка крайне полезная, как для ВМ, так и для системы. |
Поддерживаю! Отличное предложение. В принципе его можно реализовать и винкоплагине, не напрягая разработчиков сапы.
|
PS Еще один плюс, причем перевесит все остальные.
У меня сайты многостраничные, один из них, еще довольно молодой, имеет примерно 15к страниц. В индексе яндекса около 7к. В систему паук напарсил 12к. Сейчас я его закончил проверять, из 12к осталось около 5к проиндексированных! Непроиндексированные удалил до переиндексации. Теперь смотрите, если я сейчас поставлю на переиндексацию, то паук тупо все эти страницы вернет, а они мне не нужны, я снова сутки буду винком их отсеивать и удалять, возможно попадется процентов 20-30 проиндексированных... Вывод: загнать все проиндексированные яндексом страницы невозможно, так как переиндексация доступна раз в месяч, а паук гребет все подряд... При этом же способе, система избавится от лишнего трафа на индексацию никому ненужных страниц, я смогу разом загнать в систему ВСЕ проиндексированные страницы сайта и избавлюсь от многочасовых проверок страниц на индексированнось. При переиндексации же, паук добавит только новые проиндексированные страницы и покажет те, которые уже есть в системе, но вылетели из индекса, и я их одним кликом удалю. Ву-а-ля! :-) |
Цитата:
Цитата:
|
Цитата:
|
Цитата:
Кстати, было бы неплохо сделать еще нечто вроде саповского сайтмапа, чтобы можно было указать пауку какие страницы брать, а какие не добавлять. По аналогии с сайтовским robots.txt То есть по правилам робота указываю страницы allow и disallow/ Чтобы не удалять те которые я не хочу, чтобы были в системе, хоть они и индексируются поисковиками, например страницы с тегами и подобные. Вручную удалять можно, но при каждой переиндексации они будут добавляться снова... |
Цитата:
robots.txt это вроде как не оно ? там нету списка урлов |
Цитата:
Как в роботе это прописать? :-) Он для поисковиков. И как я в нем укажу непроиндексированные страницы не отдавать пауку сапе? :-) |
Цитата:
Добавлено через 1 минуту Цитата:
|
Цитата:
Добавлено через 1 минуту роботс нужен для посковиков и наполнять его ненужным "мусором" не есть гуд. |
Часовой пояс GMT +3, время: 22:51. |
Работает на vBulletin® версия 3.8.7.
Copyright ©2000 - 2024, Jelsoft Enterprises Ltd.
Перевод: zCarot
SAPE.RU — система купли-продажи ссылок с главных и внутренних страниц сайтов.