09.04.2012, 17:19 | #1 |
Специалист
Регистрация: 25.04.2008
Сообщений: 135
Вес репутации: 201
|
Индексация нового сайта или переиндексация имеющегося, путем импорта из ЯВ
Офтоп: черт, в яв оказывается нет экспорта всех проиндексированных страниц... Ссылки можно вытащить в CSV, а страницы нет. Ну ладно, изложу все-же, а чем сделать экспорт - уже вопрос техники.
Сейчас все сайты проверяю Винкоплагином и удаляю непроиндексированные яшей страницы. Жесть... Предлагаю рассмотреть следующий вариант индексации сайта как нового, так и переиндексации имеющегося. Делаем экспорт из ЯВ всех проиндексированных страниц в файл оговоренного формата. При добавлении сайта или отправки на переиндексацию открывается страница с двумя вариантами на выбор: 1.Как сейчас - пауком. 2.Грузим этот файл, и паук идет уже только по тем урлам, которые в нем есть, типа сайтмапа для паука. Ессно, он проверяет на наличие страницы, доступность, УВ итд. А другие страницы паук просто не ищет. Это позволит сэкономить время и ресурсы системы, избавит ВМ от лишних телодвижений по проверке индексированности страниц и даст оптимизаторам только проиндексированные страницы. При переиндексации делаем снова экспорт и грузим файл. Система сравнивает новые урлы с теми что уже есть, добавляет те, которых нет и сравнивает остальные, для того, чтобы показать после переиндексации ВМ-ру те страницы, которые есть в системе, но отсутствуют в новом файле, то есть вылетевшие из индекса. ВМ сможет их удалить или оставить, или удалить выборочно. Суть, думаю понятна, кто что думает по этому поводу? Добавлено через 15 минут Добавил еще и сюда http://ideas.sape.ru/ Здесь давайте пообсуждаем. Для сайтов с сотней-двумя страниц оно не особо надо, но для сайтов, где несколько десятков тысяч страниц, фишка крайне полезная, как для ВМ, так и для системы. Последний раз редактировалось Langly; 09.04.2012 в 17:19. Причина: Добавлено сообщение |
09.04.2012, 17:49 | #3 |
Специалист
Регистрация: 25.04.2008
Сообщений: 135
Вес репутации: 201
|
PS Еще один плюс, причем перевесит все остальные.
У меня сайты многостраничные, один из них, еще довольно молодой, имеет примерно 15к страниц. В индексе яндекса около 7к. В систему паук напарсил 12к. Сейчас я его закончил проверять, из 12к осталось около 5к проиндексированных! Непроиндексированные удалил до переиндексации. Теперь смотрите, если я сейчас поставлю на переиндексацию, то паук тупо все эти страницы вернет, а они мне не нужны, я снова сутки буду винком их отсеивать и удалять, возможно попадется процентов 20-30 проиндексированных... Вывод: загнать все проиндексированные яндексом страницы невозможно, так как переиндексация доступна раз в месяч, а паук гребет все подряд... При этом же способе, система избавится от лишнего трафа на индексацию никому ненужных страниц, я смогу разом загнать в систему ВСЕ проиндексированные страницы сайта и избавлюсь от многочасовых проверок страниц на индексированнось. При переиндексации же, паук добавит только новые проиндексированные страницы и покажет те, которые уже есть в системе, но вылетели из индекса, и я их одним кликом удалю. Ву-а-ля! :-) |
09.04.2012, 17:51 | #4 |
Куриллочный троль
|
а нафига? вам 5к страниц хватит до пенсии торговать =)))
__________________
|
09.04.2012, 17:55 | #5 | |
Добрый модератор
Регистрация: 09.07.2007
Адрес: глобус Украины
Сообщений: 27,600
Вес репутации: 1026
|
Цитата:
__________________
Правильный хостинг. В личке бесплатно не отвечаю обычно. |
|
09.04.2012, 17:59 | #6 |
Специалист
Регистрация: 25.04.2008
Сообщений: 135
Вес репутации: 201
|
Ну если есть страницы, значит они должны быть в системе, для порядку :-))
Кстати, было бы неплохо сделать еще нечто вроде саповского сайтмапа, чтобы можно было указать пауку какие страницы брать, а какие не добавлять. По аналогии с сайтовским robots.txt То есть по правилам робота указываю страницы allow и disallow/ Чтобы не удалять те которые я не хочу, чтобы были в системе, хоть они и индексируются поисковиками, например страницы с тегами и подобные. Вручную удалять можно, но при каждой переиндексации они будут добавляться снова... Последний раз редактировалось Langly; 09.04.2012 в 18:05. |
09.04.2012, 18:01 | #7 |
Banned
Регистрация: 23.04.2009
Адрес: Глобус Украины
Сообщений: 790
Вес репутации: 0
|
|
09.04.2012, 18:03 | #8 |
Специалист
Регистрация: 25.04.2008
Сообщений: 135
Вес репутации: 201
|
Нет, суть в другом. Чтобы паук брал только проиндексированные страницы по урлам которые я ему предоставлю.
Как в роботе это прописать? :-) Он для поисковиков. И как я в нем укажу непроиндексированные страницы не отдавать пауку сапе? :-) |
09.04.2012, 18:05 | #9 | |
Добрый модератор
Регистрация: 09.07.2007
Адрес: глобус Украины
Сообщений: 27,600
Вес репутации: 1026
|
Цитата:
Добавлено через 1 минуту Директивой disallow. Список непроиндексированных страниц же есть у вас...
__________________
Правильный хостинг. В личке бесплатно не отвечаю обычно. Последний раз редактировалось zhegloff; 09.04.2012 в 18:05. Причина: Добавлено сообщение |
|
09.04.2012, 18:12 | #10 | |
Banned
Регистрация: 23.04.2009
Адрес: Глобус Украины
Сообщений: 790
Вес репутации: 0
|
Цитата:
Добавлено через 1 минуту роботс нужен для посковиков и наполнять его ненужным "мусором" не есть гуд. Последний раз редактировалось cherep777; 09.04.2012 в 18:12. Причина: Добавлено сообщение |
|
|
|
Похожие темы | ||||
Тема | Автор | Раздел | Ответов | Последнее сообщение |
Переиндексация нового сайта (при изменении адресов страниц) | baya | Общие вопросы оптимизации | 4 | 06.10.2011 14:18 |
Индексация нового сайта | jeka66 | Вопросы по работе системы | 0 | 25.08.2011 12:14 |
Индексация нового сайта | latseo | Вопросы от новичков | 5 | 10.04.2011 01:43 |
индексация нового сайта.найдена 1 стр! | romareo | Ошибки при работе с системой | 0 | 29.10.2009 17:25 |
Индексация нового сайта. | Tony Soprano | Яндекс | 5 | 18.09.2009 03:49 |
Часовой пояс GMT +3, время: 18:46.