Форум SAPE.RU

Форум SAPE.RU (http://forum.sape.ru/index.php)
-   Пожелания пользователей системы (http://forum.sape.ru/forumdisplay.php?f=15)
-   -   Индексация нового сайта или переиндексация имеющегося, путем импорта из ЯВ (http://forum.sape.ru/showthread.php?t=80930)

Langly 09.04.2012 17:19

Индексация нового сайта или переиндексация имеющегося, путем импорта из ЯВ
 
Офтоп: черт, в яв оказывается нет экспорта всех проиндексированных страниц... Ссылки можно вытащить в CSV, а страницы нет. Ну ладно, изложу все-же, а чем сделать экспорт - уже вопрос техники.

Сейчас все сайты проверяю Винкоплагином и удаляю непроиндексированные яшей страницы. Жесть...
Предлагаю рассмотреть следующий вариант индексации сайта как нового, так и переиндексации имеющегося.
Делаем экспорт из ЯВ всех проиндексированных страниц в файл оговоренного формата. При добавлении сайта или отправки на переиндексацию открывается страница с двумя вариантами на выбор:
1.Как сейчас - пауком.
2.Грузим этот файл, и паук идет уже только по тем урлам, которые в нем есть, типа сайтмапа для паука. Ессно, он проверяет на наличие страницы, доступность, УВ итд. А другие страницы паук просто не ищет.

Это позволит сэкономить время и ресурсы системы, избавит ВМ от лишних телодвижений по проверке индексированности страниц и даст оптимизаторам только проиндексированные страницы.
При переиндексации делаем снова экспорт и грузим файл. Система сравнивает новые урлы с теми что уже есть, добавляет те, которых нет и сравнивает остальные, для того, чтобы показать после переиндексации ВМ-ру те страницы, которые есть в системе, но отсутствуют в новом файле, то есть вылетевшие из индекса. ВМ сможет их удалить или оставить, или удалить выборочно.
Суть, думаю понятна, кто что думает по этому поводу?

Добавлено через 15 минут
Добавил еще и сюда http://ideas.sape.ru/
Здесь давайте пообсуждаем.
Для сайтов с сотней-двумя страниц оно не особо надо, но для сайтов, где несколько десятков тысяч страниц, фишка крайне полезная, как для ВМ, так и для системы.

boolevar 09.04.2012 17:25

Поддерживаю! Отличное предложение. В принципе его можно реализовать и винкоплагине, не напрягая разработчиков сапы.

Langly 09.04.2012 17:49

PS Еще один плюс, причем перевесит все остальные.
У меня сайты многостраничные, один из них, еще довольно молодой, имеет примерно 15к страниц. В индексе яндекса около 7к.
В систему паук напарсил 12к. Сейчас я его закончил проверять, из 12к осталось около 5к проиндексированных! Непроиндексированные удалил до переиндексации.

Теперь смотрите, если я сейчас поставлю на переиндексацию, то паук тупо все эти страницы вернет, а они мне не нужны, я снова сутки буду винком их отсеивать и удалять, возможно попадется процентов 20-30 проиндексированных...
Вывод: загнать все проиндексированные яндексом страницы невозможно, так как переиндексация доступна раз в месяч, а паук гребет все подряд...
При этом же способе, система избавится от лишнего трафа на индексацию никому ненужных страниц, я смогу разом загнать в систему ВСЕ проиндексированные страницы сайта и избавлюсь от многочасовых проверок страниц на индексированнось. При переиндексации же, паук добавит только новые проиндексированные страницы и покажет те, которые уже есть в системе, но вылетели из индекса, и я их одним кликом удалю. Ву-а-ля! :-)

Клон 09.04.2012 17:51

Цитата:

Сообщение от Langly (Сообщение 1229403)
осталось около 5к проиндексированных!

Цитата:

Сообщение от Langly (Сообщение 1229403)
Теперь смотрите, если я сейчас поставлю на переиндексацию

а нафига? вам 5к страниц хватит до пенсии торговать =)))

zhegloff 09.04.2012 17:55

Цитата:

Сообщение от Langly (Сообщение 1229359)
Сейчас все сайты проверяю Винкоплагином и удаляю непроиндексированные яшей страницы. Жесть...
Предлагаю рассмотреть следующий вариант индексации сайта как нового, так и переиндексации имеющегося.
Делаем экспорт из ЯВ всех проиндексированных страниц в файл оговоренного формата. При добавлении сайта или отправки на переиндексацию открывается страница с двумя вариантами на выбор:
1.Как сейчас - пауком.
2.Грузим этот файл, и паук идет уже только по тем урлам, которые в нем есть, типа сайтмапа для паука. Ессно, он проверяет на наличие страницы, доступность, УВ итд. А другие страницы паук просто не ищет.

Такой файл уже есть, называется robots.txt

Langly 09.04.2012 17:59

Цитата:

Сообщение от Клон (Сообщение 1229405)
а нафига? вам 5к страниц хватит до пенсии торговать =)))

Ну если есть страницы, значит они должны быть в системе, для порядку :-))

Кстати, было бы неплохо сделать еще нечто вроде саповского сайтмапа, чтобы можно было указать пауку какие страницы брать, а какие не добавлять. По аналогии с сайтовским robots.txt
То есть по правилам робота указываю страницы allow и disallow/ Чтобы не удалять те которые я не хочу, чтобы были в системе, хоть они и индексируются поисковиками, например страницы с тегами и подобные. Вручную удалять можно, но при каждой переиндексации они будут добавляться снова...

cherep777 09.04.2012 18:01

Цитата:

Сообщение от zhegloff (Сообщение 1229406)
Такой файл уже есть, называется robots.txt

а можно поподробнее или ссылочку на туда где почитать...

robots.txt это вроде как не оно ? там нету списка урлов

Langly 09.04.2012 18:03

Цитата:

Сообщение от zhegloff (Сообщение 1229406)
Такой файл уже есть, называется robots.txt

Нет, суть в другом. Чтобы паук брал только проиндексированные страницы по урлам которые я ему предоставлю.
Как в роботе это прописать? :-) Он для поисковиков. И как я в нем укажу непроиндексированные страницы не отдавать пауку сапе? :-)

zhegloff 09.04.2012 18:05

Цитата:

Сообщение от Langly (Сообщение 1229410)

Кстати, было бы неплохо сделать еще нечто вроде саповского сайтмапа, чтобы можно было указать пауку какие страницы брать, а какие не добавлять. По аналогии с сайтовским robots.txt
То есть по правилам робота указываю страницы allow и disallow/ Чтобы не удалять те которые я не хочу, чтобы были в системе, хоть они и индексируются поисковиками, например страницы с тегами и подобные. Вручную удалять можно, но при каждой переиндексации они будут добавляться снова...

Ну так составьте роботс на время индексации сапоботом так как вам нужно... Сапобот исключения роботса учитывает.

Добавлено через 1 минуту
Цитата:

Сообщение от Langly (Сообщение 1229412)
И как я в нем укажу непроиндексированные страницы не отдавать пауку сапе? :-)

Директивой disallow. Список непроиндексированных страниц же есть у вас...

cherep777 09.04.2012 18:12

Цитата:

Сообщение от zhegloff (Сообщение 1229413)
Ну так составьте роботс на время индексации сапоботом так как вам нужно... Сапобот исключения роботса учитывает.

та не, это не вариант - индексация сапо-ботом ведь происходит не мгновенно - вот составляет к примеру человек спец. роботс.тхт с кучей запретов на индексацию и ждётс... а в это время пригодит Яша и Гоша - и такие - оппа - так тута низя индексировать - и уходят.... :) и какой размер будет этого роботса, если кто загонит туда порядка 5-10к строк с запретами? явно не вариант.

Добавлено через 1 минуту
роботс нужен для посковиков и наполнять его ненужным "мусором" не есть гуд.


Часовой пояс GMT +3, время: 22:51.

Работает на vBulletin® версия 3.8.7.
Copyright ©2000 - 2024, Jelsoft Enterprises Ltd.
Перевод: zCarot
SAPE.RU — система купли-продажи ссылок с главных и внутренних страниц сайтов.