Вернуться   Форум SAPE.RU > Система SAPE.ru > Пожелания пользователей системы

-->
Ответ
 
Опции темы
Старый 09.04.2012, 17:19   #1
Специалист
 
Регистрация: 25.04.2008
Сообщений: 135
Вес репутации: 147
Langly - очень-очень хороший человекLangly - очень-очень хороший человекLangly - очень-очень хороший человекLangly - очень-очень хороший человек
По умолчанию Индексация нового сайта или переиндексация имеющегося, путем импорта из ЯВ

Офтоп: черт, в яв оказывается нет экспорта всех проиндексированных страниц... Ссылки можно вытащить в CSV, а страницы нет. Ну ладно, изложу все-же, а чем сделать экспорт - уже вопрос техники.

Сейчас все сайты проверяю Винкоплагином и удаляю непроиндексированные яшей страницы. Жесть...
Предлагаю рассмотреть следующий вариант индексации сайта как нового, так и переиндексации имеющегося.
Делаем экспорт из ЯВ всех проиндексированных страниц в файл оговоренного формата. При добавлении сайта или отправки на переиндексацию открывается страница с двумя вариантами на выбор:
1.Как сейчас - пауком.
2.Грузим этот файл, и паук идет уже только по тем урлам, которые в нем есть, типа сайтмапа для паука. Ессно, он проверяет на наличие страницы, доступность, УВ итд. А другие страницы паук просто не ищет.

Это позволит сэкономить время и ресурсы системы, избавит ВМ от лишних телодвижений по проверке индексированности страниц и даст оптимизаторам только проиндексированные страницы.
При переиндексации делаем снова экспорт и грузим файл. Система сравнивает новые урлы с теми что уже есть, добавляет те, которых нет и сравнивает остальные, для того, чтобы показать после переиндексации ВМ-ру те страницы, которые есть в системе, но отсутствуют в новом файле, то есть вылетевшие из индекса. ВМ сможет их удалить или оставить, или удалить выборочно.
Суть, думаю понятна, кто что думает по этому поводу?

Добавлено через 15 минут
Добавил еще и сюда http://ideas.sape.ru/
Здесь давайте пообсуждаем.
Для сайтов с сотней-двумя страниц оно не особо надо, но для сайтов, где несколько десятков тысяч страниц, фишка крайне полезная, как для ВМ, так и для системы.

Последний раз редактировалось Langly; 09.04.2012 в 17:19. Причина: Добавлено сообщение
Langly вне форума   Ответить с цитированием
Старый 09.04.2012, 17:25   #2
Мастер
 
Аватар для boolevar
 
Регистрация: 02.08.2007
Сообщений: 668
Вес репутации: 189
boolevar - прекрасное будущееboolevar - прекрасное будущееboolevar - прекрасное будущееboolevar - прекрасное будущееboolevar - прекрасное будущееboolevar - прекрасное будущееboolevar - прекрасное будущееboolevar - прекрасное будущееboolevar - прекрасное будущееboolevar - прекрасное будущееboolevar - прекрасное будущее
По умолчанию

Поддерживаю! Отличное предложение. В принципе его можно реализовать и винкоплагине, не напрягая разработчиков сапы.
boolevar вне форума   Ответить с цитированием
Старый 09.04.2012, 17:49   #3
Специалист
 
Регистрация: 25.04.2008
Сообщений: 135
Вес репутации: 147
Langly - очень-очень хороший человекLangly - очень-очень хороший человекLangly - очень-очень хороший человекLangly - очень-очень хороший человек
По умолчанию

PS Еще один плюс, причем перевесит все остальные.
У меня сайты многостраничные, один из них, еще довольно молодой, имеет примерно 15к страниц. В индексе яндекса около 7к.
В систему паук напарсил 12к. Сейчас я его закончил проверять, из 12к осталось около 5к проиндексированных! Непроиндексированные удалил до переиндексации.

Теперь смотрите, если я сейчас поставлю на переиндексацию, то паук тупо все эти страницы вернет, а они мне не нужны, я снова сутки буду винком их отсеивать и удалять, возможно попадется процентов 20-30 проиндексированных...
Вывод: загнать все проиндексированные яндексом страницы невозможно, так как переиндексация доступна раз в месяч, а паук гребет все подряд...
При этом же способе, система избавится от лишнего трафа на индексацию никому ненужных страниц, я смогу разом загнать в систему ВСЕ проиндексированные страницы сайта и избавлюсь от многочасовых проверок страниц на индексированнось. При переиндексации же, паук добавит только новые проиндексированные страницы и покажет те, которые уже есть в системе, но вылетели из индекса, и я их одним кликом удалю. Ву-а-ля! :-)
Langly вне форума   Ответить с цитированием
Старый 09.04.2012, 17:51   #4
Куриллочный троль
 
Аватар для Клон
 
Регистрация: 15.03.2010
Сообщений: 8,462
Вес репутации: 466
Клон - прекрасное будущееКлон - прекрасное будущееКлон - прекрасное будущееКлон - прекрасное будущееКлон - прекрасное будущееКлон - прекрасное будущееКлон - прекрасное будущееКлон - прекрасное будущееКлон - прекрасное будущееКлон - прекрасное будущееКлон - прекрасное будущее
Отправить сообщение для Клон с помощью ICQ
По умолчанию

Цитата:
Сообщение от Langly Посмотреть сообщение
осталось около 5к проиндексированных!
Цитата:
Сообщение от Langly Посмотреть сообщение
Теперь смотрите, если я сейчас поставлю на переиндексацию
а нафига? вам 5к страниц хватит до пенсии торговать =)))
__________________
2013 год. В прошлом апокалипсис. Страшный апокалипсис. Гнилой апокалипсис. Просто чмо
Клон вне форума   Ответить с цитированием
Старый 09.04.2012, 17:55   #5
Добрый модератор
 
Аватар для zhegloff
 
Регистрация: 09.07.2007
Адрес: глобус Украины
Сообщений: 27,600
Вес репутации: 972
zhegloff - прекрасное будущееzhegloff - прекрасное будущееzhegloff - прекрасное будущееzhegloff - прекрасное будущееzhegloff - прекрасное будущееzhegloff - прекрасное будущееzhegloff - прекрасное будущееzhegloff - прекрасное будущееzhegloff - прекрасное будущееzhegloff - прекрасное будущееzhegloff - прекрасное будущее
По умолчанию

Цитата:
Сообщение от Langly Посмотреть сообщение
Сейчас все сайты проверяю Винкоплагином и удаляю непроиндексированные яшей страницы. Жесть...
Предлагаю рассмотреть следующий вариант индексации сайта как нового, так и переиндексации имеющегося.
Делаем экспорт из ЯВ всех проиндексированных страниц в файл оговоренного формата. При добавлении сайта или отправки на переиндексацию открывается страница с двумя вариантами на выбор:
1.Как сейчас - пауком.
2.Грузим этот файл, и паук идет уже только по тем урлам, которые в нем есть, типа сайтмапа для паука. Ессно, он проверяет на наличие страницы, доступность, УВ итд. А другие страницы паук просто не ищет.
Такой файл уже есть, называется robots.txt
__________________
Установка кода сапы от $9.95. Пишите в личку.
Правильный хостинг.
В личке бесплатно не отвечаю обычно.
zhegloff вне форума   Ответить с цитированием
Старый 09.04.2012, 17:59   #6
Специалист
 
Регистрация: 25.04.2008
Сообщений: 135
Вес репутации: 147
Langly - очень-очень хороший человекLangly - очень-очень хороший человекLangly - очень-очень хороший человекLangly - очень-очень хороший человек
По умолчанию

Цитата:
Сообщение от Клон Посмотреть сообщение
а нафига? вам 5к страниц хватит до пенсии торговать =)))
Ну если есть страницы, значит они должны быть в системе, для порядку :-))

Кстати, было бы неплохо сделать еще нечто вроде саповского сайтмапа, чтобы можно было указать пауку какие страницы брать, а какие не добавлять. По аналогии с сайтовским robots.txt
То есть по правилам робота указываю страницы allow и disallow/ Чтобы не удалять те которые я не хочу, чтобы были в системе, хоть они и индексируются поисковиками, например страницы с тегами и подобные. Вручную удалять можно, но при каждой переиндексации они будут добавляться снова...

Последний раз редактировалось Langly; 09.04.2012 в 18:05.
Langly вне форума   Ответить с цитированием
Старый 09.04.2012, 18:01   #7
Banned
 
Регистрация: 23.04.2009
Адрес: Глобус Украины
Сообщений: 790
Вес репутации: 0
cherep777 - весьма и весьма положительная личностьcherep777 - весьма и весьма положительная личность
По умолчанию

Цитата:
Сообщение от zhegloff Посмотреть сообщение
Такой файл уже есть, называется robots.txt
а можно поподробнее или ссылочку на туда где почитать...

robots.txt это вроде как не оно ? там нету списка урлов
cherep777 вне форума   Ответить с цитированием
Старый 09.04.2012, 18:03   #8
Специалист
 
Регистрация: 25.04.2008
Сообщений: 135
Вес репутации: 147
Langly - очень-очень хороший человекLangly - очень-очень хороший человекLangly - очень-очень хороший человекLangly - очень-очень хороший человек
По умолчанию

Цитата:
Сообщение от zhegloff Посмотреть сообщение
Такой файл уже есть, называется robots.txt
Нет, суть в другом. Чтобы паук брал только проиндексированные страницы по урлам которые я ему предоставлю.
Как в роботе это прописать? :-) Он для поисковиков. И как я в нем укажу непроиндексированные страницы не отдавать пауку сапе? :-)
Langly вне форума   Ответить с цитированием
Старый 09.04.2012, 18:05   #9
Добрый модератор
 
Аватар для zhegloff
 
Регистрация: 09.07.2007
Адрес: глобус Украины
Сообщений: 27,600
Вес репутации: 972
zhegloff - прекрасное будущееzhegloff - прекрасное будущееzhegloff - прекрасное будущееzhegloff - прекрасное будущееzhegloff - прекрасное будущееzhegloff - прекрасное будущееzhegloff - прекрасное будущееzhegloff - прекрасное будущееzhegloff - прекрасное будущееzhegloff - прекрасное будущееzhegloff - прекрасное будущее
По умолчанию

Цитата:
Сообщение от Langly Посмотреть сообщение

Кстати, было бы неплохо сделать еще нечто вроде саповского сайтмапа, чтобы можно было указать пауку какие страницы брать, а какие не добавлять. По аналогии с сайтовским robots.txt
То есть по правилам робота указываю страницы allow и disallow/ Чтобы не удалять те которые я не хочу, чтобы были в системе, хоть они и индексируются поисковиками, например страницы с тегами и подобные. Вручную удалять можно, но при каждой переиндексации они будут добавляться снова...
Ну так составьте роботс на время индексации сапоботом так как вам нужно... Сапобот исключения роботса учитывает.

Добавлено через 1 минуту
Цитата:
Сообщение от Langly Посмотреть сообщение
И как я в нем укажу непроиндексированные страницы не отдавать пауку сапе? :-)
Директивой disallow. Список непроиндексированных страниц же есть у вас...
__________________
Установка кода сапы от $9.95. Пишите в личку.
Правильный хостинг.
В личке бесплатно не отвечаю обычно.

Последний раз редактировалось zhegloff; 09.04.2012 в 18:05. Причина: Добавлено сообщение
zhegloff вне форума   Ответить с цитированием
Старый 09.04.2012, 18:12   #10
Banned
 
Регистрация: 23.04.2009
Адрес: Глобус Украины
Сообщений: 790
Вес репутации: 0
cherep777 - весьма и весьма положительная личностьcherep777 - весьма и весьма положительная личность
По умолчанию

Цитата:
Сообщение от zhegloff Посмотреть сообщение
Ну так составьте роботс на время индексации сапоботом так как вам нужно... Сапобот исключения роботса учитывает.
та не, это не вариант - индексация сапо-ботом ведь происходит не мгновенно - вот составляет к примеру человек спец. роботс.тхт с кучей запретов на индексацию и ждётс... а в это время пригодит Яша и Гоша - и такие - оппа - так тута низя индексировать - и уходят.... и какой размер будет этого роботса, если кто загонит туда порядка 5-10к строк с запретами? явно не вариант.

Добавлено через 1 минуту
роботс нужен для посковиков и наполнять его ненужным "мусором" не есть гуд.

Последний раз редактировалось cherep777; 09.04.2012 в 18:12. Причина: Добавлено сообщение
cherep777 вне форума   Ответить с цитированием
Ответ

Опции темы

Ваши права в разделе
Вы не можете создавать новые темы
Вы не можете отвечать в темах
Вы не можете прикреплять вложения
Вы не можете редактировать свои сообщения

BB коды Вкл.
Смайлы Вкл.
[IMG] код Вкл.
HTML код Выкл.

Быстрый переход

Похожие темы
Тема Автор Раздел Ответов Последнее сообщение
Переиндексация нового сайта (при изменении адресов страниц) baya Общие вопросы оптимизации 4 06.10.2011 14:18
Индексация нового сайта jeka66 Вопросы по работе системы 0 25.08.2011 12:14
Индексация нового сайта latseo Вопросы от новичков 5 10.04.2011 01:43
индексация нового сайта.найдена 1 стр! romareo Ошибки при работе с системой 0 29.10.2009 17:25
Индексация нового сайта. Tony Soprano Яндекс 5 18.09.2009 03:49


Часовой пояс GMT +3, время: 06:27.