Форум SAPE.RU

Форум SAPE.RU (http://forum.sape.ru/index.php)
-   Пожелания пользователей системы (http://forum.sape.ru/forumdisplay.php?f=15)
-   -   Ручная проверка по YAP более 500 страниц. Что может быть увлекательнее? :) (http://forum.sape.ru/showthread.php?t=7772)

mnemonic 13.01.2008 21:35

Ручная проверка по YAP более 500 страниц. Что может быть увлекательнее? :)
 
Извиняйте, если баян.

Почему бы сразу не отметить новые страницы сайта, которые проиндексированы роботом Sape, но не проиндексированы роботом Yandex в интерфейсе ВМ как "отсутствующие в Ya"? Ведь модератор как-то узнает, что не все страницы из проиндексированных в sape есть в Yandex? Приходится в случае большого кол-ва страниц вручную тыкать в YAP и смотреть, затем ставить галку и удалять.
По всей видимости это еще один способ заставить ВМ хоть немного поработать. :)

В общем, кто сталкивался с этим, меня поймет. Возможно, написанное ниже окажется полезным.

Дано:
Cайт не прошел модерацию по причине "часть страниц не проиндексирована в Yandex", страниц более 500.

Найти:
Какие из этих страниц не проиндексированы. Отметить их галками и удалить...побыстрее. После чего отправить сайт на перемодерацию.

Решение:
1. Экспортировал URL страниц в текстовый файл (спасибо Sape, это можно делать)
2. Зарегистрировался на xml.yandex.ru, забил свой IP, чтобы можно было посылать запросы
3. Написал скрипт проверки на проиндексированность страниц, который берет на вход список урлов из файла, сгенерированного в пункте 1, а на выходе выдает список урлов, не проиндексированных yandex
4. копипастим полученные урлы непроиндексированных страниц в форму внизу списка страниц сайта и нажимаем "поставить галочки" (еще раз спасибо Sape, это можно сделать)
5. Вуа ля, удаляем непроиндексированные страницы

Скрипт проверки ссылок на проиндексированность качайте здесь.

Wink 14.01.2008 16:15

Глючный он у вас. Через раз выдает "задан пустой запрос".

И зачем вообще там понадобились ID страниц? Лучше просто список ссылок вводить. Тот файлик, который выгружается из сапы, прекрасно открывается в excel и ссылки идут отдельным столбцом.
А делать запрос к Яндекс.XML через GET вообще нонсенс - у него длина ограничена и для длинных ссылок ее похоже не хватает.

Если хотите, киньте в личку адрес свой - пришлю вам пример корректной работы с Яндекс.XML в PHP5. Так, для развития просто.

sofree 14.01.2008 17:07

Вот решение:

http://forum.sape.ru/showthread.php?t=7537
http://ya-cache.net.ru - позволяет вытащить урлы сайта, находящиеся в кэше яндекса для определенного сайта.

Просто вводите домен и ждёте - на выходе список урлов, которые есть в кэше яши для этого домена.
Как написано на форуме, ведётся разработка ещё сервиса: на входе - список урлов, на выходе - список есть в кэше, нету.

А у xml сервис яндекса вроде бы есть ограничения на количество запросов...

Wink 14.01.2008 17:17

1000 запросов в сутки ограничение. Одну площадку проверить хватит, зато быстро и легально.

rusteam 16.01.2008 14:46

Ручная проверка по YAP более 500 страниц. Что может быть увлекательнее? :)

Увлекательнее проверка 950 стр, недавно имел честь....

mnemonic 16.01.2008 15:06

Цитата:

Сообщение от Wink (Сообщение 74678)
Глючный он у вас. Через раз выдает "задан пустой запрос".

И зачем вообще там понадобились ID страниц? Лучше просто список ссылок вводить. Тот файлик, который выгружается из сапы, прекрасно открывается в excel и ссылки идут отдельным столбцом.
А делать запрос к Яндекс.XML через GET вообще нонсенс - у него длина ограничена и для длинных ссылок ее похоже не хватает.

Если хотите, киньте в личку адрес свой - пришлю вам пример корректной работы с Яндекс.XML в PHP5. Так, для развития просто.

Мне кажется вы что-то не так делали, или не для того использовали, поэтому и глюки появились. Вы сервис xml.yandex.ru на свой IP подключили?

ID ссылок для скрипта не нужны, они просто для информации выдаются (из сапы ведь выгружается csv текстовый файл с расширением xls, этот файл парсится и из него используются урлы страниц, которые нужно проверять). В результате работы скрипта в текстовое поле формы выводятся урлы страниц, которых нет в индексе. Берем эти урлы и назад в сапу копируем, чтобы снять чекбоксы с этих страниц, после чего удалить из списка проиндексированных.

Вот собственно, для чего скрипт сделан. Пользовался им много раз. При правильном использовании оказывается весьма полезным. Но я никого не принуждаю :)

mnemonic 16.01.2008 15:11

Цитата:

Сообщение от sofree (Сообщение 74705)
Вот решение:

http://forum.sape.ru/showthread.php?t=7537
http://ya-cache.net.ru - позволяет вытащить урлы сайта, находящиеся в кэше яндекса для определенного сайта.

А у xml сервис яндекса вроде бы есть ограничения на количество запросов...

Как вариант, но в данном случае действует "от противного". То есть полученные урлы - то что в индексе (эти страницы остаются в сапе), а как выделить все, что кроме них, чтобы затем удалить?

sofree 16.01.2008 18:05

Цитата:

Сообщение от mnemonic (Сообщение 75547)
Как вариант, но в данном случае действует "от противного". То есть полученные урлы - то что в индексе (эти страницы остаются в сапе), а как выделить все, что кроме них, чтобы затем удалить?

Можно написать скриптец для этого: там 2 списка урлов, а на выходе список для исключения.

И вообще идёт разработка ещё сервиса (то что доктор прописал для сапы):
http://ya-cache.net.ru/forum/index.php?topic=3.0

Добавка:
Можно попросить саповцев сделать такую функцию, там где выводится список страниц: Выделить со статусом OK, NEW
Кликаешь NEW (после того как отметишь страницы из индекса яши в OK) и выбираешь Удалить

Wink 16.01.2008 20:26

Цитата:

Мне кажется вы что-то не так делали, или не для того использовали, поэтому и глюки появились. Вы сервис xml.yandex.ru на свой IP подключили?
Я прекрасно разобрался как ваш скрипт работает и для чего, потому и написал. Если сейчас перечислять все его глюки сильно много времени потребуется. Вот, к примеру, в этой строке запрос без смысла, внимательнее присмотритесь:
Код:

$l_Request = urlencode('url="'.$l_URL.'"+|+url="'.$l_URL.'"');
Цитата:

И вообще идёт разработка ещё сервиса (то что доктор прописал для сапы)
Может уже хватит пиарить в этой теме? Есть же отдельная. К тому же программа эта пока для замены YAP не подходит - у меня, например, на продажу 200 страничек, а она пытается проверить в кэше около 10000, видимо все что в индексе. Кому оно надо?

Wink 16.01.2008 20:40

Вот вам еще глюк для комплекта.
Код:

$l_URL = preg_replace('|^(.+)/|', "$1", $l_URL);
Попробуйте выполнить эту замену для ссылки yandex.ru/setup/setup.html


Часовой пояс GMT +3, время: 06:06.

Работает на vBulletin® версия 3.8.7.
Copyright ©2000 - 2025, Jelsoft Enterprises Ltd.
Перевод: zCarot
SAPE.RU — система купли-продажи ссылок с главных и внутренних страниц сайтов.