Вернуться   Форум SAPE.RU > Система SAPE.ru > Пожелания пользователей системы

-->
Ответ
 
Опции темы
Старый 13.01.2008, 21:35   #1
Специалист
 
Аватар для mnemonic
 
Регистрация: 29.10.2007
Адрес: Планета Земля
Сообщений: 231
Вес репутации: 214
mnemonic - просто великолепная личностьmnemonic - просто великолепная личностьmnemonic - просто великолепная личностьmnemonic - просто великолепная личностьmnemonic - просто великолепная личностьmnemonic - просто великолепная личностьmnemonic - просто великолепная личностьmnemonic - просто великолепная личность
По умолчанию Ручная проверка по YAP более 500 страниц. Что может быть увлекательнее? :)

Извиняйте, если баян.

Почему бы сразу не отметить новые страницы сайта, которые проиндексированы роботом Sape, но не проиндексированы роботом Yandex в интерфейсе ВМ как "отсутствующие в Ya"? Ведь модератор как-то узнает, что не все страницы из проиндексированных в sape есть в Yandex? Приходится в случае большого кол-ва страниц вручную тыкать в YAP и смотреть, затем ставить галку и удалять.
По всей видимости это еще один способ заставить ВМ хоть немного поработать.

В общем, кто сталкивался с этим, меня поймет. Возможно, написанное ниже окажется полезным.

Дано:
Cайт не прошел модерацию по причине "часть страниц не проиндексирована в Yandex", страниц более 500.

Найти:
Какие из этих страниц не проиндексированы. Отметить их галками и удалить...побыстрее. После чего отправить сайт на перемодерацию.

Решение:
1. Экспортировал URL страниц в текстовый файл (спасибо Sape, это можно делать)
2. Зарегистрировался на xml.yandex.ru, забил свой IP, чтобы можно было посылать запросы
3. Написал скрипт проверки на проиндексированность страниц, который берет на вход список урлов из файла, сгенерированного в пункте 1, а на выходе выдает список урлов, не проиндексированных yandex
4. копипастим полученные урлы непроиндексированных страниц в форму внизу списка страниц сайта и нажимаем "поставить галочки" (еще раз спасибо Sape, это можно сделать)
5. Вуа ля, удаляем непроиндексированные страницы

Скрипт проверки ссылок на проиндексированность качайте здесь.
__________________
Гипножабу - в президенты!
mnemonic вне форума   Ответить с цитированием
Старый 14.01.2008, 16:15   #2
Злой модератор
 
Аватар для Wink
 
Регистрация: 25.03.2007
Адрес: Deep forest
Сообщений: 5,343
Вес репутации: 503
Wink - прекрасное будущееWink - прекрасное будущееWink - прекрасное будущееWink - прекрасное будущееWink - прекрасное будущееWink - прекрасное будущееWink - прекрасное будущееWink - прекрасное будущееWink - прекрасное будущееWink - прекрасное будущееWink - прекрасное будущее
По умолчанию

Глючный он у вас. Через раз выдает "задан пустой запрос".

И зачем вообще там понадобились ID страниц? Лучше просто список ссылок вводить. Тот файлик, который выгружается из сапы, прекрасно открывается в excel и ссылки идут отдельным столбцом.
А делать запрос к Яндекс.XML через GET вообще нонсенс - у него длина ограничена и для длинных ссылок ее похоже не хватает.

Если хотите, киньте в личку адрес свой - пришлю вам пример корректной работы с Яндекс.XML в PHP5. Так, для развития просто.
Wink вне форума   Ответить с цитированием
Старый 14.01.2008, 17:07   #3
Новичок
 
Аватар для sofree
 
Регистрация: 11.10.2007
Сообщений: 64
Вес репутации: 203
sofree на пути к лучшему
По умолчанию

Вот решение:

http://forum.sape.ru/showthread.php?t=7537
http://ya-cache.net.ru - позволяет вытащить урлы сайта, находящиеся в кэше яндекса для определенного сайта.

Просто вводите домен и ждёте - на выходе список урлов, которые есть в кэше яши для этого домена.
Как написано на форуме, ведётся разработка ещё сервиса: на входе - список урлов, на выходе - список есть в кэше, нету.

А у xml сервис яндекса вроде бы есть ограничения на количество запросов...

Последний раз редактировалось sofree; 14.01.2008 в 17:11.
sofree вне форума   Ответить с цитированием
Старый 14.01.2008, 17:17   #4
Злой модератор
 
Аватар для Wink
 
Регистрация: 25.03.2007
Адрес: Deep forest
Сообщений: 5,343
Вес репутации: 503
Wink - прекрасное будущееWink - прекрасное будущееWink - прекрасное будущееWink - прекрасное будущееWink - прекрасное будущееWink - прекрасное будущееWink - прекрасное будущееWink - прекрасное будущееWink - прекрасное будущееWink - прекрасное будущееWink - прекрасное будущее
По умолчанию

1000 запросов в сутки ограничение. Одну площадку проверить хватит, зато быстро и легально.
Wink вне форума   Ответить с цитированием
Старый 16.01.2008, 14:46   #5
..
 
Регистрация: 08.09.2007
Адрес: ...
Сообщений: 3,483
Вес репутации: 285
rusteam - за этого человека можно гордитсяrusteam - за этого человека можно гордитсяrusteam - за этого человека можно гордитсяrusteam - за этого человека можно гордитсяrusteam - за этого человека можно гордитсяrusteam - за этого человека можно гордитсяrusteam - за этого человека можно гордитсяrusteam - за этого человека можно гордитсяrusteam - за этого человека можно гордитсяrusteam - за этого человека можно гордится
По умолчанию

Ручная проверка по YAP более 500 страниц. Что может быть увлекательнее?

Увлекательнее проверка 950 стр, недавно имел честь....
rusteam вне форума   Ответить с цитированием
Старый 16.01.2008, 15:06   #6
Специалист
 
Аватар для mnemonic
 
Регистрация: 29.10.2007
Адрес: Планета Земля
Сообщений: 231
Вес репутации: 214
mnemonic - просто великолепная личностьmnemonic - просто великолепная личностьmnemonic - просто великолепная личностьmnemonic - просто великолепная личностьmnemonic - просто великолепная личностьmnemonic - просто великолепная личностьmnemonic - просто великолепная личностьmnemonic - просто великолепная личность
По умолчанию

Цитата:
Сообщение от Wink Посмотреть сообщение
Глючный он у вас. Через раз выдает "задан пустой запрос".

И зачем вообще там понадобились ID страниц? Лучше просто список ссылок вводить. Тот файлик, который выгружается из сапы, прекрасно открывается в excel и ссылки идут отдельным столбцом.
А делать запрос к Яндекс.XML через GET вообще нонсенс - у него длина ограничена и для длинных ссылок ее похоже не хватает.

Если хотите, киньте в личку адрес свой - пришлю вам пример корректной работы с Яндекс.XML в PHP5. Так, для развития просто.
Мне кажется вы что-то не так делали, или не для того использовали, поэтому и глюки появились. Вы сервис xml.yandex.ru на свой IP подключили?

ID ссылок для скрипта не нужны, они просто для информации выдаются (из сапы ведь выгружается csv текстовый файл с расширением xls, этот файл парсится и из него используются урлы страниц, которые нужно проверять). В результате работы скрипта в текстовое поле формы выводятся урлы страниц, которых нет в индексе. Берем эти урлы и назад в сапу копируем, чтобы снять чекбоксы с этих страниц, после чего удалить из списка проиндексированных.

Вот собственно, для чего скрипт сделан. Пользовался им много раз. При правильном использовании оказывается весьма полезным. Но я никого не принуждаю
__________________
Гипножабу - в президенты!
mnemonic вне форума   Ответить с цитированием
Старый 16.01.2008, 15:11   #7
Специалист
 
Аватар для mnemonic
 
Регистрация: 29.10.2007
Адрес: Планета Земля
Сообщений: 231
Вес репутации: 214
mnemonic - просто великолепная личностьmnemonic - просто великолепная личностьmnemonic - просто великолепная личностьmnemonic - просто великолепная личностьmnemonic - просто великолепная личностьmnemonic - просто великолепная личностьmnemonic - просто великолепная личностьmnemonic - просто великолепная личность
По умолчанию

Цитата:
Сообщение от sofree Посмотреть сообщение
Вот решение:

http://forum.sape.ru/showthread.php?t=7537
http://ya-cache.net.ru - позволяет вытащить урлы сайта, находящиеся в кэше яндекса для определенного сайта.

А у xml сервис яндекса вроде бы есть ограничения на количество запросов...
Как вариант, но в данном случае действует "от противного". То есть полученные урлы - то что в индексе (эти страницы остаются в сапе), а как выделить все, что кроме них, чтобы затем удалить?
__________________
Гипножабу - в президенты!
mnemonic вне форума   Ответить с цитированием
Старый 16.01.2008, 18:05   #8
Новичок
 
Аватар для sofree
 
Регистрация: 11.10.2007
Сообщений: 64
Вес репутации: 203
sofree на пути к лучшему
По умолчанию

Цитата:
Сообщение от mnemonic Посмотреть сообщение
Как вариант, но в данном случае действует "от противного". То есть полученные урлы - то что в индексе (эти страницы остаются в сапе), а как выделить все, что кроме них, чтобы затем удалить?
Можно написать скриптец для этого: там 2 списка урлов, а на выходе список для исключения.

И вообще идёт разработка ещё сервиса (то что доктор прописал для сапы):
http://ya-cache.net.ru/forum/index.php?topic=3.0

Добавка:
Можно попросить саповцев сделать такую функцию, там где выводится список страниц: Выделить со статусом OK, NEW
Кликаешь NEW (после того как отметишь страницы из индекса яши в OK) и выбираешь Удалить

Последний раз редактировалось sofree; 16.01.2008 в 18:10.
sofree вне форума   Ответить с цитированием
Старый 16.01.2008, 20:26   #9
Злой модератор
 
Аватар для Wink
 
Регистрация: 25.03.2007
Адрес: Deep forest
Сообщений: 5,343
Вес репутации: 503
Wink - прекрасное будущееWink - прекрасное будущееWink - прекрасное будущееWink - прекрасное будущееWink - прекрасное будущееWink - прекрасное будущееWink - прекрасное будущееWink - прекрасное будущееWink - прекрасное будущееWink - прекрасное будущееWink - прекрасное будущее
По умолчанию

Цитата:
Мне кажется вы что-то не так делали, или не для того использовали, поэтому и глюки появились. Вы сервис xml.yandex.ru на свой IP подключили?
Я прекрасно разобрался как ваш скрипт работает и для чего, потому и написал. Если сейчас перечислять все его глюки сильно много времени потребуется. Вот, к примеру, в этой строке запрос без смысла, внимательнее присмотритесь:
Код:
$l_Request = urlencode('url="'.$l_URL.'"+|+url="'.$l_URL.'"');
Цитата:
И вообще идёт разработка ещё сервиса (то что доктор прописал для сапы)
Может уже хватит пиарить в этой теме? Есть же отдельная. К тому же программа эта пока для замены YAP не подходит - у меня, например, на продажу 200 страничек, а она пытается проверить в кэше около 10000, видимо все что в индексе. Кому оно надо?
Wink вне форума   Ответить с цитированием
Старый 16.01.2008, 20:40   #10
Злой модератор
 
Аватар для Wink
 
Регистрация: 25.03.2007
Адрес: Deep forest
Сообщений: 5,343
Вес репутации: 503
Wink - прекрасное будущееWink - прекрасное будущееWink - прекрасное будущееWink - прекрасное будущееWink - прекрасное будущееWink - прекрасное будущееWink - прекрасное будущееWink - прекрасное будущееWink - прекрасное будущееWink - прекрасное будущееWink - прекрасное будущее
По умолчанию

Вот вам еще глюк для комплекта.
Код:
$l_URL = preg_replace('|^(.+)/|', "$1", $l_URL);
Попробуйте выполнить эту замену для ссылки yandex.ru/setup/setup.html
Wink вне форума   Ответить с цитированием
Ответ


Ваши права в разделе
Вы не можете создавать новые темы
Вы не можете отвечать в темах
Вы не можете прикреплять вложения
Вы не можете редактировать свои сообщения

BB коды Вкл.
Смайлы Вкл.
[IMG] код Вкл.
HTML код Выкл.

Быстрый переход

Похожие темы
Тема Автор Раздел Ответов Последнее сообщение
как такое может быть? natalya Вопросы от новичков 4 17.06.2008 11:03
Ручная проверка сайтов. товарисч Яндекс 18 12.06.2008 23:52
Что может быть? FanToM 0T F_1M Ошибки при работе с системой 1 26.04.2008 12:53
Как такое может быть? Ducati Вопросы по работе системы 4 21.03.2008 08:28
Как такое может быть? alliance56 Яндекс 4 25.01.2008 12:50


Часовой пояс GMT +3, время: 00:56.