Вернуться   Форум SAPE.RU > Система SAPE.ru > Вопросы по работе системы

-->
Ответ
 
Опции темы
Старый 19.12.2007, 15:03   #1
Новичок
 
Регистрация: 16.09.2007
Сообщений: 31
Вес репутации: 203
sdvv на пути к лучшему
Question Как SAPE определяет PR?

Вопрос НЕ СВЯЗАН с проблемами в работе системы, он про работу системы.
Причина интереса не связана с системой, но думаю тема будет интересна многим.

Итак, программисты SAPE решили интересную задачу, которая лично мне не далась.
SAPE определяет PR для каждой страницы, это по моим оценкам около 0,5 запроса\сек.
Собственно, как они это делают?
Можно запрашивать у google.com, можно ходить на датацентры и косить под GoogleToolbar, проблема в том, что гугл банит. Я сделал несколько тысяч запросов за 5 минут и все, бан полный.

КАК???!!!

В использование прокси я не верю
sdvv вне форума   Ответить с цитированием
Старый 19.12.2007, 21:36   #2
Мастер
 
Регистрация: 18.08.2007
Сообщений: 833
Вес репутации: 230
tsb - за этого человека можно гордитсяtsb - за этого человека можно гордитсяtsb - за этого человека можно гордитсяtsb - за этого человека можно гордитсяtsb - за этого человека можно гордитсяtsb - за этого человека можно гордитсяtsb - за этого человека можно гордитсяtsb - за этого человека можно гордится
По умолчанию

Цитата:
SAPE определяет PR для каждой страницы, это по моим оценкам около 0,5 запроса\сек.
при добавлении сайта в систему?
как Вы рассчитали скорость?

Варианты: использовать разные сервисы, использовать API google... наверняка есть еще варианты.
tsb вне форума   Ответить с цитированием
Старый 20.12.2007, 08:43   #3
Специалист
 
Регистрация: 10.04.2007
Сообщений: 488
Вес репутации: 220
Andrej - очень-очень хороший человекAndrej - очень-очень хороший человекAndrej - очень-очень хороший человекAndrej - очень-очень хороший человек
Отправить сообщение для Andrej с помощью ICQ
По умолчанию

Цитата:
Сообщение от sdvv Посмотреть сообщение
Вопрос НЕ СВЯЗАН с проблемами в работе системы, он про работу системы.
Причина интереса не связана с системой, но думаю тема будет интересна многим.

Итак, программисты SAPE решили интересную задачу, которая лично мне не далась.
SAPE определяет PR для каждой страницы, это по моим оценкам около 0,5 запроса\сек.
Собственно, как они это делают?
Можно запрашивать у google.com, можно ходить на датацентры и косить под GoogleToolbar, проблема в том, что гугл банит. Я сделал несколько тысяч запросов за 5 минут и все, бан полный.

КАК???!!!

В использование прокси я не верю
Вопрос на засыпку: запросы делали в один поток или несколько потоков паралельно?
точное количество запросов до бана извесно?

В чем выражается бан? только в невозможности проверять ПР или еще в чем то?

Гугл позже все же разбанил IP или нет?

раньше проверял на ПР иногда по 30 000 доменов... в один поток правда, и никаких банов но после изменений еще не пробовал
Andrej вне форума   Ответить с цитированием
Старый 20.12.2007, 12:06   #4
Новичок
 
Регистрация: 16.09.2007
Сообщений: 31
Вес репутации: 203
sdvv на пути к лучшему
По умолчанию

Только в невозможности проверять PR.

Система бана у них единая для сервиса google (запрос на определение PR, куда ходит тулбар) и всех датацентров, по IP. Если замучить какой нибудь один датацентр, то отваливаются все остальные и тулбар тоже. Разбанил через 7 часов approx.

Мучили в 200 потоков под максимальной нагрузкой канала, канал около 2мбит. Через 5 минут нас убили. Количество запросов до бана 2500-3000 approx. Это я специально тестил параметры бана гугла.

А какие у Вас были скоростя? 30 000 за какое время?

Нагрузки сапе посчитать легко, зная возраст системы, количество площадок и страниц и сделав "поправку на ветер"

В свое время я пытался использовать API Google для определения gmaps ключа для сайта. Эти ребята встроили слишком много защиты от автоматики и мне пришлось искать другой путь.
Пришлось разгрызать механизм аутентификации гугла и эмулировать работу браузера, потом выгрызать ключ из страницы. В принципе задача оказалась не слишком сложная. Как это решение будет работать в большом проекте, длякоторого предназначалось - я не знаю.

Уважаемый Avelon мне ответил. Я не могу публиковать ответ, прошу меня понять, я могу писать только свои решения и наработки. Если он посчитает нужным, то сам даст комментарии.
К сожалению способ решения SAPE для меня пока неприемлем. Боюсь, ребята писавшие сапу не глупее нас и, скорее всего перепробывали другие варианты.

Но давайте попробуем что-то придумать
sdvv вне форума   Ответить с цитированием
Старый 20.12.2007, 16:54   #5
Специалист
 
Регистрация: 10.04.2007
Сообщений: 488
Вес репутации: 220
Andrej - очень-очень хороший человекAndrej - очень-очень хороший человекAndrej - очень-очень хороший человекAndrej - очень-очень хороший человек
Отправить сообщение для Andrej с помощью ICQ
По умолчанию

Цитата:
Сообщение от sdvv Посмотреть сообщение
Только в невозможности проверять PR.

Система бана у них единая для сервиса google (запрос на определение PR, куда ходит тулбар) и всех датацентров, по IP. Если замучить какой нибудь один датацентр, то отваливаются все остальные и тулбар тоже. Разбанил через 7 часов approx.

Мучили в 200 потоков под максимальной нагрузкой канала, канал около 2мбит. Через 5 минут нас убили. Количество запросов до бана 2500-3000 approx. Это я специально тестил параметры бана гугла.

А какие у Вас были скоростя? 30 000 за какое время?

Нагрузки сапе посчитать легко, зная возраст системы, количество площадок и страниц и сделав "поправку на ветер"

В свое время я пытался использовать API Google для определения gmaps ключа для сайта. Эти ребята встроили слишком много защиты от автоматики и мне пришлось искать другой путь.
Пришлось разгрызать механизм аутентификации гугла и эмулировать работу браузера, потом выгрызать ключ из страницы. В принципе задача оказалась не слишком сложная. Как это решение будет работать в большом проекте, длякоторого предназначалось - я не знаю.

Уважаемый Avelon мне ответил. Я не могу публиковать ответ, прошу меня понять, я могу писать только свои решения и наработки. Если он посчитает нужным, то сам даст комментарии.
К сожалению способ решения SAPE для меня пока неприемлем. Боюсь, ребята писавшие сапу не глупее нас и, скорее всего перепробывали другие варианты.

Но давайте попробуем что-то придумать

меня сроки особо не потжимали, чтобы избежать банов я гонял в один поток, по времени, большие базы крутились несколько суток, точно не помню.
Я примерно представляю, что сделали програмисты SAPE, но также, даже предположения в открытый доступ нет смысла публиковать... надеюсь после празников появится время все опробовать
Andrej вне форума   Ответить с цитированием
Старый 20.12.2007, 16:57   #6
Специалист
 
Регистрация: 10.04.2007
Сообщений: 488
Вес репутации: 220
Andrej - очень-очень хороший человекAndrej - очень-очень хороший человекAndrej - очень-очень хороший человекAndrej - очень-очень хороший человек
Отправить сообщение для Andrej с помощью ICQ
По умолчанию

стати, в чем выражается бан?
Проверяемые домены показывает нулевыми/N/A

можно ли как то определить, уже забанили IP или просто домены нулевые?
Andrej вне форума   Ответить с цитированием
Старый 20.12.2007, 18:38   #7
Новичок
 
Регистрация: 16.09.2007
Сообщений: 31
Вес репутации: 203
sdvv на пути к лучшему
По умолчанию

403 forbiden
с сообщением, о том, что возможно у вас автоматика или робот.
sdvv вне форума   Ответить с цитированием
Старый 20.12.2007, 22:34   #8
Специалист
 
Регистрация: 10.04.2007
Сообщений: 488
Вес репутации: 220
Andrej - очень-очень хороший человекAndrej - очень-очень хороший человекAndrej - очень-очень хороший человекAndrej - очень-очень хороший человек
Отправить сообщение для Andrej с помощью ICQ
По умолчанию

Цитата:
Сообщение от sdvv Посмотреть сообщение
403 forbiden
с сообщением, о том, что возможно у вас автоматика или робот.
ну тогда проще хоть хоть как то можно...

вот если бы пустой ответ или нулевой ПР, тогда плохо бы было
Andrej вне форума   Ответить с цитированием
Ответ


Ваши права в разделе
Вы не можете создавать новые темы
Вы не можете отвечать в темах
Вы не можете прикреплять вложения
Вы не можете редактировать свои сообщения

BB коды Вкл.
Смайлы Вкл.
[IMG] код Вкл.
HTML код Выкл.

Быстрый переход

Похожие темы
Тема Автор Раздел Ответов Последнее сообщение
Сервис определяет продажные ссылки - это конец sape? Maks2007 Вопросы по работе системы 62 06.12.2007 10:49
Не верно определяет кол-во ВС kost Ошибки при работе с системой 9 29.11.2007 11:16
А как Яша определяет тематичность? bubastic Яндекс 1 04.10.2007 15:18
Как Яндекс определяет тематичность ссылки? antsv Яндекс 9 18.07.2007 04:42
система не правильно определяет уровни вложения snowboard Ошибки при работе с системой 5 04.06.2007 20:21


Часовой пояс GMT +3, время: 09:17.