19.12.2007, 15:03 | #1 |
Новичок
Регистрация: 16.09.2007
Сообщений: 31
Вес репутации: 208
|
Как SAPE определяет PR?
Вопрос НЕ СВЯЗАН с проблемами в работе системы, он про работу системы.
Причина интереса не связана с системой, но думаю тема будет интересна многим. Итак, программисты SAPE решили интересную задачу, которая лично мне не далась. SAPE определяет PR для каждой страницы, это по моим оценкам около 0,5 запроса\сек. Собственно, как они это делают? Можно запрашивать у google.com, можно ходить на датацентры и косить под GoogleToolbar, проблема в том, что гугл банит. Я сделал несколько тысяч запросов за 5 минут и все, бан полный. КАК???!!! В использование прокси я не верю |
19.12.2007, 21:36 | #2 | |
Мастер
Регистрация: 18.08.2007
Сообщений: 833
Вес репутации: 235
|
Цитата:
как Вы рассчитали скорость? Варианты: использовать разные сервисы, использовать API google... наверняка есть еще варианты. |
|
20.12.2007, 08:43 | #3 | |
Специалист
|
Цитата:
точное количество запросов до бана извесно? В чем выражается бан? только в невозможности проверять ПР или еще в чем то? Гугл позже все же разбанил IP или нет? раньше проверял на ПР иногда по 30 000 доменов... в один поток правда, и никаких банов но после изменений еще не пробовал |
|
20.12.2007, 12:06 | #4 |
Новичок
Регистрация: 16.09.2007
Сообщений: 31
Вес репутации: 208
|
Только в невозможности проверять PR.
Система бана у них единая для сервиса google (запрос на определение PR, куда ходит тулбар) и всех датацентров, по IP. Если замучить какой нибудь один датацентр, то отваливаются все остальные и тулбар тоже. Разбанил через 7 часов approx. Мучили в 200 потоков под максимальной нагрузкой канала, канал около 2мбит. Через 5 минут нас убили. Количество запросов до бана 2500-3000 approx. Это я специально тестил параметры бана гугла. А какие у Вас были скоростя? 30 000 за какое время? Нагрузки сапе посчитать легко, зная возраст системы, количество площадок и страниц и сделав "поправку на ветер" В свое время я пытался использовать API Google для определения gmaps ключа для сайта. Эти ребята встроили слишком много защиты от автоматики и мне пришлось искать другой путь. Пришлось разгрызать механизм аутентификации гугла и эмулировать работу браузера, потом выгрызать ключ из страницы. В принципе задача оказалась не слишком сложная. Как это решение будет работать в большом проекте, длякоторого предназначалось - я не знаю. Уважаемый Avelon мне ответил. Я не могу публиковать ответ, прошу меня понять, я могу писать только свои решения и наработки. Если он посчитает нужным, то сам даст комментарии. К сожалению способ решения SAPE для меня пока неприемлем. Боюсь, ребята писавшие сапу не глупее нас и, скорее всего перепробывали другие варианты. Но давайте попробуем что-то придумать |
20.12.2007, 16:54 | #5 | |
Специалист
|
Цитата:
меня сроки особо не потжимали, чтобы избежать банов я гонял в один поток, по времени, большие базы крутились несколько суток, точно не помню. Я примерно представляю, что сделали програмисты SAPE, но также, даже предположения в открытый доступ нет смысла публиковать... надеюсь после празников появится время все опробовать |
|
|
|
Похожие темы | ||||
Тема | Автор | Раздел | Ответов | Последнее сообщение |
Сервис определяет продажные ссылки - это конец sape? | Maks2007 | Вопросы по работе системы | 62 | 06.12.2007 10:49 |
Не верно определяет кол-во ВС | kost | Ошибки при работе с системой | 9 | 29.11.2007 11:16 |
А как Яша определяет тематичность? | bubastic | Яндекс | 1 | 04.10.2007 15:18 |
Как Яндекс определяет тематичность ссылки? | antsv | Яндекс | 9 | 18.07.2007 04:42 |
система не правильно определяет уровни вложения | snowboard | Ошибки при работе с системой | 5 | 04.06.2007 20:21 |
Часовой пояс GMT +3, время: 02:07.