Старый 24.01.2011, 10:07   #1
Специалист
 
Регистрация: 15.07.2008
Сообщений: 375
Вес репутации: 201
Deicider - как роза среди колючекDeicider - как роза среди колючекDeicider - как роза среди колючек
По умолчанию Как побороть капчу яндекса?

Коллеги, добрый день!

В процессе написания собственного скрипта проверки позиций в яндексе, я столкнулся с проблемой "бесконечной" капчи. Вкратце суть в следующем:
Скрипт дергает страницу по адресу вида "http://yandex.ru/yandsearch?text=ПОИСКОВЫЙ_ЗАПРОС&lr=213". Если всё ок, то парсит её. Если появляется страница с капчей, то капча посылается на разгадывание в antigate. НО! После ввода капчи, вновь появляется страница с капчей, причем не потому что был неправильный ввод. Капча вводится правильная. А теперь самое интересное. Если по ходу работы скрипта, взять урл страницы с капчей, открыть её в браузере, и ввести капчу руками, то появляется требуемая страница выдачи. Соответственно, проблема в том, что яша как-то все-таки палит, что запрос идет не от человека, а от робота. Но как он это делает, я так и не понял.
Deicider вне форума   Ответить с цитированием
Старый 24.01.2011, 10:13   #2
Banned
 
Регистрация: 27.10.2008
Адрес: Ocean City, MD, 21842, USA
Сообщений: 87
Вес репутации: 0
klyop-sanya на пути к лучшему
По умолчанию

Цитата:
Сообщение от Deicider Посмотреть сообщение
Если по ходу работы скрипта, взять урл страницы с капчей, открыть её в браузере, и ввести капчу руками, то появляется требуемая страница выдачи. Соответственно, проблема в том, что яша как-то все-таки палит, что запрос идет не от человека, а от робота. Но как он это делает, я так и не понял.
можеш дать пару примеров где нужно вводить капчу - хочу посмотреть куда потом идет перенаправление после ручного ввода.
klyop-sanya вне форума   Ответить с цитированием
Старый 24.01.2011, 10:17   #3
Специалист
 
Регистрация: 28.09.2010
Сообщений: 258
Вес репутации: 0
volkovysk не любят в этих краяхvolkovysk не любят в этих краяхvolkovysk не любят в этих краяхvolkovysk не любят в этих краях
По умолчанию

Цитата:
Сообщение от Deicider Посмотреть сообщение
Но как он это делает, я так и не понял.
Возможно определяет яндекс referer , тоесть referer показывает, что запрос подаётся не с его домена, а чужого.
volkovysk вне форума   Ответить с цитированием
Старый 24.01.2011, 10:19   #4
Banned
 
Регистрация: 27.10.2008
Адрес: Ocean City, MD, 21842, USA
Сообщений: 87
Вес репутации: 0
klyop-sanya на пути к лучшему
Exclamation

попробуй вот так
http://yandex.ru/yandsearch?text=ПОИСКОВЫЙ_ЗАПРОС&lr=0

в конце 0 - тоесть не учитывается регион
213 - это предпочтение сайтам из Москвы и области

или вот так еще поробуй
http://yandex.ru/yandsearch?date=&te...numdoc=10&lr=0
klyop-sanya вне форума   Ответить с цитированием
Старый 24.01.2011, 10:43   #5
Специалист
 
Регистрация: 15.07.2008
Сообщений: 375
Вес репутации: 201
Deicider - как роза среди колючекDeicider - как роза среди колючекDeicider - как роза среди колючек
По умолчанию

Цитата:
Сообщение от klyop-sanya Посмотреть сообщение
можеш дать пару примеров где нужно вводить капчу - хочу посмотреть куда потом идет перенаправление после ручного ввода.
После ручного ввода идет перенаправление (302) на адрес вида Параметр key каждый раз уникальный, поэтому если Вы сейчас введете этот урл в браузер, то не получите того поведения, которое должно быть.

Далее, если капча правильная, то идет 302-перенаправление на урл, записанный в retpath, который и является тем самым урлом, который запрашивал скрипт, в надежде получить страницу выдачи. В браузере мы получаем выдачу, а робот опять получает перенаправление на страницу капчи, и так до бесконечности.

klyop-sanya, во-первых мне нужна именно москва, а во-вторых, всякие вариации запросов я уже пробовал, не помогает.

volkovysk, откуда по-вашему вообще мог взяться реферер чужого домена? А вообще, если вводить капчу через браузер и НЕ передавать при этом реферер, то всё работает. Проблема не в этом.
Deicider вне форума   Ответить с цитированием
Старый 24.01.2011, 10:50   #6
Добрый модератор
 
Аватар для zhegloff
 
Регистрация: 09.07.2007
Адрес: глобус Украины
Сообщений: 27,600
Вес репутации: 1024
zhegloff - прекрасное будущееzhegloff - прекрасное будущееzhegloff - прекрасное будущееzhegloff - прекрасное будущееzhegloff - прекрасное будущееzhegloff - прекрасное будущееzhegloff - прекрасное будущееzhegloff - прекрасное будущееzhegloff - прекрасное будущееzhegloff - прекрасное будущееzhegloff - прекрасное будущее
По умолчанию

Цитата:
Сообщение от Deicider Посмотреть сообщение
откуда по-вашему вообще мог взяться реферер чужого домена? А вообще, если вводить капчу через браузер и НЕ передавать при этом реферер, то всё работает. Проблема не в этом.
А скрипт куки принимает- передает? Попробуйте в браузере куки отключить.
__________________
Установка кода сапы от $9.95. Пишите в личку.
Правильный хостинг.
В личке бесплатно не отвечаю обычно.
zhegloff вне форума   Ответить с цитированием
Старый 24.01.2011, 10:51   #7
Специалист
 
Регистрация: 15.07.2008
Сообщений: 375
Вес репутации: 201
Deicider - как роза среди колючекDeicider - как роза среди колючекDeicider - как роза среди колючек
Post

Цитата:
Сообщение от zhegloff Посмотреть сообщение
А скрипт куки принимает- передает? Попробуйте в браузере куки отключить.
Всё принимает и передает. Делаю через CURL, имитирую живого человека, как могу
Но проблема 100% не в этом, потому что, если после ввода скриптом капчи прервать скрипт, взять урл из location-а, который получется при редиректе и ввести его в браузере ВООБЩЕ БЕЗ КУК, то браузер получает выдачу, какую надо, хотя тут уже явное палево, что как-минимум кук нет (или они не те), и юзер-агент другой.
Deicider вне форума   Ответить с цитированием
Старый 24.01.2011, 11:00   #8
Специалист
 
Регистрация: 28.09.2010
Сообщений: 258
Вес репутации: 0
volkovysk не любят в этих краяхvolkovysk не любят в этих краяхvolkovysk не любят в этих краяхvolkovysk не любят в этих краях
По умолчанию

Цитата:
Сообщение от Deicider Посмотреть сообщение
volkovysk, откуда по-вашему вообще мог взяться реферер чужого домена?
Так вы ж не сказали что за скрипт и где он стоит.

Цитата:
Сообщение от Deicider Посмотреть сообщение
А вообще, если вводить капчу через браузер и НЕ передавать при этом реферер, то всё работает.
Чем проверяли, Оперой? Пустой реферер браузера это совсем другое, чем например отсутствующий реферер скрипта. А antigate не пояснили как у вас припаян.

Цитата:
Сообщение от Deicider Посмотреть сообщение
Проблема не в этом.
Проблема в совокупности поведенчески неправильно посылаемых запросов. Яндекс вас определяет как робота, а он не школьнегами стряпан и сопоставляет все параметры, в том числе и referer, с поведением запросов
volkovysk вне форума   Ответить с цитированием
Старый 24.01.2011, 11:02   #9
Добрый модератор
 
Аватар для zhegloff
 
Регистрация: 09.07.2007
Адрес: глобус Украины
Сообщений: 27,600
Вес репутации: 1024
zhegloff - прекрасное будущееzhegloff - прекрасное будущееzhegloff - прекрасное будущееzhegloff - прекрасное будущееzhegloff - прекрасное будущееzhegloff - прекрасное будущееzhegloff - прекрасное будущееzhegloff - прекрасное будущееzhegloff - прекрасное будущееzhegloff - прекрасное будущееzhegloff - прекрасное будущее
По умолчанию

Цитата:
Сообщение от Deicider Посмотреть сообщение
Но проблема 100% не в этом, потому что, если после ввода скриптом капчи прервать скрипт, взять урл из location-а, который получется при редиректе и ввести его в браузере ВООБЩЕ БЕЗ КУК, то браузер получает выдачу, какую надо, хотя тут уже явное палево, что как-минимум кук нет (или они не те), и юзер-агент другой.
Ну так попробуйте после ввода капчи не идти по редиректу, а подсунуть исходный урл.
__________________
Установка кода сапы от $9.95. Пишите в личку.
Правильный хостинг.
В личке бесплатно не отвечаю обычно.
zhegloff вне форума   Ответить с цитированием
Старый 24.01.2011, 11:22   #10
Специалист
 
Регистрация: 28.09.2010
Сообщений: 258
Вес репутации: 0
volkovysk не любят в этих краяхvolkovysk не любят в этих краяхvolkovysk не любят в этих краяхvolkovysk не любят в этих краях
По умолчанию

Deicider, А метод отправки расшифрованой капчи яндексу не забыли проверить гет или пост?

Добавлено через 11 минут
А временной промежуток между выдачей яндексом капчи и её водом учитывали в скрипте? Яндекс понимает, что человек за 2 милисекунды капчу не введёт.

Короче не для вашего уровня клепать роботов для высокотехнологичного яндекса.

Последний раз редактировалось volkovysk; 24.01.2011 в 11:22. Причина: Добавлено сообщение
volkovysk вне форума   Ответить с цитированием
Ответ

Опции темы

Ваши права в разделе
Вы не можете создавать новые темы
Вы не можете отвечать в темах
Вы не можете прикреплять вложения
Вы не можете редактировать свои сообщения

BB коды Вкл.
Смайлы Вкл.
[IMG] код Вкл.
HTML код Выкл.

Быстрый переход

Похожие темы
Тема Автор Раздел Ответов Последнее сообщение
как побороть в себе лень? ma0 Курилка 24 20.10.2010 23:12
Как обойти капчу? Aston Софт для оптимизаторов и вебмастеров 3 17.08.2010 21:18
Как побороть лень? Никола Курилка 61 27.05.2010 18:20
Поменяйте капчу на форуме! Leminov Курилка 20 05.06.2009 11:28
Не могу побороть ERRORы b166ar Вопросы от новичков 3 08.12.2007 12:25


Часовой пояс GMT +3, время: 14:03.