Вернуться   Форум SAPE.RU > Система SAPE.ru > Пожелания пользователей системы

-->
Ответ
 
Опции темы
Старый 18.08.2009, 15:28   #21
Добрый модератор
 
Аватар для zhegloff
 
Регистрация: 09.07.2007
Адрес: глобус Украины
Сообщений: 27,600
Вес репутации: 1025
zhegloff - прекрасное будущееzhegloff - прекрасное будущееzhegloff - прекрасное будущееzhegloff - прекрасное будущееzhegloff - прекрасное будущееzhegloff - прекрасное будущееzhegloff - прекрасное будущееzhegloff - прекрасное будущееzhegloff - прекрасное будущееzhegloff - прекрасное будущееzhegloff - прекрасное будущее
По умолчанию

Цитата:
Сообщение от 1373 Посмотреть сообщение
И ещё. Я попробовал к сайту подключить площадки от трёх других компаний.
вы о чем?
__________________
Установка кода сапы от $9.95. Пишите в личку.
Правильный хостинг.
В личке бесплатно не отвечаю обычно.
zhegloff вне форума   Ответить с цитированием
Старый 18.08.2009, 16:39   #22
Специалист
 
Регистрация: 19.07.2007
Сообщений: 239
Вес репутации: 209
Atec скоро станет известенAtec скоро станет известен
Talking

Цитата:
Сообщение от Delarante Посмотреть сообщение
Atec Вы бы хоть сначала разобрались, зачем используется crawl-delay, прежде чем писать.
У меня несколько сайтов на одном хосте, страниц в сапе в совокупности более 10 000 и ничего не виснет... вот скажем я впишу 150 секунд задержку получается 10 000 * 150 /3600 получается более 416 часов а это как никак 17 дней... и вы хотите сказать - это нормально?

P.S >У меня хостинг далеко не самый дорогой... и сайты нормально индексируются. А Вам я бы рекомендовал взвесить прибыль от системы и подумать в сторону более хорошего/просто другого/меньшего кол-ва сайтов (хотя блин сколько ж сайтов то напихать нужно)/ итп хостинга...
Atec вне форума   Ответить с цитированием
Старый 18.08.2009, 16:47   #23
не эксперт
 
Регистрация: 14.06.2008
Адрес: msk
Сообщений: 2,180
Вес репутации: 293
zeta - прекрасное будущееzeta - прекрасное будущееzeta - прекрасное будущееzeta - прекрасное будущееzeta - прекрасное будущееzeta - прекрасное будущееzeta - прекрасное будущееzeta - прекрасное будущееzeta - прекрасное будущееzeta - прекрасное будущееzeta - прекрасное будущее
По умолчанию

сразу после того как проблемы с хостерами начались, у меня уже год на всех саповских (и не только) стоит Crawl-delay: 120 для всех ботов: и ничего - я даже про это и забыла..
К чему такой шум по поводу Crawl-delay?
zeta вне форума   Ответить с цитированием
Старый 18.08.2009, 16:49   #24
Новичок
 
Аватар для 1373
 
Регистрация: 21.07.2009
Адрес: Новокузнецк
Сообщений: 24
Вес репутации: 0
1373 скоро станет известен
По умолчанию

Цитата:
Сообщение от zhegloff Посмотреть сообщение
вы о чем?
О том, что попробовал продавать места в других сервисах. Например Setlinks. Проблем не было никаких. Ссылки отображаются, бот их видит.
1373 вне форума   Ответить с цитированием
Старый 18.08.2009, 17:05   #25
Добрый модератор
 
Аватар для zhegloff
 
Регистрация: 09.07.2007
Адрес: глобус Украины
Сообщений: 27,600
Вес репутации: 1025
zhegloff - прекрасное будущееzhegloff - прекрасное будущееzhegloff - прекрасное будущееzhegloff - прекрасное будущееzhegloff - прекрасное будущееzhegloff - прекрасное будущееzhegloff - прекрасное будущееzhegloff - прекрасное будущееzhegloff - прекрасное будущееzhegloff - прекрасное будущееzhegloff - прекрасное будущее
По умолчанию

Цитата:
Сообщение от 1373 Посмотреть сообщение
О том, что попробовал продавать места в других сервисах. Например Setlinks. Проблем не было никаких. Ссылки отображаются, бот их видит.
А теперь сравните 9 миллионов страниц сетлинкса и 120 миллионов саповских и учтите, что проверять нужно ежедневно и, желательно, не целый день, а часа 3-4.
__________________
Установка кода сапы от $9.95. Пишите в личку.
Правильный хостинг.
В личке бесплатно не отвечаю обычно.
zhegloff вне форума   Ответить с цитированием
Старый 18.08.2009, 19:17   #26
Новичок
 
Аватар для 1373
 
Регистрация: 21.07.2009
Адрес: Новокузнецк
Сообщений: 24
Вес репутации: 0
1373 скоро станет известен
По умолчанию

Цитата:
Сообщение от zhegloff Посмотреть сообщение
А теперь сравните 9 миллионов страниц сетлинкса и 120 миллионов саповских и учтите, что проверять нужно ежедневно и, желательно, не целый день, а часа 3-4.
Ну это понятно. Объём работы у бота большой и поэтому такое интенсивное сканирование. Но ведь проблема-то реальная. У большого количества ВМ сплошные ерроры. И все знают причину. Неужели нельзя ничего сделать? Ведь это получается вина системы. Все ВМ привязаны к условиям хостеров. Сменить хостера это не перчатку сменить. У меня хостер Славхост. Вроде не очень плохой хостер.
1373 вне форума   Ответить с цитированием
Старый 12.12.2009, 13:24   #27
Специалист
 
Аватар для JulyCrazy
 
Регистрация: 14.10.2008
Адрес: Russia
Сообщений: 135
Вес репутации: 191
JulyCrazy на пути к лучшему
По умолчанию

Цитата:
Сообщение от slva200 Посмотреть сообщение
Рассуждения:

если у сапа ботов 10 млн. страниц ежедневно, то, я слабо представляю, что будет если бот будет принимать во внимание значения пауз. Это раз. А второе - это не хилая доп. нагрузка на серера ботов (см. алгоритм ниже). Для каждого сайта в системе при сканировании нужно:

Покажите мне сайт, на котором 10 млн. страниц для проверки.
Речь идет о задержке при мониторинге _одного_ сайта, а не страниц в сапе вообще. что мешает распаралелить процесс мониторинга ? В часе 3600 секунд. С паузой в 2-3 секунды можно без проблем просканить любой из присутствующих в сапе сайтов в течении нескольких часов максимум.

Тенически это ВОЗМОЖНО. Почему это не делается - отдельный вопрос...
JulyCrazy вне форума   Ответить с цитированием
Старый 12.12.2009, 14:21   #28
Специалист
 
Регистрация: 10.11.2009
Сообщений: 231
Вес репутации: 182
Yappie - как роза среди колючекYappie - как роза среди колючекYappie - как роза среди колючек
По умолчанию

slva200, на самом деле - алгоритмически это все можно сделать - алгоритм типовой - называется асинхронный IO (самое популярное по этой теме - это так называемая "C10k problem", только она описывает сервер, которому нужно держать соединение с 10000 клиентов, а для ботов проблема обратная - 10000 клиентов, качающих, но суть решения та же) - теоретически тысячи сайтов одновременно с любыми задержками, даже в один процесс проверять можно. У меня с сервера так до 1000 соединений в секунду идет (при этом к отдельному сайту не чаще чем раз в 1-2 секунды). Другой вопрос, что похоже что сапоботы (судя по ошибкам) работают на PHP, тогда это зад... нагрузка будет нефиговая и асинхронности никакой... тогда им не до crawl-delay...

А вообще мне на crawl-delay пофиг - несколько десятков сайтов на одном хостинге, десятки роботов, включая сапобота, нагрузка CPU 1-5% - просто надо все настраивать правильно и не пользоваться дешевыми (и "безлимитными") хостингами и все будет работать.

Добавлено через 5 минут
Цитата:
Сообщение от JulyCrazy Посмотреть сообщение
Покажите мне сайт, на котором 10 млн. страниц для проверки.
Я думаю речь больше идет о том, что сапоботам надо проверять 177 млн страниц (цифра на главной у сапе) ежедневно несколько раз.

Последний раз редактировалось Yappie; 12.12.2009 в 14:21. Причина: Добавлено сообщение
Yappie вне форума   Ответить с цитированием
Старый 12.12.2009, 19:26   #29
Специалист
 
Регистрация: 27.02.2009
Сообщений: 400
Вес репутации: 201
Grand1234 - просто великолепная личностьGrand1234 - просто великолепная личностьGrand1234 - просто великолепная личностьGrand1234 - просто великолепная личностьGrand1234 - просто великолепная личностьGrand1234 - просто великолепная личностьGrand1234 - просто великолепная личность
По умолчанию

Цитата:
Сообщение от slva200 Посмотреть сообщение
для чего 2-х минутная пауза ?! Это жесть. Между индексацией каждой страницы сайта проходит 2 минуты...

Рассуждения:

если у сапа ботов 10 млн. страниц ежедневно, то, я слабо представляю, что будет если бот будет принимать во внимание значения пауз.
Рассуждения неправильные. Боты ПС во время delay не спят, а проверяют другие сайты. И ничто не мешает аналогично действовать и сапоботу.

Как это сделать технически? Желательно переписать бот, если он на самом деле на РНР. Затем желательно загнать все проверяемые страницы во временную БД и случайным образом их оттуда извлекать. Например средствами той же БД. Все это сделать весьма несложно, нужна только "политическая воля", как сейчас принято говорить и несколько часов работы профессионального программиста.
__________________
А У МЕНЯ НЕ БЫВАЕТ ERROR'ОВ - надежный и недорогой unmanaged vds-хостинг: VDSPLANET.RU
Grand1234 вне форума   Ответить с цитированием
Старый 12.12.2009, 20:26   #30
Специалист
 
Регистрация: 10.11.2009
Сообщений: 231
Вес репутации: 182
Yappie - как роза среди колючекYappie - как роза среди колючекYappie - как роза среди колючек
По умолчанию

Цитата:
Сообщение от Grand1234 Посмотреть сообщение
Все это сделать весьма несложно, нужна только "политическая воля", как сейчас принято говорить и несколько часов работы профессионального программиста.
Несколько часов работы программиста? В БД? Вы хоть примерно представляете сколько времени нужно чтобы загнать 177 млн. записей в БД? Я представляю (хотя на 177 млн не представляю, только на 72 млн записей базу делал).

И это задача не на несколько часов работы профессионального программиста. Это задача на недели, месяцы... Проблемы тут будут лезть из всех щелей - самые маловероятные события (которые в обычных базах до миллиона записей даже предусматривать не надо) - становятся почти неизбежными. Маленькая ошибка, обнаруженная на 16ом часу заполнения базы и начинай сначала. Потом обнаруживаешь ошибку на 43ьем часу и опять сначала...

На первичную отладку и заполнение той базы в 72 млн (что в два раза меньше, чем у Сапы) у меня ушло 43 дня(!), хотя и опыт в 20 с лишним лет программинга за спиной.

Так что не разбрасывайтесь словами о том, о чем представления не имеете.

Собсно поэтому я и понимаю почему Сапа так неохотно доделывает новые фичи. На том уровне где она находится - идеи с разбегу не делаются - нужно много подготовки и тщательное продумывание изменений. И уж явно не "пара часов профессионала".
Yappie вне форума   Ответить с цитированием
Ответ


Ваши права в разделе
Вы не можете создавать новые темы
Вы не можете отвечать в темах
Вы не можете прикреплять вложения
Вы не можете редактировать свои сообщения

BB коды Вкл.
Смайлы Вкл.
[IMG] код Вкл.
HTML код Выкл.

Быстрый переход

Похожие темы
Тема Автор Раздел Ответов Последнее сообщение
Робот Сапы и Crawl-delay Sea Вопросы по работе системы 10 13.02.2012 12:17


Часовой пояс GMT +3, время: 22:31.