18.08.2009, 15:28 | #21 |
Добрый модератор
Регистрация: 09.07.2007
Адрес: глобус Украины
Сообщений: 27,600
Вес репутации: 1025
|
вы о чем?
__________________
Правильный хостинг. В личке бесплатно не отвечаю обычно. |
18.08.2009, 16:39 | #22 | |
Специалист
Регистрация: 19.07.2007
Сообщений: 239
Вес репутации: 209
|
Цитата:
P.S >У меня хостинг далеко не самый дорогой... и сайты нормально индексируются. А Вам я бы рекомендовал взвесить прибыль от системы и подумать в сторону более хорошего/просто другого/меньшего кол-ва сайтов (хотя блин сколько ж сайтов то напихать нужно)/ итп хостинга... |
|
18.08.2009, 16:47 | #23 |
не эксперт
Регистрация: 14.06.2008
Адрес: msk
Сообщений: 2,180
Вес репутации: 293
|
сразу после того как проблемы с хостерами начались, у меня уже год на всех саповских (и не только) стоит Crawl-delay: 120 для всех ботов: и ничего - я даже про это и забыла..
К чему такой шум по поводу Crawl-delay? |
18.08.2009, 17:05 | #25 |
Добрый модератор
Регистрация: 09.07.2007
Адрес: глобус Украины
Сообщений: 27,600
Вес репутации: 1025
|
А теперь сравните 9 миллионов страниц сетлинкса и 120 миллионов саповских и учтите, что проверять нужно ежедневно и, желательно, не целый день, а часа 3-4.
__________________
Правильный хостинг. В личке бесплатно не отвечаю обычно. |
18.08.2009, 19:17 | #26 |
Новичок
Регистрация: 21.07.2009
Адрес: Новокузнецк
Сообщений: 24
Вес репутации: 0
|
Ну это понятно. Объём работы у бота большой и поэтому такое интенсивное сканирование. Но ведь проблема-то реальная. У большого количества ВМ сплошные ерроры. И все знают причину. Неужели нельзя ничего сделать? Ведь это получается вина системы. Все ВМ привязаны к условиям хостеров. Сменить хостера это не перчатку сменить. У меня хостер Славхост. Вроде не очень плохой хостер.
|
12.12.2009, 13:24 | #27 | |
Специалист
Регистрация: 14.10.2008
Адрес: Russia
Сообщений: 135
Вес репутации: 191
|
Цитата:
Покажите мне сайт, на котором 10 млн. страниц для проверки. Речь идет о задержке при мониторинге _одного_ сайта, а не страниц в сапе вообще. что мешает распаралелить процесс мониторинга ? В часе 3600 секунд. С паузой в 2-3 секунды можно без проблем просканить любой из присутствующих в сапе сайтов в течении нескольких часов максимум. Тенически это ВОЗМОЖНО. Почему это не делается - отдельный вопрос... |
|
12.12.2009, 14:21 | #28 |
Специалист
Регистрация: 10.11.2009
Сообщений: 231
Вес репутации: 182
|
slva200, на самом деле - алгоритмически это все можно сделать - алгоритм типовой - называется асинхронный IO (самое популярное по этой теме - это так называемая "C10k problem", только она описывает сервер, которому нужно держать соединение с 10000 клиентов, а для ботов проблема обратная - 10000 клиентов, качающих, но суть решения та же) - теоретически тысячи сайтов одновременно с любыми задержками, даже в один процесс проверять можно. У меня с сервера так до 1000 соединений в секунду идет (при этом к отдельному сайту не чаще чем раз в 1-2 секунды). Другой вопрос, что похоже что сапоботы (судя по ошибкам) работают на PHP, тогда это зад... нагрузка будет нефиговая и асинхронности никакой... тогда им не до crawl-delay...
А вообще мне на crawl-delay пофиг - несколько десятков сайтов на одном хостинге, десятки роботов, включая сапобота, нагрузка CPU 1-5% - просто надо все настраивать правильно и не пользоваться дешевыми (и "безлимитными") хостингами и все будет работать. Добавлено через 5 минут Я думаю речь больше идет о том, что сапоботам надо проверять 177 млн страниц (цифра на главной у сапе) ежедневно несколько раз. Последний раз редактировалось Yappie; 12.12.2009 в 14:21. Причина: Добавлено сообщение |
12.12.2009, 19:26 | #29 | |
Специалист
Регистрация: 27.02.2009
Сообщений: 400
Вес репутации: 201
|
Цитата:
Как это сделать технически? Желательно переписать бот, если он на самом деле на РНР. Затем желательно загнать все проверяемые страницы во временную БД и случайным образом их оттуда извлекать. Например средствами той же БД. Все это сделать весьма несложно, нужна только "политическая воля", как сейчас принято говорить и несколько часов работы профессионального программиста.
__________________
|
|
12.12.2009, 20:26 | #30 | |
Специалист
Регистрация: 10.11.2009
Сообщений: 231
Вес репутации: 182
|
Цитата:
И это задача не на несколько часов работы профессионального программиста. Это задача на недели, месяцы... Проблемы тут будут лезть из всех щелей - самые маловероятные события (которые в обычных базах до миллиона записей даже предусматривать не надо) - становятся почти неизбежными. Маленькая ошибка, обнаруженная на 16ом часу заполнения базы и начинай сначала. Потом обнаруживаешь ошибку на 43ьем часу и опять сначала... На первичную отладку и заполнение той базы в 72 млн (что в два раза меньше, чем у Сапы) у меня ушло 43 дня(!), хотя и опыт в 20 с лишним лет программинга за спиной. Так что не разбрасывайтесь словами о том, о чем представления не имеете. Собсно поэтому я и понимаю почему Сапа так неохотно доделывает новые фичи. На том уровне где она находится - идеи с разбегу не делаются - нужно много подготовки и тщательное продумывание изменений. И уж явно не "пара часов профессионала". |
|
|
|
Похожие темы | ||||
Тема | Автор | Раздел | Ответов | Последнее сообщение |
Робот Сапы и Crawl-delay | Sea | Вопросы по работе системы | 10 | 13.02.2012 12:17 |
Часовой пояс GMT +3, время: 22:31.