Парсер обсуждений вконтакте на форум phpBB (скидываемся)
Здравствуйте! Я планирую заказать программу для парсинга обсуждений из групп вконтакте на бесплатный форум phpBB 3.x. Составил ТЗ, связался с человеком который может взяться с разработкой (тоже с нашего форума Alexey его сайт http://www.uzhva.ru) обсудили с ним ТЗ внесли поправки, посчитали стоимость. Получилось 325,5$ за 10 рабочих дней по 4 часа в сутки. Получается сумма не маленькая, поэтому предлагаю заинтересованным лицам подключится к заказу, исполнитель не против того чтобы мы делали заказ в складчину. Ниже прилагаю ТЗ, и комментарии исполнителя. Системные требования программы еще не решены, будем совещаться с участниками. Есть варианты:
Цитата:
Исполнитель написал эскизную программу для оценки времени и для просмотра масштаба работ, скорость считывания получилась около 2 000 сообщений за 3 минуты 30 секунд, то есть около 550 сообщений в минуту. На приватную программу комплект: 1) программа с передачей неисключительных авторских прав 2) сторонние библиотеки, если потребуются 3) инструкция по установке 4) инструкция по использованию О гарантиях: (цытата разработчика) Цитата:
Цитата:
Цитата:
|
Сказанное подтверждаю. Надеюсь на сотрудничество.
|
интересная штучко.. только одно но.. ето акки из контакта где браться будут? ломать кого то что ли нужно?
|
Цитата:
Добавлено через 9 минут аккаунты будут браться не случайным образом а именно того человека который оставил пост. объясню принцып работы по шагам: парсится тема из обсуждений прога открывает тему видет создателя ее, считывает его ник и создает такой же в базе форума. дальше открывает его страницу считывает ICQ, город, берет его автару. (пользователь на форуме у нас теперь создан). теперь парсим название темы и создаем точно такую же только на форуме. копируем текст сообщения и переносим в базу. (дата публикации сообщения остается таже что и вконтакте, т.к. мы делаем полную имитацию живого форума!) заносим айди этого пользователя в наше внутреннее хранение этих данных в промежуточной локальной базе. Нужно для того, чтобы при повторном обновлении не запрашивать профили уже известных пользователей, а так же запрашивать только новые сообщения. Это позволит существенно оптимизировать время работы программы. |
Цитата:
Последовательность действий: - Был зарегистрирован один чистый аккаунт. - Проведен циклический запрос около 100 разных страниц с сообщениями Сначала меня забанило. Но после увеличения задержки до 2.5 секунд получилось беспрепятственно скопировать около 3 000 сообщений подряд. Отсюда я делаю вывод, что для работы программы достаточно одного единственного аккаунта. Проблема только в закрытых профилях. Из них извлечь данные, увы, не получится. |
если аккаунт скрыт можно давать таким профилям свои данные из списка, который мы заранее подготовим
|
_vkontakte.ru?
интересно, как они к этому отнесутся. |
Я понимаю что хороший софт стоит хороших денег.
Но мне кажется можно наваять нечто ужасное, но работающее, на пхп с preg_match за пару дней. Это я так. А то сумма в тристабаксов для меня куча денег. Вобще давненько думал об использовании вконтакта как источника уникального контента. Но все как ленно. Стоит ли оно вобще того? А что с форумом потом делать... ///пять часов утра) |
ыыыы
1. пишется в разы быстрее 2. стоит меньше 3. воровство 4. на Вас очень быстро стукнут и все побанят 5. нет, это не предположения, а собственный опыт |
Цитата:
Я не спорю, что написать граббер - быстро - на это может хватить 1-2 дня. Лишь хочу указать на то, что вы, возможно, пропустили в ТЗ некоторые тонкости, как то: - автонаполнение форума. Из всех найденных ER диаграмм, лучшей оказалась вот эта - http://internal.shirta.com/tech/phpbb3_tables.png - необходима синхронизация сообщений, а не один раз во внутрь запихать и забить. Т.е. в дальнейшем необходимо будет сопоставить пользователей из БД форума и пользователей из вконтакте, сообщения. Добавить (не заменить, а добавить) недостающее (ибо при замене ПС не очень-то обрадуются тому, что вдруг у половины форума поменялись id). И, желательно, это делать эффективно по времени. А не каждый раз при обновлении загружать заново все сообщения и порфили из вконтакте. Иначе, при обрывах связи, это вообще никогда не совершится. - добавьте к этому обработку ошибок, ибо при создании проги на заказ, надо делать нормальные сообщения об ошибках, если что-то пошло не так, а не как я для себя их вообще не делаю (а зачем? комп один, инет вырубился - подключу) Тот срок - от 11 до 21 дня - это реальный срок, по которому можно нести материальную ответственность, а не прикидочное что-то. С учетом не только максимализма "я гений-программер, мне море по колено, мне горы по плечу", а реалий вроде как "на выходных надо к теще", "больше 4 часов в день уделить проекту не могу", "по ночам писать, чтобы получилась глючная херня не собираюсь". Вы все еще считаете, что это стоит дешевле и пишется быстрей? Добавлено через 28 минут Цитата:
Дешевле - никак, цена сформирована на основе оценки трудозатрат, а не с потолка. |
Часовой пояс GMT +3, время: 20:15. |
Работает на vBulletin® версия 3.8.7.
Copyright ©2000 - 2024, Jelsoft Enterprises Ltd.
Перевод: zCarot
SAPE.RU — система купли-продажи ссылок с главных и внутренних страниц сайтов.