Вернуться   Форум SAPE.RU > Общие вопросы > Деловое сотрудничество

-->
Закрытая тема
 
Опции темы
Старый 31.07.2009, 03:36   #1
Туру-туру
 
Аватар для bla-bla-bla
 
Регистрация: 11.02.2008
Адрес: Украина
Сообщений: 1,224
Вес репутации: 239
bla-bla-bla - прекрасное будущееbla-bla-bla - прекрасное будущееbla-bla-bla - прекрасное будущееbla-bla-bla - прекрасное будущееbla-bla-bla - прекрасное будущееbla-bla-bla - прекрасное будущееbla-bla-bla - прекрасное будущееbla-bla-bla - прекрасное будущееbla-bla-bla - прекрасное будущееbla-bla-bla - прекрасное будущееbla-bla-bla - прекрасное будущее
По умолчанию Парсер обсуждений вконтакте на форум phpBB (скидываемся)

Здравствуйте! Я планирую заказать программу для парсинга обсуждений из групп вконтакте на бесплатный форум phpBB 3.x. Составил ТЗ, связался с человеком который может взяться с разработкой (тоже с нашего форума Alexey его сайт http://www.uzhva.ru) обсудили с ним ТЗ внесли поправки, посчитали стоимость. Получилось 325,5$ за 10 рабочих дней по 4 часа в сутки. Получается сумма не маленькая, поэтому предлагаю заинтересованным лицам подключится к заказу, исполнитель не против того чтобы мы делали заказ в складчину. Ниже прилагаю ТЗ, и комментарии исполнителя. Системные требования программы еще не решены, будем совещаться с участниками. Есть варианты:
Цитата:
1) Веб-приложения - сложности с длительностью операции. Это потребует танцев с бубном, что отразится на сроках и стоимости.

2) Консольное приложение, выполняемое на сервере через SSH. В общем-то тут особо тонкостей нету. Надо только чтобы хостер разрешал выполнять такие приложения и не завалил претензиями.

3) Консольное приложение, выполняемое на своем компе, а потом заливающее данные на сервер. Будет требовать, чтобы доступ к MySQL был открыт с домашнего компа. Можно еще делать через SSH туннель, но за отдельную плату.

4) Графическое приложение, выполняемое на своем компе. То же самое, что и в предыдущем пункте. Будет удобней - не надо править конфиги, но дороже - работы больше.
самые дешевые варианты - 2 и 3, т.к. там минимальны затраты на сопутствующую часть - создание веб-интерфейса или графического интерфейса.
Исполнитель написал эскизную программу для оценки времени и для просмотра масштаба работ, скорость считывания получилась около 2 000 сообщений за 3 минуты 30 секунд, то есть около 550 сообщений в минуту.

На приватную программу комплект:
1) программа с передачей неисключительных авторских прав
2) сторонние библиотеки, если потребуются
3) инструкция по установке
4) инструкция по использованию

О гарантиях: (цытата разработчика)
Цитата:
у меня большая часть заказов с оффлайна, потому не заморачивался.
если нужны гарантии, то можно сделать так - оплата 60% после демонстрации функционала - т.е. даете топики, которые грабить - я демонстрирую на своем форуме.
У вас будет уже уверенность что оно работает и не уходит в пустоту.
И 40% после передачи проги и тестирования.
в общем-то, здесь я достаточно спокоен, ибо если не оплатите, я найду покупателя
ТЗ:
Цитата:
У скрипта нужны следующие функции:
Скрипт запрашивает:
- Данные для доступа к БД, куда надо вставить данные (по моему, это имя БД, имя пользователя БД, пароль пользователя БД, адрес mySQL сервера),
- Логин/пароль для "В Контакте" (логин – е-маил при регистрации),
- URL группы "В Контакте" (вида http://vkontakte.ru/groups.php?act=s&gid=912),
- Ссылка на ветку форума, куда надо вставить тему (для phpBB это вида http://myphpbb.com.ru/go/viewforum.php?f=3 ).
Все эти данные должны храниться в двух конфигурационных файлах.
В одном – данные для БД форума и логина в контакте.
В другом список вида:
http://vkontakte.ru/groups.php?act=s&gid=912 http://myphpbb.com.ru/go/viewforum.php?f=3
То есть соответствие группа контакта – ветка форума, разделенная пробелом.
Затем скрипт копирует темы, ответы, и профили пользователей из «В Контакте» на форум. Так же нужна возможность копировать не полностью раздел обсуждений (бывает что в группе создано под 1000 тем, нам в таких объемах не надо), но и иметь возможность копировать отдельные темы (желательно реализовать чтобы отдельные темы парсило с текстового файла).

Нужна следующая информация:
- Название темы,
- Автор темы (Берется ник из «В Контакте»). Именно ник, а не ФИО. Если ника нет, берется Имя. Если Ник неуникальный, к нему добавляется год рождения (из данных профиля «В Контакте»). Например, nick_1869. Если даты тоже нет, добавляем цифры (то есть nick1, nick2, nick3 и так далее),
- Дата публикации темы.
- Также к постам парсим дату его создания

Кроме тем и сообщений, еще надо заполнять профили на форуме.
Для этого из контакта по ссылке вида «http://vkontakte.ru/id45560» (например), мы забираем:
- Аватар
- ICQ
- Дату регистрации (дату первого поста пользователя)
- Откуда («Родной город» в «В Контакте»)
- Сайт
Вся информация желательная, но не обязательная. Есть – хорошо, нет - ничего.

Для каждого пользователя подсчитываем сообщения.
Для каждой темы – ответы.
Для каждой ветки форума – количество тем.
То есть все такие мелкие действия
Пользователей лучше различать по его id (например http://vkontakte.ru/id*) так как он является статическим и он не меняется в отличии от ников, имен, фамилий.
Если во время парсинга, по каким либо причинам разорвался интернет или другим причинам был прерван процесс парсинга. Тогда в следующий раз мы не начинаем парсить заново всю группу а продолжаем предыдущий процесс.

Необходимо предусмотреть режим обновления форумов. Происходит он следующим образом:
На каждом форуме создается ветка «Помойка», доступная только администратором.
В эту тему переносятся те темы, которые не нужно, чтобы были на форуме
При обновлении добавляются новые темы, новые сообщения в темы, создаются новые профили.
Но если тема есть в «Помойке» она не обновляется заново и не дублируется.

Скрипт не должен быть модулем форума, а должен быт отдельным файлом.

Также все напарсенные темы, сообщения, и созданные профили пользователей учитывались в статистике форума.

В общем цель скрипта – полная имитация живого форума, с целью
ТЗ – это не догма, а тема для размышлений.
Комментарий разработчика:
Цитата:
Так… В общем, эксперименты я свои вроде бы завершил, пришел к следующим выводам.

Этапы разработки:

Стадия 1: Опредение требований к программе и хостингу
Работы:
Обсждение технического задания – в течении суток

Решение технических проблем с хостингом. Создание тестовой БД или получить доступ к хостингу – зависит от заказчика.

До того как данные не будут получены и не будет подтверждена техническая возможность реализации, работы по разработке не начинаются.

Стадия 2: Разработка
Разработке подлежит:
1) Граббер данных с вконтакте. Реализовать: авторизация, граббер списка топиков, граббер сообщений топика, граббер информации со странички пользователя.
2) Подсистема внутреннего хранения этих данных в промежуточной локальной базе на основе файлов. Нужно для того, чтобы при повторном обновлении не запрашивать профили уже известных пользователей, а так же запрашивать только новые сообщения.
Это позволит существенно оптимизировать время работы программы.
3) Подсистема экспорта данных из внутреннего хранилища, описанного в предыдущем пункте, в базу данных форума.
4) Подсистема обновления данных форума из данных внутреннего хранилища. Нужно для того, что бы добавлять сообщения из топиков в дальнейшем. Блокировка топиков из помойки.

Реализация пунктов (1-2) – около 3 дней.
Проведение исследовательских работ со структурой базы данных форума – 2-4 дня.
Реализация пунктов (3-4) – около 3-5 дней.

Этап 3: тестирование
Должен быть создан тестовый форум и проверена работа программы.

Создание форума – 2 часа
Тестирование работы программы в различных режимах – 7 дней.


Итоги:
На предпроектные работы требуется от 1 до 3 дней.
На разработку требуется от 8 до 12 рабочих дней.
На тестирование – от 2 до 7 дней.

Т.е. сроки получаются от 11 до 21 рабочих дня. За затягивание сроков на 2 или 3 этапе я готов нести ответственность. Если это кажется долго – это только кажется. Я понимаю, что всюду говорят что надо 3 дня, но реально ничего за 3 дня не делается – там либо сроки затягиваются, либо выпускается глючная хрень, которая потом 2 недели еще допиливается до рабочего состояния.

Со сроками, если согласны, то по цене будет следующая калькуляция:
1 месяц содержит 23 рабочих дня по 8 часов. То есть, 184 рабочих часа. Стоимость месяца работы – 1500$.

При самых оптимистических прогнозах, программа требует 10 рабочих дней моего времени (работы по подбору хостинга я опускаю) по 4 рабочих часа в день – это получается 40 рабочих часа, что составляет 21.7% от 1 месяца.

Т.е. если идти по пути предоставления максимальных скидок, то стоимость разработки будет составлять 325,5$.

Сумма может быть поделена с кем-то, если кому-то это тоже надо. но при соблюдении нескольких стандартных условий:
1) я общаюсь с одним человеком. из десяти асек одновременно мне писать не надо)
2) тестирование проводится в течении 7 дней после окончания разработки. Т.е. после того, как вы согласны, что функционал реализован, вы можете ее прогонять во все стороны, ошибки я буду исправлять. Долгосрочная поддержка и доработка тоже возможна, но должна обговариваться отдельно.
3) все технические требования должны быть соблюдены у всех покупателей. Т.е. не так, что у одного одна система, у другого другая и т.д.
Если что-то не так, то я готов пересмотреть условия, с учетом изменившихся требований. Возможно сделать и под 2 разные конфигурации и с разными рюшечками. Просто это надо обговорить до начала работ.

системные требования мои:
Вариант 1:
- linux или bsd хостинг с доступом по SSH
- установленный python версии 2.5 и выше (сейчас установливается по умолчанию на всех хостингах)

Вариант 2:
- любой хостинг с открытой на внешний доступ MySQL
возможно сделать программу, работающую в обеих режимах одновременно
на цене не отразится.
__________________
Нормально делай - нормально будет!
bla-bla-bla вне форума  
Старый 31.07.2009, 03:42   #2
Мне повезёт!
 
Аватар для Alexey
 
Регистрация: 05.05.2007
Сообщений: 1,076
Вес репутации: 275
Alexey - прекрасное будущееAlexey - прекрасное будущееAlexey - прекрасное будущееAlexey - прекрасное будущееAlexey - прекрасное будущееAlexey - прекрасное будущееAlexey - прекрасное будущееAlexey - прекрасное будущееAlexey - прекрасное будущееAlexey - прекрасное будущееAlexey - прекрасное будущее
По умолчанию

Сказанное подтверждаю. Надеюсь на сотрудничество.
__________________
Everything will be great in the end.
If it's not great, it's not the end.
Alexey вне форума  
Старый 31.07.2009, 03:52   #3
Червечок ползет в никуда.
 
Аватар для Chervechok
 
Регистрация: 08.01.2008
Сообщений: 2,071
Вес репутации: 316
Chervechok - прекрасное будущееChervechok - прекрасное будущееChervechok - прекрасное будущееChervechok - прекрасное будущееChervechok - прекрасное будущееChervechok - прекрасное будущееChervechok - прекрасное будущееChervechok - прекрасное будущееChervechok - прекрасное будущееChervechok - прекрасное будущееChervechok - прекрасное будущее
По умолчанию

интересная штучко.. только одно но.. ето акки из контакта где браться будут? ломать кого то что ли нужно?
Chervechok вне форума  
Старый 31.07.2009, 04:16   #4
Туру-туру
 
Аватар для bla-bla-bla
 
Регистрация: 11.02.2008
Адрес: Украина
Сообщений: 1,224
Вес репутации: 239
bla-bla-bla - прекрасное будущееbla-bla-bla - прекрасное будущееbla-bla-bla - прекрасное будущееbla-bla-bla - прекрасное будущееbla-bla-bla - прекрасное будущееbla-bla-bla - прекрасное будущееbla-bla-bla - прекрасное будущееbla-bla-bla - прекрасное будущееbla-bla-bla - прекрасное будущееbla-bla-bla - прекрасное будущееbla-bla-bla - прекрасное будущее
По умолчанию

Цитата:
Сообщение от poolk Посмотреть сообщение
интересная штучко.. только одно но.. ето акки из контакта где браться будут? ломать кого то что ли нужно?
ничего ломаться не будет. будет просто браться информация из аккаунтов и переносится на профиль форума.

Добавлено через 9 минут
аккаунты будут браться не случайным образом а именно того человека который оставил пост. объясню принцып работы по шагам:
парсится тема из обсуждений
прога открывает тему видет создателя ее, считывает его ник и создает такой же в базе форума. дальше открывает его страницу считывает ICQ, город, берет его автару. (пользователь на форуме у нас теперь создан).
теперь парсим название темы и создаем точно такую же только на форуме. копируем текст сообщения и переносим в базу. (дата публикации сообщения остается таже что и вконтакте, т.к. мы делаем полную имитацию живого форума!)
заносим айди этого пользователя в наше внутреннее хранение этих данных в промежуточной локальной базе. Нужно для того, чтобы при повторном обновлении не запрашивать профили уже известных пользователей, а так же запрашивать только новые сообщения. Это позволит существенно оптимизировать время работы программы.
__________________
Нормально делай - нормально будет!

Последний раз редактировалось bla-bla-bla; 31.07.2009 в 04:16. Причина: Добавлено сообщение
bla-bla-bla вне форума  
Старый 31.07.2009, 04:17   #5
Мне повезёт!
 
Аватар для Alexey
 
Регистрация: 05.05.2007
Сообщений: 1,076
Вес репутации: 275
Alexey - прекрасное будущееAlexey - прекрасное будущееAlexey - прекрасное будущееAlexey - прекрасное будущееAlexey - прекрасное будущееAlexey - прекрасное будущееAlexey - прекрасное будущееAlexey - прекрасное будущееAlexey - прекрасное будущееAlexey - прекрасное будущееAlexey - прекрасное будущее
По умолчанию

Цитата:
Сообщение от poolk Посмотреть сообщение
интересная штучко.. только одно но.. ето акки из контакта где браться будут? ломать кого то что ли нужно?
Для этого я перед определением цен и сроков делаю эскизные проекты.

Последовательность действий:
- Был зарегистрирован один чистый аккаунт.
- Проведен циклический запрос около 100 разных страниц с сообщениями

Сначала меня забанило. Но после увеличения задержки до 2.5 секунд получилось беспрепятственно скопировать около 3 000 сообщений подряд.

Отсюда я делаю вывод, что для работы программы достаточно одного единственного аккаунта.

Проблема только в закрытых профилях. Из них извлечь данные, увы, не получится.
__________________
Everything will be great in the end.
If it's not great, it's not the end.
Alexey вне форума  
Старый 31.07.2009, 04:18   #6
Туру-туру
 
Аватар для bla-bla-bla
 
Регистрация: 11.02.2008
Адрес: Украина
Сообщений: 1,224
Вес репутации: 239
bla-bla-bla - прекрасное будущееbla-bla-bla - прекрасное будущееbla-bla-bla - прекрасное будущееbla-bla-bla - прекрасное будущееbla-bla-bla - прекрасное будущееbla-bla-bla - прекрасное будущееbla-bla-bla - прекрасное будущееbla-bla-bla - прекрасное будущееbla-bla-bla - прекрасное будущееbla-bla-bla - прекрасное будущееbla-bla-bla - прекрасное будущее
По умолчанию

если аккаунт скрыт можно давать таким профилям свои данные из списка, который мы заранее подготовим
__________________
Нормально делай - нормально будет!
bla-bla-bla вне форума  
Старый 31.07.2009, 05:30   #7
Починяю примуса
 
Аватар для Atomic
 
Регистрация: 26.09.2008
Сообщений: 1,505
Вес репутации: 284
Atomic - прекрасное будущееAtomic - прекрасное будущееAtomic - прекрасное будущееAtomic - прекрасное будущееAtomic - прекрасное будущееAtomic - прекрасное будущееAtomic - прекрасное будущееAtomic - прекрасное будущееAtomic - прекрасное будущееAtomic - прекрасное будущееAtomic - прекрасное будущее
По умолчанию

_vkontakte.ru?
интересно, как они к этому отнесутся.
__________________
Починяю разнокалиберные примуса здесь.
Atomic вне форума  
Старый 31.07.2009, 06:31   #8
Мастер
 
Аватар для Trezub
 
Регистрация: 04.01.2008
Адрес: ываыва
Сообщений: 628
Вес репутации: 237
Trezub - прекрасное будущееTrezub - прекрасное будущееTrezub - прекрасное будущееTrezub - прекрасное будущееTrezub - прекрасное будущееTrezub - прекрасное будущееTrezub - прекрасное будущееTrezub - прекрасное будущееTrezub - прекрасное будущееTrezub - прекрасное будущееTrezub - прекрасное будущее
Отправить сообщение для Trezub с помощью ICQ
По умолчанию

Я понимаю что хороший софт стоит хороших денег.
Но мне кажется можно наваять нечто ужасное, но работающее, на пхп с preg_match за пару дней.

Это я так. А то сумма в тристабаксов для меня куча денег.

Вобще давненько думал об использовании вконтакта как источника уникального контента. Но все как ленно. Стоит ли оно вобще того? А что с форумом потом делать...

///пять часов утра)
__________________
Жизнь - прекрасна, помните об этом, и напоминайте другим почаще
Trezub вне форума  
Старый 31.07.2009, 07:39   #9
Эксперт
 
Аватар для Argi
 
Регистрация: 12.09.2008
Адрес: Location
Сообщений: 1,974
Вес репутации: 325
Argi - прекрасное будущееArgi - прекрасное будущееArgi - прекрасное будущееArgi - прекрасное будущееArgi - прекрасное будущееArgi - прекрасное будущееArgi - прекрасное будущееArgi - прекрасное будущееArgi - прекрасное будущееArgi - прекрасное будущееArgi - прекрасное будущее
Отправить сообщение для Argi с помощью ICQ
По умолчанию

ыыыы

1. пишется в разы быстрее
2. стоит меньше
3. воровство
4. на Вас очень быстро стукнут и все побанят
5. нет, это не предположения, а собственный опыт
__________________
Нужно больше индексации Warchild обвинен в мошенничестве!
выдыхаю криптон
Argi вне форума  
Старый 31.07.2009, 10:12   #10
Мне повезёт!
 
Аватар для Alexey
 
Регистрация: 05.05.2007
Сообщений: 1,076
Вес репутации: 275
Alexey - прекрасное будущееAlexey - прекрасное будущееAlexey - прекрасное будущееAlexey - прекрасное будущееAlexey - прекрасное будущееAlexey - прекрасное будущееAlexey - прекрасное будущееAlexey - прекрасное будущееAlexey - прекрасное будущееAlexey - прекрасное будущееAlexey - прекрасное будущее
По умолчанию

Цитата:
Сообщение от Argi Посмотреть сообщение
ыыыы

1. пишется в разы быстрее
2. стоит меньше
Я готов уступить вам место, если вы напишете все указанное ТС быстрей и дешевле.

Я не спорю, что написать граббер - быстро - на это может хватить 1-2 дня.

Лишь хочу указать на то, что вы, возможно, пропустили в ТЗ некоторые тонкости, как то:
- автонаполнение форума. Из всех найденных ER диаграмм, лучшей оказалась вот эта - http://internal.shirta.com/tech/phpbb3_tables.png
- необходима синхронизация сообщений, а не один раз во внутрь запихать и забить. Т.е. в дальнейшем необходимо будет сопоставить пользователей из БД форума и пользователей из вконтакте, сообщения. Добавить (не заменить, а добавить) недостающее (ибо при замене ПС не очень-то обрадуются тому, что вдруг у половины форума поменялись id). И, желательно, это делать эффективно по времени. А не каждый раз при обновлении загружать заново все сообщения и порфили из вконтакте. Иначе, при обрывах связи, это вообще никогда не совершится.
- добавьте к этому обработку ошибок, ибо при создании проги на заказ, надо делать нормальные сообщения об ошибках, если что-то пошло не так, а не как я для себя их вообще не делаю (а зачем? комп один, инет вырубился - подключу)

Тот срок - от 11 до 21 дня - это реальный срок, по которому можно нести материальную ответственность, а не прикидочное что-то. С учетом не только максимализма "я гений-программер, мне море по колено, мне горы по плечу", а реалий вроде как "на выходных надо к теще", "больше 4 часов в день уделить проекту не могу", "по ночам писать, чтобы получилась глючная херня не собираюсь".

Вы все еще считаете, что это стоит дешевле и пишется быстрей?

Добавлено через 28 минут
Цитата:
Сообщение от Trezub Посмотреть сообщение
Это я так. А то сумма в тристабаксов для меня куча денег.
Если вы будете участвовать, то будет уже по 150. Если еще кто-то, то уже по 100.

Дешевле - никак, цена сформирована на основе оценки трудозатрат, а не с потолка.
__________________
Everything will be great in the end.
If it's not great, it's not the end.

Последний раз редактировалось Alexey; 31.07.2009 в 10:12. Причина: Добавлено сообщение
Alexey вне форума  
Закрытая тема

Опции темы

Ваши права в разделе
Вы не можете создавать новые темы
Вы не можете отвечать в темах
Вы не можете прикреплять вложения
Вы не можете редактировать свои сообщения

BB коды Вкл.
Смайлы Вкл.
[IMG] код Вкл.
HTML код Выкл.

Быстрый переход

Похожие темы
Тема Автор Раздел Ответов Последнее сообщение
Установка кода в форум на phpBB achilies.biz Установка кода на различные движки 409 20.01.2017 23:46
Форум на PHPBB + Сапа?! SeryGlaz Вопросы по работе системы 6 19.04.2009 09:28
Форум phpBB, индексация и скрытие тем. alex063 Курилка 27 14.03.2009 12:00


Часовой пояс GMT +3, время: 13:51.