Вернуться   Форум SAPE.RU > Другое > Курилка

-->
Закрытая тема
 
Опции темы
Старый 11.06.2009, 23:44   #3551
Эксперт
 
Аватар для PlaDima
 
Регистрация: 15.07.2008
Сообщений: 2,004
Вес репутации: 314
PlaDima - прекрасное будущееPlaDima - прекрасное будущееPlaDima - прекрасное будущееPlaDima - прекрасное будущееPlaDima - прекрасное будущееPlaDima - прекрасное будущееPlaDima - прекрасное будущееPlaDima - прекрасное будущееPlaDima - прекрасное будущееPlaDima - прекрасное будущееPlaDima - прекрасное будущее
По умолчанию

Цитата:
Сообщение от WebFX Посмотреть сообщение
Какая тут работа если в ванне живу..
передислокация с кухни? Вместо вискаря соляные ванны?))

Пипец, поставил минус очередному неадеквату, а оказалось что поставил плюс) Шо за жизнь..
PlaDima вне форума  
Старый 12.06.2009, 12:21   #3552
Привилегированный сапёр
 
Аватар для Sergoff
 
Регистрация: 21.04.2008
Сообщений: 2,426
Вес репутации: 312
Sergoff - прекрасное будущееSergoff - прекрасное будущееSergoff - прекрасное будущееSergoff - прекрасное будущееSergoff - прекрасное будущееSergoff - прекрасное будущееSergoff - прекрасное будущееSergoff - прекрасное будущееSergoff - прекрасное будущееSergoff - прекрасное будущееSergoff - прекрасное будущее
По умолчанию

Sergoff вне форума  
Старый 13.06.2009, 04:55   #3553
пусто
 
Аватар для Администрация 6-ой палаты
 
Регистрация: 28.10.2007
Сообщений: 3,115
Вес репутации: 372
Администрация 6-ой палаты - прекрасное будущееАдминистрация 6-ой палаты - прекрасное будущееАдминистрация 6-ой палаты - прекрасное будущееАдминистрация 6-ой палаты - прекрасное будущееАдминистрация 6-ой палаты - прекрасное будущееАдминистрация 6-ой палаты - прекрасное будущееАдминистрация 6-ой палаты - прекрасное будущееАдминистрация 6-ой палаты - прекрасное будущееАдминистрация 6-ой палаты - прекрасное будущееАдминистрация 6-ой палаты - прекрасное будущееАдминистрация 6-ой палаты - прекрасное будущее
По умолчанию

фух... я еще жив... реанимирую

Добавлено через 14 часов 53 минуты
сообщение от ффауст, которое я почему то не видел:
Цитата:
А вообще, ты лучше многих знаешь о подводных камнях, которые ждут ВМ в Сапе. Недалекие школьники же просто неспособны пропустить мимо то, что им не по уму, а потому нафлудили 5 страниц - смотреть противно: 6 палата, у которого гениальные мысли слизывают, Йода, где-то посеявший свою зеленую мудрость... да и остальные зайчики, озабоченные репой до умопомрачения.
ну я выделил интересное.
я не для спору пишу, пишу для того, чтобы видно было:

вот котофеич тему создал:

Цитата:
Сообщение от kotofeich Посмотреть сообщение
Наконец сегодня додумал до логического конца алгоритм определения тематики и начал реализацию. Алгоритм построен на теории нейронных сетей, и нужен мне в корыстных целях направленных на яндекс. Ценность алгоритма в том - что это будет первый алгоритм определения тематики сайта, который сможет реализовать почти любой программист. Надеюсь кому-нибудь пригодится.

Этап 1: Определение ключевых слов сайта

1) Получаем страницу
2) Убираем теги, и все кроме букв и пробелов. Знаки препинания заменяем на пробелы. (Цифры удалить!!!)
3) Разбиваем весь текст на слова, то есть делаем одномерный массив слов.
4) удаляем слова меньшие 2 букв
4) Каждое слово прогоняем через стеммер. Я использую алгоритм Портера. Для тех кто не в курсе стеммер - это программа которая отбразывает от слова суффиксы и приставки, оставляя корень. Алгоритм Портера слаб, но пока сойдет. Как найду морфологический словарь - сменю на него.
5) При прогоне через стеммер создаем новый ассоциативный массив, где ключом будет само слово, а значением колличество повторений слова. Например (”Yandex” =>3, “Тиц” =>5) и т.д.
6) Упорядочиваем ассоциативный массив по убыванию колличества повторений.
7) Удаляем все слова повторяющиеся менее трех раз (колличество под вопросом).
8) В итоге мы получили ключевики сайта с их “тошнотой”. Обычно их на этом этапе 50-100 штук.
9) Проверяем каждый ключевик по базе общих слов не несущих тематику. Например слова: “меня”, “когда”, “сколько” и т.д. Я храню эти слова в отдельной таблице бд и написал отдельный скрипт, который позволяет их сформировать. Обойдя сотню сайтов мы набираем базу самых популярных не имеющих тематику слов.

Этап 2: Создаем тематическую базу

1) Для начала в бд нужно создать три таблицы: “слова”, “тематики” и “веса”.
Поля таблиц:
“Слова”: word_id, word
“Тематики”: theme_id, parent_id, theme
“Веса”: word_id, theme_id, ves
2) Заполняем таблицу тематик. Я для этих целей пользуюсь базой Ашманова (где-то 5000 тематик). Не использую ЯК, потому что сайты в него заносятся вручную, то бишь робот тут не причем. В нашем случае необходимо знать тематику, которую видит робот на обычных сайтов. Я не говорю что тематика по Ашманову совпадет с тем что определил робот яндекса, но нам это и не нужно. Представьте что по Ашманову у нас вышло “кпк” для донора и акцептора, а по яндексу “сотовые телефоны”.Не все ли равно?
3) Самый трудный момент. Выбираем нужную тему, например “интернет-ресуры”. Из найденных в первом этапе ключевиков страницы выбираем относящиеся к этой теме, и проставляем им коэффициенты, насколько сильно они относятся к данной теме (балл от 0 до 1). Позже будем корректировать это значение, сейчас это не суть важно. Это значение и будет синаптической силой. В сумме они дадут активацию нейрона к данной тематике. В реальности это дает потрясающие возможности даже для многозначных слов. Например слово “лук” можно отнести и к кухне и к “охоте”. Это не повлияет на верность определения.
Этот момент трудный, потому что придется обойти множество сайтов, чтобы собрать хотя бы по 10 слов для каждой тематики. На деле десяти слов вполне достаточно. Итого необходимо 50000 слов, чтобы определить тему сайта по Ашманову. Кто-то скажет это много, но в день при нормальной оболочке можно легко собрать тысячу слов. Итого 50 дней пассивного труда.
4) Мы создали семантическое ядро для каждой тематики, и указали с каким весом относится к каждой теме определенное слово.

Этап 3: Узнаем тему неизвестных сайтов и корректируем результаты

1) Поскольку мы первоначально как-то обучили программу. Теперь покажу как ей пользоваться.
Для неизвестного сайта выполняем этап 1 и узнаем ключевые слова с “тошнотой”. В результате полученные примерно 30 ключевиков проверяем по базе к каким темам они относятся и какие коэффициенты имеют.

Примитивный пример:
Текст “Лук и стрелы это лук”.
Лук тошнота 2. Тема “охота” вес 0.7. Тема “кухня” вес 0.6.
Стрелы тошнота 1. Тема “охота” вес 0.8.
Находим активацию нейрона:
К теме охота: 0.7*2+1*0.8=2.2
К теме кухня: 0.6*1=0.6

Поздравляю - тема текста определена. Здесь также можно определить в % насколько текст относится к другим темам.

2) Возможно в прошлом этапе неверно проставлены коэффициенты и их нужно корректировать. Для этого необходим отдельный интерфейс, где выбрав тематику видишь все ключевые слова по ней с их коэффициентами. Изменяя коэффициенты мы усиливаем значение того или иного слова в определенной теме. При анализе множества сайтов мы приходим к стабильному результату.

а когда то давно Йода тему создавал, в которой я писал:

Цитата:
Сообщение от Администрация 6-ой палаты Посмотреть сообщение
давайте попробуем подумать логически...

только человек может на 100% определить тематику текста...
как он это делает? Делает он это основываясь на своей базе данных...
если база отсутствует - значит он не определит тематику...

то есть все упирается в базу...
необходима база, где будет хранится тематика слов, склонения слов, сущность слова, и прочие данные...

яндекс имеет такую базу, потому что каждый день ему вводять сотни тысяч запросов... и основываясь на всем этом он выдает поиск...

то есть можно сделать прогу, Тсе, тебе сейчас говорю, которая будет самообучаться...

то есть смотришь на текст, выделяешь слова относящиеся к тематике, и потом присваиваешь тематику...
Потом уже прога будет сама присваивать тематику, если увидит эти слова в тексте...

но все равно вероятность будет не 100% даже через 10 лет...
ибо моск человека ЛОГИЧЕСКИЙ, а не алгоритмический.
и еще

Цитата:
Сообщение от Администрация 6-ой палаты Посмотреть сообщение
tse, если честно, то мне кажется искусственный интеллект нереально написать, будет получаться петршка...

чтобы был искусственный интеллект - программа должна обладать творческим мышлением, и оценкой произведенных действий...

у нас хотя бы есть болевые рецепторы, и мы можем накапливать базу, что делать хорошо для здоровья, а что нет... а как алго будет это делать? нереально же
и еще

Цитата:
Сообщение от Администрация 6-ой палаты Посмотреть сообщение
я придумал как можно хотя бы приблизится к интеллекту

вобщем робот, на основе тошноты слов будет сам определять тематику из базы, если он определит неверно - то ему ставим оценку 2, как в школе, если приблизительно, то оценку 3, и так далее, а дальше идет уже РАБОТА НАД ОШИБКАМИ, он заново смотрит текст и присваивает тематику исключая уже присвоенную - и снова его оченивает учитель... если неуд - работа над ошибками и так далее...

можно попробовать, хотя и тут тоже баги будут =)))

Добавлено через 59 секунд
до тех пор, пока не выбьет наивысшую оценку

Цитата:
Сообщение от Администрация 6-ой палаты Посмотреть сообщение
ну вот это допустим база, далее идет процентная оценка тошноты, и потом роботу ставятся оценки.

Добавлено через 1 минуту
то есть tse, надо создать онлайн сервис, раскрутить его, онлайн сервис будет присваивать тематику тексту, а люди будут ставить оценки...

Добавлено через 36 секунд
таким способом наработается база знаний, и бот потом будет уже определять тематику хорошо...
и еще

Цитата:
Сообщение от Администрация 6-ой палаты Посмотреть сообщение
попробую

дается роботу текст:

1) робот сканирует все слова
а) смотря на бузу склонений робот относит слова "картошка", "картошки", "картошку" к одному слову и считает количество повторений.
б) после сканирования и распеределения вычисляем тошноту слов, и выделяем 10 самых тошных слов в тексте...
в) теперь выбрав 10 тошных слов, робот делает проверку с базой тематики, к какой тематике относится первое слово, второе и так далее...(сюда не входят предлоги, местоимения, союзы и так далее)... проверил вобщем
г) выдает результат, типо такого:
- анестезия - Медицина
- температура - Метеорология, Медицина
- голова - Анатомия, Медицина

ну чето типо этого...
и какая тематика выпала больше всего раз - ту и присваивает...

Пусть оценки будет две, 0 - не верно, 1 - верно

0 - не верно: робот исключает присвоенную тематику и выбирает вторую по тошноте или первую в списке(см п. г)) и снова ему ставится оценка
1 - верно: робот записывает собранные ключевики и относит их к одной тематике, в следующий раз, когда он увидит такие 10 слов в тексте - он сразу выдаст тематику.

ну вот что-то типо того.
поэтому, соответственно, увидев эту тему http://forum.sape.ru/showthread.php?...E0%E9%F2%EE%E2

где пришел чувак и говоря точ-в-точ тоже самое, мну не понравилось, я и написал

Цитата:
Сообщение от Администрация 6-ой палаты Посмотреть сообщение
kotofeich, слизал с моей теории и прогоняет, прогоняет....
так что нехер гнать на меня, тот алго, который я предлагал - я его реально придумал, раньше даже не слыхал о чем то подобном, стояла задача, и стал думать...

Всё!
__________________
Умное лицо - это еще не признак ума господа. Все глупости на земле делаются именно с этим выражением лица. Улыбайтесь господа, улыбайтесь.

Последний раз редактировалось Администрация 6-ой палаты; 13.06.2009 в 04:55. Причина: Добавлено сообщение
Администрация 6-ой палаты вне форума  
Старый 13.06.2009, 09:26   #3554
Эксперт
 
Аватар для PlaDima
 
Регистрация: 15.07.2008
Сообщений: 2,004
Вес репутации: 314
PlaDima - прекрасное будущееPlaDima - прекрасное будущееPlaDima - прекрасное будущееPlaDima - прекрасное будущееPlaDima - прекрасное будущееPlaDima - прекрасное будущееPlaDima - прекрасное будущееPlaDima - прекрасное будущееPlaDima - прекрасное будущееPlaDima - прекрасное будущееPlaDima - прекрасное будущее
По умолчанию

Цитата:
Сообщение от Администрация 6-ой палаты Посмотреть сообщение
Всё!
И почему-это Йода гонится за репой? У нас вроде не серч..
PlaDima вне форума  
Старый 13.06.2009, 09:32   #3555
Глобальный Wordpress'овед
 
Аватар для Globalzru
 
Регистрация: 20.06.2008
Адрес: Чешская республика
Сообщений: 1,853
Вес репутации: 299
Globalzru - прекрасное будущееGlobalzru - прекрасное будущееGlobalzru - прекрасное будущееGlobalzru - прекрасное будущееGlobalzru - прекрасное будущееGlobalzru - прекрасное будущееGlobalzru - прекрасное будущееGlobalzru - прекрасное будущееGlobalzru - прекрасное будущееGlobalzru - прекрасное будущееGlobalzru - прекрасное будущее
Отправить сообщение для Globalzru с помощью ICQ
По умолчанию

Цитата:
Сообщение от PlaDima Посмотреть сообщение
И почему-это Йода гонится за репой? У нас вроде не серч..
Ему надо изучить мой аватар
__________________
Заходите на мой личный блог [Обменяюсь ссылками с подобными сайтами, ТИЦ от 10]
Стабильный хостинг - Хочешь скидку 25% на любой НОВЫЙ заказ? Напиши!
Недорогие услуги по Wordpress
Globalzru вне форума  
Старый 15.06.2009, 04:36   #3556
..
 
Регистрация: 08.09.2007
Адрес: ...
Сообщений: 3,483
Вес репутации: 286
rusteam - за этого человека можно гордитсяrusteam - за этого человека можно гордитсяrusteam - за этого человека можно гордитсяrusteam - за этого человека можно гордитсяrusteam - за этого человека можно гордитсяrusteam - за этого человека можно гордитсяrusteam - за этого человека можно гордитсяrusteam - за этого человека можно гордитсяrusteam - за этого человека можно гордитсяrusteam - за этого человека можно гордится
По умолчанию

когда бабло начисляют? вроде в 3-30 недавно было.. хотя какая разница - 504 даже по ночам.. ппц..

Добавлено через 29 минут
часа 2 назад играл в боулинг, сломал ноготь, побил рекорд какого то местного Вахи, прислуга сказала коктейль положен халявный.. гордо отказался от пойла в пользу Вахи, ему ж стимул надо не.. играл 2й раз в жизни без бре.. мож в профи?..

Последний раз редактировалось rusteam; 15.06.2009 в 04:36. Причина: Добавлено сообщение
rusteam вне форума  
Старый 15.06.2009, 10:32   #3557
Эксперт
 
Аватар для PlaDima
 
Регистрация: 15.07.2008
Сообщений: 2,004
Вес репутации: 314
PlaDima - прекрасное будущееPlaDima - прекрасное будущееPlaDima - прекрасное будущееPlaDima - прекрасное будущееPlaDima - прекрасное будущееPlaDima - прекрасное будущееPlaDima - прекрасное будущееPlaDima - прекрасное будущееPlaDima - прекрасное будущееPlaDima - прекрасное будущееPlaDima - прекрасное будущее
По умолчанию

Цитата:
Сообщение от rusteam Посмотреть сообщение
когда бабло начисляют? вроде в 3-30 недавно было.. хотя какая разница - 504 даже по ночам.. ппц..
С финансовой статистикой еще что-то неладное...
PlaDima вне форума  
Старый 15.06.2009, 10:44   #3558
Привилегированный сапёр
 
Аватар для Sergoff
 
Регистрация: 21.04.2008
Сообщений: 2,426
Вес репутации: 312
Sergoff - прекрасное будущееSergoff - прекрасное будущееSergoff - прекрасное будущееSergoff - прекрасное будущееSergoff - прекрасное будущееSergoff - прекрасное будущееSergoff - прекрасное будущееSergoff - прекрасное будущееSergoff - прекрасное будущееSergoff - прекрасное будущееSergoff - прекрасное будущее
По умолчанию

Сумма баланса вроде прибавилась, а вот цифра в графе Результат осталась вчерашней. У кого как?
Sergoff вне форума  
Старый 15.06.2009, 10:54   #3559
Эксперт
 
Аватар для PlaDima
 
Регистрация: 15.07.2008
Сообщений: 2,004
Вес репутации: 314
PlaDima - прекрасное будущееPlaDima - прекрасное будущееPlaDima - прекрасное будущееPlaDima - прекрасное будущееPlaDima - прекрасное будущееPlaDima - прекрасное будущееPlaDima - прекрасное будущееPlaDima - прекрасное будущееPlaDima - прекрасное будущееPlaDima - прекрасное будущееPlaDima - прекрасное будущее
По умолчанию

Цитата:
Сообщение от Sergoff Посмотреть сообщение
Сумма баланса вроде прибавилась, а вот цифра в графе Результат осталась вчерашней. У кого как?
У меня в результатах позавчерашние суммы.
PlaDima вне форума  
Старый 15.06.2009, 10:57   #3560
Привилегированный сапёр
 
Аватар для Sergoff
 
Регистрация: 21.04.2008
Сообщений: 2,426
Вес репутации: 312
Sergoff - прекрасное будущееSergoff - прекрасное будущееSergoff - прекрасное будущееSergoff - прекрасное будущееSergoff - прекрасное будущееSergoff - прекрасное будущееSergoff - прекрасное будущееSergoff - прекрасное будущееSergoff - прекрасное будущееSergoff - прекрасное будущееSergoff - прекрасное будущее
По умолчанию

Цитата:
Сообщение от PlaDima Посмотреть сообщение
У меня в результатах позавчерашние суммы.
Один хрен не то, что надо А баланс увеличился?
Sergoff вне форума  
Закрытая тема


Ваши права в разделе
Вы не можете создавать новые темы
Вы не можете отвечать в темах
Вы не можете прикреплять вложения
Вы не можете редактировать свои сообщения

BB коды Вкл.
Смайлы Вкл.
[IMG] код Вкл.
HTML код Выкл.

Быстрый переход

Похожие темы
Тема Автор Раздел Ответов Последнее сообщение
МегаФлуд-2 Chervechok Курилка 2432 10.05.2008 15:36
МегаФлуд deep.shiva Курилка 2292 14.04.2008 04:01


Часовой пояс GMT +3, время: 04:53.