01.06.2009, 22:55 | #91 | |
Специалист
Регистрация: 02.10.2008
Сообщений: 303
Вес репутации: 203
|
Цитата:
Ведь важно то, что такие околотематичные ссылки действительно могут оказаться полезными и интересными пользователю. В любом случае, это будет гораздо лучше несвязанного с тематикой хлама. |
|
01.06.2009, 23:40 | #92 |
Эксперт
Регистрация: 05.03.2008
Сообщений: 1,095
Вес репутации: 249
|
Еще нюанс. Если использовать самообучающуюся нейронную сеть со скрытым слоем, то для определения тематики такая сеть может учитывать не только отдельные слова, например "звездный", "война", но комбинации слов - "зведные войны" (комбинация, указывающая на кино и понижающая такие тематики как астрономия и политика, несмотря на наличие терминов - звездные и война). Однако в нашем случае у такой сети будет несколько тысяч входов и несколько сотен выходов (в упрощенном варианте), синапсов может быть счет на миллионы. Для обучения такой сети мощности домашнего компа явно не хватит. Да и неизвестно сколько нейронов для скрытого слоя использовать - надо экспериментировать, а с учетом того, что каждое обучение может длиться днями...
В общем склоняюсь к тому, что ну его нафик - выявление значимых комбинаций слов. Наверно придется обойтись без этой возможности. А в случае фразы "звездные войны" ведь в тексте наверняка будут еще другие признаки ("кино", "показ" и пр.), по которым текст может быть отнесен не к астрономии и не политике, а к кино, хотя и с меньшей точностью. |
02.06.2009, 00:17 | #93 | |
Специалист
|
Цитата:
Вообщем скрипт готов к бою завтра покажу его на практике в новом посте, чтобы не путать новичков. Каких тематик будет не хватать для тестов - напишите мне в личку. Я дообучу алгоритм. Это не займет много времени. |
|
02.06.2009, 00:28 | #95 |
Специалист
|
Да. Строго по нему. Я напишу под какие тематики она обучена на данный момент.
В локалке у меня прога способна определять тематики для купленных ссылок через xmlrpc sape. Так что ей не нужно будет указывать списки url. Здесь продемонстрирую определитель для конкретного url. Причем каждый пользователь сможет сделать только 10 запросов в сутки для тестов. Так как каждый запрос жрет кучу ресурсов. Под тесты взял сервак 3.2 Ghz, 512mb ram. Надеюсь он выживет. |
02.06.2009, 00:52 | #96 | |
Администратор
Регистрация: 22.11.2006
Сообщений: 5,868
Вес репутации: 21475166
|
Цитата:
очень примитивно, но в первом приближении будет работать иногда верно. лучше почитайте http://www.citforum.ru/pp/search_03.shtml может появятся более здравые мысли |
|
02.06.2009, 01:03 | #97 | |
Специалист
|
Цитата:
|
|
02.06.2009, 03:20 | #98 | ||
Мастер
Регистрация: 03.07.2007
Сообщений: 959
Вес репутации: 267
|
Цитата:
Добавлено через 2 минуты Цитата:
Добавлено через 15 минут ...и, кстати, есть основания полагать, что Яндекс как раз и борется с такой "темой", когда в ответ на запрос в выдаче оказывается страница, если что и содержащая по теме запроса, так разве что похожую на запрос сапоссылку. А любим мы яндекс не только за это... Последний раз редактировалось Константин Белокуров; 02.06.2009 в 03:20. Причина: Добавлено сообщение |
||
|
|
Похожие темы | ||||
Тема | Автор | Раздел | Ответов | Последнее сообщение |
алгоритм определения продажных ссылок | bla-bla-bla | Курилка | 27 | 03.06.2009 11:24 |
Куплю ссылки с сайтов финансовой и бизнес тематики | bizlinki | Деловое сотрудничество | 2 | 20.04.2008 23:49 |
Предложение: скопировать тематики сайтов из ЯК | 9dVSnVN6 | Пожелания пользователей системы | 1 | 24.06.2007 01:11 |
Часовой пояс GMT +3, время: 07:46.