29.05.2009, 14:17 | #21 |
Починяю примуса
Регистрация: 26.09.2008
Сообщений: 1,505
Вес репутации: 285
|
ТС, интересно.
А вопросом вычленения тематики из анкоров бэклинков на сайт не интересовались? А также учет титла и тегов H1..6 ? Если сложить ваш алгоритм и вышеописанные два момента, думаю, можно поднять достоверность определения тематики ака Яндекс. Хотелось бы увидеть в действии, коды не нужны, чтобы можно было забить урл и на выходе получить результат.
__________________
|
29.05.2009, 14:21 | #22 |
Специалист
Регистрация: 30.08.2008
Сообщений: 336
Вес репутации: 210
|
kotofeich, если честно, то никакого "ноухау" в вашем алгоритме я не увидел. Все, что предложено вами лежит на поверхности. А вся фишка метода заключается в анализе человеком! собранных данных и выставлении коэффициентов империческим! путем.
Путь которым вы пошли годится только для узкотематических сайтов. Таких конечно большинство, но есть довольно большая часть сайтов, тематику которых сможет определить только человек (и то не всегда). Тошнотностью слов и их весом здесь не обойтись. Как, к примеру, определится тематика сайта, если на нем публикуются "записки путешественника"? Там на одной странице повествуется как автор охотился на рыб с подводным ружьем (интересное словосочетание, не находите?), на другой, как он варил уху из этих рыб (с кулинарными подробностями), а на третей, как он посетил художественную галерею. К какой теме отнесет ваш метод такой сайт - охота, подводная охота, кулинария или исскуство? Как определится тематика для книжных сайтов и библиотек, новостных сайтов и порталов (на которых куча самых разномастных тематик), юмористических сайтов, нетематических досок объявлений, бирж труда, блогов, варез и т.п.? Я не собираюсь вас разубеждать и говорить, что все это ерунда. Нейронные сети вещь интересная и вашим методом наверняка сможет определиться тематика для 60-70% сайтов, но оставшееся количество, а это сотни тысяч, если не больше, придется определять глазами человека. Как быть с такими сайтами? Отправить лесом? Или нанимать штат "определителей тематики" как в ЯК или Dmoz? Я думаю, что пока не изобретен исскуственный интеллект, определение тематики с помощью импрических коэффициентов будет давать относительно большую погрешность и слово "решение" в заголовке топика - лишнее. Хочу пожелать вам удачи в этом нелегком деле и придумать действительно "ноухау".
__________________
|
29.05.2009, 14:25 | #23 | ||
Эксперт
Регистрация: 09.05.2008
Адрес: ПГ
Сообщений: 1,704
Вес репутации: 0
|
привет, kotofeich, вот честно, не ожидал увидеть здесь такой пост.
Цитата:
насколько я понял, ты используешь нейронную сет на основе сетей Хопфилда. Если заменить её сетью на основе многослойного персептрона (перцептрона ещё называют), то вероятность правильного распознавания будет выше. насчёт отбросов слов - по-моему зря слова из 2 букв отбрасываешь и цифры. Представь, сайт об AK-47. Соответственно релевантность данному запросу наивысокая. Ты заменишь дефис на пробел и отбросишь АК и цифры. Возможна ошибка. Лучше уж перебери все комбинации из 1-2 букв, если по ASCII брать это 256 в квадрате + 256 - не много. Цитата:
хотелось бы на досуге узнать насколько коррелируют выходные данные с тестовой последовательностью при небольшой репрезентативности. PS на досуге может аналог напишу - сравним?
__________________
Последний раз редактировалось Al Pacino; 29.05.2009 в 14:30. |
||
29.05.2009, 14:27 | #24 |
Специалист
|
Сама идея создания клона алгоритма поисковика интересна и теоретически вроде как реальна.
Есть на мой взгляд некоторое упущение относительно заполнения базы данных, или другими словами обучение скрипта. База данных должна быть единой для всех пользователей, они ее сами наполнят и сами же будут ей пользоваться, а вот доступ к подобной базе уже можно со временем сделать платным, опять же только после того как она будет наполнена. В споре рождается истина, а вот сам спор должен быть в одном месте, только тогда можно будет сделать анализ и получить значение наиболее близкое к истине. Вариант распространение не обученного скрипта мне кажется не жизнеспособен. |
29.05.2009, 14:34 | #25 |
Э̀҉к͜с͜͏п̧́е͟р̶т̧̕
Регистрация: 11.04.2008
Адрес: Маськва
Сообщений: 1,996
Вес репутации: 318
|
Я сходным образом определяю тематику в генераторе текста.
Однако, у ТС в алгоритме есть действия, представляющиеся мне в корне ошибочными. Например, "7) Удаляем все слова повторяющиеся менее трех раз (колличество под вопросом).". Дело в том, что многие тексты содержат специальные слова и словосочетания, однозначно относящие текст к той или иной тематике, но упоминающиеся при этом однократно (своеобразные маркеры). Их учет позволяет определять и жанр художественного текста, и конкретизировать тематику текста на основе общеупотребительной лексики (я использую дерево тематик ЯК). Это, в свою очередь, дает больший процент соответствия определенной тематики с тематикой ЯК и позволяет гораздо эффективнее (в моем случае) решать задачу генерации или синонимизации текста.
__________________
|
29.05.2009, 14:40 | #26 | |
Эксперт
Регистрация: 09.05.2008
Адрес: ПГ
Сообщений: 1,704
Вес репутации: 0
|
Цитата:
технически маркеры можно брать на основе данных отпарсеных сайтов.
__________________
|
|
29.05.2009, 15:02 | #27 | |
Э̀҉к͜с͜͏п̧́е͟р̶т̧̕
Регистрация: 11.04.2008
Адрес: Маськва
Сообщений: 1,996
Вес репутации: 318
|
Цитата:
Например, можно брать некий объем текста из раздела/страницы сайта, определять его тематику. Брать другой раздел, определять его тематику (собственно, до посинения). Затем выбрать на дереве тематику, в которую входят все определенные тематики. Почти наверняка в данном случае это будет тематика "блоги", а не "путешествия". Что, по сути, правильно - в ЯК такие сайты висят, в основном, в блогах. Метод легко расширяется (этот момент, кстати, ТС также не учитывает в своем алгоритме) через определение не одной, а нескольких тематик для каждого куска текста. Получим для вашего примера что-то типа "путешествия; кулинария; блоги", "охота; путешествия; биология", "искусство; путешествия; блоги". Очевидно, что для верного определения тематики осталось сделать совсем немного.
__________________
|
|
29.05.2009, 15:07 | #28 | |
Магистр
Регистрация: 04.12.2007
Сообщений: 3,680
Вес репутации: 416
|
Вот адын умный и очень странный дядька чего сделал:
Цитата:
__________________
|
|
29.05.2009, 15:09 | #29 | |
Э̀҉к͜с͜͏п̧́е͟р̶т̧̕
Регистрация: 11.04.2008
Адрес: Маськва
Сообщений: 1,996
Вес репутации: 318
|
Цитата:
Похожая фигня с титлами и тегами - мало того, что на сайтах вебмастеров, далеких от СЕО, в титлах зачастую полная фигня, а тегов заголовков вообще может не быть. Но и там, где сайт сделан для людей, а не для ПС, в заголовках тоже все чаще встречаются вещи типа "Глава 1", "[Название раздела]" и т.п. Т.е., опять же, дополнительной информации такие вещи не несут. Тем не менее, есть резон учитывать анкоры внутренних ссылок сайта, отбрасывая из них всякую ересь типа "следующая страница" и оставляя только тематические слова. Но это очень сильно грузит машины, игра в итоге не стоит свеч. Это, разумеется, касается моей реализации определения тематики, а не реализации ТС. Надеюсь, сам автор темы не посчитает мои сообщения флудом
__________________
|
|
29.05.2009, 15:10 | #30 |
Магистр
Регистрация: 04.12.2007
Сообщений: 3,680
Вес репутации: 416
|
В принцыпе можно и так. Если на cpp переписать пулять будет быстрее.. пхп под апачем - не лучшая платформа для массовой обработки текста, имхо..
__________________
|
|
|
Похожие темы | ||||
Тема | Автор | Раздел | Ответов | Последнее сообщение |
алгоритм определения продажных ссылок | bla-bla-bla | Курилка | 27 | 03.06.2009 11:24 |
Куплю ссылки с сайтов финансовой и бизнес тематики | bizlinki | Деловое сотрудничество | 2 | 20.04.2008 23:49 |
Предложение: скопировать тематики сайтов из ЯК | 9dVSnVN6 | Пожелания пользователей системы | 1 | 24.06.2007 01:11 |
Часовой пояс GMT +3, время: 21:39.