Алгоритм определения тематики сайтов (решение) - Страница 3

Atomic · 29.05.2009, 14:17

ТС, интересно.

А вопросом вычленения тематики из анкоров бэклинков на сайт не интересовались?
А также учет титла и тегов H1..6 ?
Если сложить ваш алгоритм и вышеописанные два момента, думаю, можно поднять достоверность определения тематики ака Яндекс.
Хотелось бы увидеть в действии, коды не нужны, чтобы можно было забить урл и на выходе получить результат.

MasterV · 29.05.2009, 14:21

kotofeich, если честно, то никакого "ноухау" в вашем алгоритме я не увидел. Все, что предложено вами лежит на поверхности. А вся фишка метода заключается в анализе человеком! собранных данных и выставлении коэффициентов империческим! путем.

Путь которым вы пошли годится только для узкотематических сайтов. Таких конечно большинство, но есть довольно большая часть сайтов, тематику которых сможет определить только человек (и то не всегда

). Тошнотностью слов и их весом здесь не обойтись.

Как, к примеру, определится тематика сайта, если на нем публикуются "записки путешественника"? Там на одной странице повествуется как автор охотился на рыб с подводным ружьем (интересное словосочетание, не находите?), на другой, как он варил уху из этих рыб (с кулинарными подробностями), а на третей, как он посетил художественную галерею.
К какой теме отнесет ваш метод такой сайт - охота, подводная охота, кулинария или исскуство?

Как определится тематика для книжных сайтов и библиотек, новостных сайтов и порталов (на которых куча самых разномастных тематик), юмористических сайтов, нетематических досок объявлений, бирж труда, блогов, варез и т.п.?

Я не собираюсь вас разубеждать и говорить, что все это ерунда. Нейронные сети вещь интересная и вашим методом наверняка сможет определиться тематика для 60-70% сайтов, но оставшееся количество, а это сотни тысяч, если не больше, придется определять глазами человека. Как быть с такими сайтами? Отправить лесом? Или нанимать штат "определителей тематики" как в ЯК или Dmoz?

Я думаю, что пока не изобретен исскуственный интеллект, определение тематики с помощью импрических коэффициентов будет давать относительно большую погрешность и слово "решение" в заголовке топика - лишнее.

Хочу пожелать вам удачи в этом нелегком деле и придумать действительно "ноухау".

Al Pacino · 29.05.2009, 14:25

привет, kotofeich, вот честно, не ожидал увидеть здесь такой пост.

Цитата:

Сообщение от kotofeich

Для тех кто хоть что-то понял о том что я сказал - интересно услышать ваши мысли о его эффективности, и возможностях улучшения.

P.S. для определения тематики сайта, а не отдельной страницы легко можно брать ключевики с n страниц

улучшения:
насколько я понял, ты используешь нейронную сет на основе сетей Хопфилда. Если заменить её сетью на основе многослойного персептрона (перцептрона ещё называют), то вероятность правильного распознавания будет выше.

насчёт отбросов слов - по-моему зря слова из 2 букв отбрасываешь и цифры.
Представь, сайт об AK-47. Соответственно релевантность данному запросу наивысокая. Ты заменишь дефис на пробел и отбросишь АК и цифры. Возможна ошибка.
Лучше уж перебери все комбинации из 1-2 букв, если по ASCII брать это 256 в квадрате + 256 - не много.

Цитата:

Сообщение от Последний Герой

подтвердить то подтвердит я думаю
вся работа алгоритма сводится к 2 этапу ч. 3 - это и есть основной алгоритм, который ТС не расписал

Там сводится к разрешения СЛАУ из матрицы весов на матрицу тошноты (в твоём случае). Если знаешь условие совместности системы - всё будет в поряде - процесс решения сходящийся, любой итеративный метод сгодится и потянет.

хотелось бы на досуге узнать насколько коррелируют выходные данные с тестовой последовательностью при небольшой репрезентативности.

PS на досуге может аналог напишу - сравним?

denkart · 29.05.2009, 14:27

Сама идея создания клона алгоритма поисковика интересна и теоретически вроде как реальна.
Есть на мой взгляд некоторое упущение относительно заполнения базы данных, или другими словами обучение скрипта.
База данных должна быть единой для всех пользователей, они ее сами наполнят и сами же будут ей пользоваться, а вот доступ к подобной базе уже можно со временем сделать платным, опять же только после того как она будет наполнена.

В споре рождается истина, а вот сам спор должен быть в одном месте, только тогда можно будет сделать анализ и получить значение наиболее близкое к истине.

Вариант распространение не обученного скрипта мне кажется не жизнеспособен.

Veem · 29.05.2009, 14:34

Я сходным образом определяю тематику в генераторе текста.
Однако, у ТС в алгоритме есть действия, представляющиеся мне в корне ошибочными. Например, "7) Удаляем все слова повторяющиеся менее трех раз (колличество под вопросом).".
Дело в том, что многие тексты содержат специальные слова и словосочетания, однозначно относящие текст к той или иной тематике, но упоминающиеся при этом однократно (своеобразные маркеры).
Их учет позволяет определять и жанр художественного текста, и конкретизировать тематику текста на основе общеупотребительной лексики (я использую дерево тематик ЯК). Это, в свою очередь, дает больший процент соответствия определенной тематики с тематикой ЯК и позволяет гораздо эффективнее (в моем случае) решать задачу генерации или синонимизации текста.

Al Pacino · 29.05.2009, 14:40

Цитата:

Сообщение от Veem

Я сходным образом определяю тематику в генераторе текста.
Однако, у ТС в алгоритме есть действия, представляющиеся мне в корне ошибочными. Например, "7) Удаляем все слова повторяющиеся менее трех раз (колличество под вопросом).".
Дело в том, что многие тексты содержат специальные слова и словосочетания, однозначно относящие текст к той или иной тематике, но упоминающиеся при этом однократно (своеобразные маркеры).
Их учет позволяет определять и жанр художественного текста, и конкретизировать тематику текста на основе общеупотребительной лексики (я использую дерево тематик ЯК). Это, в свою очередь, дает больший процент соответствия определенной тематики с тематикой ЯК и позволяет гораздо эффективнее (в моем случае) решать задачу генерации или синонимизации текста.

согласен.
технически маркеры можно брать на основе данных отпарсеных сайтов.

Veem · 29.05.2009, 15:02

Цитата:

Сообщение от MasterV

Как, к примеру, определится тематика сайта, если на нем публикуются "записки путешественника"? Там на одной странице повествуется как автор охотился на рыб с подводным ружьем (интересное словосочетание, не находите?), на другой, как он варил уху из этих рыб (с кулинарными подробностями), а на третей, как он посетил художественную галерею.
К какой теме отнесет ваш метод такой сайт - охота, подводная охота, кулинария или исскуство?

Не вижу проблем. Есть несколько вариантов.
Например, можно брать некий объем текста из раздела/страницы сайта, определять его тематику. Брать другой раздел, определять его тематику (собственно, до посинения). Затем выбрать на дереве тематику, в которую входят все определенные тематики. Почти наверняка в данном случае это будет тематика "блоги", а не "путешествия". Что, по сути, правильно - в ЯК такие сайты висят, в основном, в блогах.
Метод легко расширяется (этот момент, кстати, ТС также не учитывает в своем алгоритме) через определение не одной, а нескольких тематик для каждого куска текста. Получим для вашего примера что-то типа "путешествия; кулинария; блоги", "охота; путешествия; биология", "искусство; путешествия; блоги". Очевидно, что для верного определения тематики осталось сделать совсем немного.

Йода · 29.05.2009, 15:07

Вот адын умный и очень странный дядька чего сделал:

Цитата:

взято отседова: http://msado.livejournal.com/1738249...age=1#comments

заметки про альтернативный поиск
на киборифе мы в частности делали докладик про то, как может быть устроен альтернативный поиск. на примере собственной разработки как обычно. как любой человек, выступащий регулярно, я, как понятно, сидел на месте и подпрыгивал , мол вот тут я сказал бы по-другому, вот тут подал бы иначе, это обычное дело.

Вот есть немного времени, расскажу, что собственно наваялось, глядишь кому интерено будет.

Вообще говоря, делали мы вовсе не поиск. Делали мы другое и то что делали в общем имеет степень готовности существенно более высокую чем поиск. Делали ту самую пресловутую неонку из стругацких. Пониматель.

Как оно устроено. У нас есть технология, которая преобразует википедию в таксонометрию. Если по-русски - в иерархические структуры понятий. Нет, это не тезариусы, это таксонометрии. Таксонометрии создают некоторую "матрицу понятий". Причем одно понятие, это упаси бог не слово, да?

Дальше, к данной матрице понятий мы делаем следующий механизм, который умеет соотносить текст, полученный им на входе и непосредственно матрицу, и выдать ворох гипотез, в какое место человеческих знаний можно отнести этот текст. Потом эти гипотезы проверяются на взаимоподтверждение и на основании этого реультата выделяются лидеры, и которых мы строим шкалу отношения.

На сегодня мы опираемся на матрицу, составленную из 32 тысяч реперных точек, можно их навать условно категориями и подкатегориями.

Как это работает на практике?

На практике вы можете загрузить в систему некоторый текст и система скажет вам, что это текст про медицину, и немного про химию. Причем это популярный текст про медицину и научный текст про химию. Так оно оценит газетную статью про новый препарат в котором будет приведена обширная цитата из документации по химпроизводству этого препарата. Так же система может на выхде подсветить какие части документа про медицину, какие про химию, а какие ни про что, то бишь треп и подводка.

Или

Вы можете загрузить в систему гору прессы и попросить разложить ее по странам. Система будет относить к России или там к Франции тексты, не имеющие в своем составе указания на страну, но имеющие указания на географическую привязку, относящуюся к стране. То бишь упоминание краснодарска или Голодрищенска достаточно, чтобы новость была отнесена к Российским.

Там есть еще всякие занятные вещи, типа "вот тебе текст, найди мне еще про это же" и всякое такое.

Довольно любопытные результаты система показывает на массиве текстов, которые невозможно в подавляющем большинстве отнести к ярковыраженной тематике. Это, как понятно, блоги, поток выдачи ЖЖ - это было практически первое, чем мы озаботились. 92% - это тексты условно не о чем, вернее из них сложно выделить классифицируемую составляющую. Однако и тут нам нашлось интересное, пусть в жж-шных постах мало конкретики, зато у разных групп блоггеров есть устойчивый язык. За несколько дней мы научили систему различать эмо, готов, падонкав и еще кого-то. Много не возились, в основном проверяли сможем ли в принципе. Смогли.

Поехали дальше.

Поразмыслив на тему написанного мы осознали, что по сути сделали до кучи и поисковую систему, но систему работающую в существенно другом режиме, чем существующие.

Систему, которая ищет по понятиям. :-)

Как оно устроено в чистом виде?

Берем запрос пользователя и ищем его в матрице. После того как оно найдено N раз в матрице, выдаем листинг документов, отнесенных к этому месту матрицы + дополняем его навигацией по матрице-же.

Это конечно же существенно отличается от того, чтобы взять слово и искать в индексе само слово + тезариус к нему. Особенно когда в запросе несколько слов. И тут надо сделать два бодрых пассажа в сторону.

1. То что мы сделали НЕ СЕМАНТИКА. Более того, то что мы сделали демонстрирует, что семантика как таковая - тупиковая ветка развития смыслоанализа. Пример Ашманова про тезариус как раз подчеркивает, что пока мы остаемся в поиске в пространстве слов, а не смыслов, то любое усложнение набора уводит вас в глубокую жопу. Мы не работаем со словами, мы работаем со смыслами и, некоторым образом, со структурой знаний. Ага, они выражены в словах. Мы в курсе.

Это в частности объясняет, почему в анализе не используется частотный анализ. Нам не важно, сколько раз будет сказано слово "халва". Хоть один, хоть сто, текст от этого не станет более сладким. А вот упоминание соотнесенных с халвой слов и понятий, например про еду, про восток, про арахис, про вкус и проч - будут делать текст более "халвосообразным".

2. Основной фокус того что мы сделали лежит вне идеи "задай вопрос, получи ответ". Ну то есть эта идея лишь малая часть того, о чем мы думали. Мы же думали в первую очередь о ПРАКТИКЕ использования поисковой системы. А сейчас практика такова, что человек ткнувшийся в поиск первый раз и не получивший сразу необходимое оказывается "выброшен" из системы. Он может смотреть на выдачу и изобретать, как бы видоизменить запрос, чтобы получить что-то более подходящее в результатах, он пробует, снова и снова, а система в целом рассматривает его каждый новый запрос как новый.

Нет никакого шанса, что если вы спросите наш поиск чтото типа "кошка" - и он выдаст вам чудом именно то, что вы хотели получить. Потому что система - не телепат.

НО

Зато рядом с двумя миллионами найденных документов у вас будет висеть классификатор по которому вы сможете сразу уточнить, что под кошкой имеете ввиду животное, а не специяльный крюк, а потом оно вам предложит определиться будем мы читать про кошачих всякую зоологичекую ***ню, что-то там кошководческое или про кошек вообще тексты. + вероятнее всего предложит кассификатор пород.

Да, чем больше слов будет в запросе, тем лучше будет выдача.

НО

Да, в чистом виде это не позволит вам, например, найти конкретный документ в котором как вы точно помните было написано "я напишу тебе письмо, простое, но со смыслом". То есть поиск по понятиям, вообще говоря, не тождественен поиску по словам. Он не то чтобы точно лучше, он немного про другое.

Вот как-то так.

Что можно сделать из этой штуки?

Ну сам поиск, наверное мы его постепенно и сделаем, но это конечно существенно много работы, в том виде, как оно есть сейчас оно недотягивает.
Потом всякие автоматические классификаторы. Если у вас есть вагон контента, то мы можем его автоматически разкладывать на туеву хучу категорий. Можно своих, а можно приводить к вашему рубрикатору. Особенно занятно должно былть для СМИ, мы например различаем происшествие вообще, ДТП и ДТП со смертельным исходом. Это по глубине классификации, чтобы вы понимали. Библиотеки можно проструктурировать итп.
Потом можно делать сильно нелинейные вещи, которые изначально были за границами наших интересов. Например динамические семантические поля по тематикам. Да, динамические. Да, по 32 тысячам уже определенных тематик. Да, автоматом ;-). Наверное дальше будет больше, потому что инструменту в целом пофиг откуда жрать таксономии, лишь бы была структурно описана площадка анализа.

Ну и любимый вопрос всех-превсех. А где можно поюзать и посмотреть? Ответ простой: всем-вообще-всем - нигде. Ребята, оно живет на одном сервачке, на нем же строит матрицированный индекс, под нагрузку сотен любопытных экспериментаторов оно не расчитано. Если у вас есть как-то структурированный интерес к системе и вы можете объяснить зачем оно вам - напишите, мы дадим доступ. Остальным придется ждать, пока мы слегка заработаем денег на то, чтобы сделать из этого публичный сервис. пока же оно способно обслуживать только b-t-b сектор. Ну или у нас купят продукт на базе технологии. Итп.

Veem · 29.05.2009, 15:09

Цитата:

Сообщение от Atomic

А вопросом вычленения тематики из анкоров бэклинков на сайт не интересовались?
А также учет титла и тегов H1..6 ?
Если сложить ваш алгоритм и вышеописанные два момента, думаю, можно поднять достоверность определения тематики ака Яндекс.
Хотелось бы увидеть в действии, коды не нужны, чтобы можно было забить урл и на выходе получить результат.

С беклинками сложность в том, что их еще надо откуда-то автоматически получать. При этом, если они естественные, то основной анкор будет чем-то вроде "тут", "ссылка", "урл сайта". Если они не совсем естественные, то дополнительной информации они практически не несут.
Похожая фигня с титлами и тегами - мало того, что на сайтах вебмастеров, далеких от СЕО, в титлах зачастую полная фигня, а тегов заголовков вообще может не быть. Но и там, где сайт сделан для людей, а не для ПС, в заголовках тоже все чаще встречаются вещи типа "Глава 1", "[Название раздела]" и т.п. Т.е., опять же, дополнительной информации такие вещи не несут.
Тем не менее, есть резон учитывать анкоры внутренних ссылок сайта, отбрасывая из них всякую ересь типа "следующая страница" и оставляя только тематические слова. Но это очень сильно грузит машины, игра в итоге не стоит свеч.
Это, разумеется, касается моей реализации определения тематики, а не реализации ТС. Надеюсь, сам автор темы не посчитает мои сообщения флудом

Йода · 29.05.2009, 15:10

Цитата:

Сообщение от WebFX

Насколько мне известно, это скрипт. Ставишь денвер - и "погнали наши городских"

В принцыпе можно и так. Если на cpp переписать пулять будет быстрее.. пхп под апачем - не лучшая платформа для массовой обработки текста, имхо..

29.05.2009, 14:17	#21
Atomic Починяю примуса Регистрация: 26.09.2008 Сообщений: 1,505 Вес репутации: 285	ТС, интересно. А вопросом вычленения тематики из анкоров бэклинков на сайт не интересовались? А также учет титла и тегов H1..6 ? Если сложить ваш алгоритм и вышеописанные два момента, думаю, можно поднять достоверность определения тематики ака Яндекс. Хотелось бы увидеть в действии, коды не нужны, чтобы можно было забить урл и на выходе получить результат. __________________ Починяю разнокалиберные примуса здесь.

29.05.2009, 14:21	#22
MasterV Специалист Регистрация: 30.08.2008 Сообщений: 336 Вес репутации: 210	kotofeich, если честно, то никакого "ноухау" в вашем алгоритме я не увидел. Все, что предложено вами лежит на поверхности. А вся фишка метода заключается в анализе человеком! собранных данных и выставлении коэффициентов империческим! путем. Путь которым вы пошли годится только для узкотематических сайтов. Таких конечно большинство, но есть довольно большая часть сайтов, тематику которых сможет определить только человек (и то не всегда). Тошнотностью слов и их весом здесь не обойтись. Как, к примеру, определится тематика сайта, если на нем публикуются "записки путешественника"? Там на одной странице повествуется как автор охотился на рыб с подводным ружьем (интересное словосочетание, не находите?), на другой, как он варил уху из этих рыб (с кулинарными подробностями), а на третей, как он посетил художественную галерею. К какой теме отнесет ваш метод такой сайт - охота, подводная охота, кулинария или исскуство? Как определится тематика для книжных сайтов и библиотек, новостных сайтов и порталов (на которых куча самых разномастных тематик), юмористических сайтов, нетематических досок объявлений, бирж труда, блогов, варез и т.п.? Я не собираюсь вас разубеждать и говорить, что все это ерунда. Нейронные сети вещь интересная и вашим методом наверняка сможет определиться тематика для 60-70% сайтов, но оставшееся количество, а это сотни тысяч, если не больше, придется определять глазами человека. Как быть с такими сайтами? Отправить лесом? Или нанимать штат "определителей тематики" как в ЯК или Dmoz? Я думаю, что пока не изобретен исскуственный интеллект, определение тематики с помощью импрических коэффициентов будет давать относительно большую погрешность и слово "решение" в заголовке топика - лишнее. Хочу пожелать вам удачи в этом нелегком деле и придумать действительно "ноухау". __________________ Все, что не происходит - к лучшему!

29.05.2009, 14:34	#25
Veem Э̀҉к͜с͜͏п̧́е͟р̶т̧̕ Регистрация: 11.04.2008 Адрес: Маськва Сообщений: 1,996 Вес репутации: 318	Я сходным образом определяю тематику в генераторе текста. Однако, у ТС в алгоритме есть действия, представляющиеся мне в корне ошибочными. Например, "7) Удаляем все слова повторяющиеся менее трех раз (колличество под вопросом).". Дело в том, что многие тексты содержат специальные слова и словосочетания, однозначно относящие текст к той или иной тематике, но упоминающиеся при этом однократно (своеобразные маркеры). Их учет позволяет определять и жанр художественного текста, и конкретизировать тематику текста на основе общеупотребительной лексики (я использую дерево тематик ЯК). Это, в свою очередь, дает больший процент соответствия определенной тематики с тематикой ЯК и позволяет гораздо эффективнее (в моем случае) решать задачу генерации или синонимизации текста. __________________ Все мои сайты живут на этом хостинге с 2006 года. Ого, уже больше 10 лет.

Похожие темы
Тема	Автор	Раздел	Ответов	Последнее сообщение
алгоритм определения продажных ссылок	bla-bla-bla	Курилка	27	03.06.2009 11:24
Куплю ссылки с сайтов финансовой и бизнес тематики	bizlinki	Деловое сотрудничество	2	20.04.2008 23:49
Предложение: скопировать тематики сайтов из ЯК	9dVSnVN6	Пожелания пользователей системы	1	24.06.2007 01:11

29.05.2009, 14:27	#24
denkart Специалист Регистрация: 29.03.2009 Адрес: denkart Сообщений: 179 Вес репутации: 190	Сама идея создания клона алгоритма поисковика интересна и теоретически вроде как реальна. Есть на мой взгляд некоторое упущение относительно заполнения базы данных, или другими словами обучение скрипта. База данных должна быть единой для всех пользователей, они ее сами наполнят и сами же будут ей пользоваться, а вот доступ к подобной базе уже можно со временем сделать платным, опять же только после того как она будет наполнена. В споре рождается истина, а вот сам спор должен быть в одном месте, только тогда можно будет сделать анализ и получить значение наиболее близкое к истине. Вариант распространение не обученного скрипта мне кажется не жизнеспособен.