Старый 03.08.2009, 19:52   #11
Эксперт
 
Регистрация: 05.03.2008
Сообщений: 1,095
Вес репутации: 248
boric - прекрасное будущееboric - прекрасное будущееboric - прекрасное будущееboric - прекрасное будущееboric - прекрасное будущееboric - прекрасное будущееboric - прекрасное будущееboric - прекрасное будущееboric - прекрасное будущееboric - прекрасное будущееboric - прекрасное будущее
По умолчанию

anyhow
Цитата:
это больше похоже на признаки внедрения искуственного интеллекта в алгоритм яндекса
Нет недостатка в очень хороших алгоритмах ИИ, с помощью которых можно отличить ГС от СДЛ, продажные ссылки от непродажных и пр. Проблема в другом - в том, что большинство из этих алгоритмов очень ресурсоемки и не годятся для анализа миллиардов страниц. Приходится идти обходными путями, используя в основном примитивные, но быстрые алгоритмы.
boric вне форума   Ответить с цитированием
Старый 03.08.2009, 19:54   #12
Магистр
 
Аватар для Йода
 
Регистрация: 04.12.2007
Сообщений: 3,679
Вес репутации: 415
Йода - прекрасное будущееЙода - прекрасное будущееЙода - прекрасное будущееЙода - прекрасное будущееЙода - прекрасное будущееЙода - прекрасное будущееЙода - прекрасное будущееЙода - прекрасное будущееЙода - прекрасное будущееЙода - прекрасное будущееЙода - прекрасное будущее
По умолчанию

Цитата:
Сообщение от boric Посмотреть сообщение
Другой вариант - сравнивать тексты по морфологическим схемам падежей, родов, чисел
Да, вот это очень жизненно звучит, согласен.
Вот только это наверное не менее трудоемко, нежели шинглы считать..
А значит применимо только к ограниченному пулу сайтов- либо по абузе, либо по показаниям какихто других датчиков..
__________________
С уважением, Йода
Йода вне форума   Ответить с цитированием
Старый 03.08.2009, 19:58   #13
Эксперт
 
Регистрация: 05.03.2008
Сообщений: 1,095
Вес репутации: 248
boric - прекрасное будущееboric - прекрасное будущееboric - прекрасное будущееboric - прекрасное будущееboric - прекрасное будущееboric - прекрасное будущееboric - прекрасное будущееboric - прекрасное будущееboric - прекрасное будущееboric - прекрасное будущееboric - прекрасное будущее
По умолчанию

Цитата:
Сообщение от Йода Посмотреть сообщение
На мой взглад, это то, что если и приходит сразу в голову, то сразу из нее и выходит. Потомучто этот путь- он конечно идеален- каждое уникальное знание будет представлено в индексе только один раз. Но у нас пока до этого не дошло. Пока всетаки яндекс оперирует текстами, а не знаниями. А раз так, то тексты

и

будут считаться разными, несмотря на то, что и содержут одинаковое знание.
Значит всетаки вы неправы насчет того что синонимии яндексом убираются.
Имхо.
Но согласитесь, что не составляет труда определить тождественность морфологических (так скажем) схем в этих двух фразах. Главное, что это сделать несложно и нересурсоемко. А уж как использовать эти данные и использовать ли вообще - это другой вопрос. Вероятно один из весовых коэффициентов яндекса этим и заведует, только какой вес имеет неизвестно.
boric вне форума   Ответить с цитированием
Старый 03.08.2009, 19:59   #14
Магистр
 
Аватар для Йода
 
Регистрация: 04.12.2007
Сообщений: 3,679
Вес репутации: 415
Йода - прекрасное будущееЙода - прекрасное будущееЙода - прекрасное будущееЙода - прекрасное будущееЙода - прекрасное будущееЙода - прекрасное будущееЙода - прекрасное будущееЙода - прекрасное будущееЙода - прекрасное будущееЙода - прекрасное будущееЙода - прекрасное будущее
По умолчанию

Цитата:
Сообщение от boric Посмотреть сообщение
Но согласитесь, что не составляет труда определить тождественность морфологических (так скажем) схем в этих двух фразах. Главное, что это сделать несложно и нересурсоемко. А уж как использовать эти данные и использовать ли вообще - это другой вопрос. Вероятно один из весовых коэффициентов яндекса этим и заведует, только какой вес имеет неизвестно.
Насчет ресурсоемкости не уверен- надо считать.. А так - да, согласен, естессн..
__________________
С уважением, Йода
Йода вне форума   Ответить с цитированием
Старый 03.08.2009, 20:02   #15
Администратор
 
Регистрация: 22.11.2006
Сообщений: 5,868
Вес репутации: 21475165
Avelon - репутация неоспоримаAvelon - репутация неоспоримаAvelon - репутация неоспоримаAvelon - репутация неоспоримаAvelon - репутация неоспоримаAvelon - репутация неоспоримаAvelon - репутация неоспоримаAvelon - репутация неоспоримаAvelon - репутация неоспоримаAvelon - репутация неоспоримаAvelon - репутация неоспорима
По умолчанию

насколько я знаю, метод шинглов - всего лишь один из первичных методов определения копии. Яндекс использует и другие методы, - действительно, если просто заменить 1 слово в предложении на синоним - это не даст практически ничего.
Avelon вне форума   Ответить с цитированием
Старый 03.08.2009, 20:03   #16
Эксперт
 
Регистрация: 05.03.2008
Сообщений: 1,095
Вес репутации: 248
boric - прекрасное будущееboric - прекрасное будущееboric - прекрасное будущееboric - прекрасное будущееboric - прекрасное будущееboric - прекрасное будущееboric - прекрасное будущееboric - прекрасное будущееboric - прекрасное будущееboric - прекрасное будущееboric - прекрасное будущее
По умолчанию

Йода
Цитата:
Вот только это наверное не менее трудоемко, нежели шинглы считать..
Я думаю, эта информация уже есть, т.к. является побочным элементом морфологического и синтаксического анализа. Определить падеж сложнее, чем исходную словоформу, но при наличии статистических данных (а они у яши есть) это уже не сложно. Вот полноценный семантический (смыслово) анализ произвести имхо уже практически невозможно, думаю, в принципе невозможно (без упрощений).
boric вне форума   Ответить с цитированием
Старый 03.08.2009, 20:11   #17
Магистр
 
Аватар для Йода
 
Регистрация: 04.12.2007
Сообщений: 3,679
Вес репутации: 415
Йода - прекрасное будущееЙода - прекрасное будущееЙода - прекрасное будущееЙода - прекрасное будущееЙода - прекрасное будущееЙода - прекрасное будущееЙода - прекрасное будущееЙода - прекрасное будущееЙода - прекрасное будущееЙода - прекрасное будущееЙода - прекрасное будущее
По умолчанию

Цитата:
Сообщение от boric Посмотреть сообщение
при наличии статистических данных
Да уж. На что-что, но на отсутствие статистики Яндексу жаловацца грех..
__________________
С уважением, Йода
Йода вне форума   Ответить с цитированием
Старый 03.08.2009, 20:57   #18
Специалист
 
Регистрация: 10.05.2009
Сообщений: 102
Вес репутации: 184
chixpix на пути к лучшему
По умолчанию

квантовые компьютеры убьют гсы, школьники в панике
chixpix вне форума   Ответить с цитированием
Старый 03.08.2009, 21:09   #19
Новичок
 
Регистрация: 27.03.2009
Сообщений: 11
Вес репутации: 0
anyhow может только надеяться на улучшение
По умолчанию

тогда и ручной рерайт может быть засчитан яндексом как синонимизация. Сейчас в интернете нету единого стандарта морфологии, синтаксиса и т.п. С каждым днем проявляются новый слова и словосочетания. Если 10 лет назад раньше так ни кто не сказал бы, то сейчас в интернете уже входит в повседневное общение на форумах и чатах. Уже не считая сколько слов-паразитов и иностранных слов можно найти. Для яндекса может быть слова "большой и огромный синонимами" а в базе слов считаться синонимами "большой,здоровый, великан". Проще говоря сейчас в текстах нету алгоритма и логики понятной для компьютера если конечно не пишет филолог строго соблюдающий правила.
anyhow вне форума   Ответить с цитированием
Старый 03.08.2009, 21:14   #20
Banned
 
Регистрация: 30.07.2009
Сообщений: 33
Вес репутации: 0
5454158 скоро станет известен
По умолчанию

чего стоит тока "албанский" )))
5454158 вне форума   Ответить с цитированием
Ответ

Опции темы

Ваши права в разделе
Вы не можете создавать новые темы
Вы не можете отвечать в темах
Вы не можете прикреплять вложения
Вы не можете редактировать свои сообщения

BB коды Вкл.
Смайлы Вкл.
[IMG] код Вкл.
HTML код Выкл.

Быстрый переход

Похожие темы
Тема Автор Раздел Ответов Последнее сообщение
Сайты вылетели из индекса. mark666 Яндекс 5 31.07.2009 10:10
Почему не снимает ссылки на сайтах вне индекса Студент Вопросы по работе системы 3 13.07.2009 17:58
Сайт почти весь выпал из индекса и сразу же слетели ссылки в эрор, почему? Rochester Ошибки при работе с системой 8 02.06.2009 15:49
90% страниц у всех сайтов вылетели из индекса Самыч Яндекс 61 30.03.2009 08:13
Страницы вылетели из индекса... Не понял юмора Praetorian Яндекс 9 01.02.2009 15:17


Часовой пояс GMT +3, время: 11:50.