Цитата:
Сообщение от boric
(Сообщение 523017)
Это же все очевидно и решение лежит на поверхности. Как при морфологическом анализе словоформа приводится к исходной форме (лемме) и заносится в индекс, так и с синонимами можно поступить также - словоформу привести к исходной форме, а потом ее по словарю синонимов привести, например, к первому слову в строке синонимов. Другой вариант - сравнивать тексты по морфологическим схемам падежей, родов, чисел (мн., ед.) и пр. Если эта структура сильно совпадает для двух текствов, то велика вероятность, что и сами тексты идентичны. Это то, что сразу в голову приходит.
|
На мой взглад, это то, что если и приходит сразу в голову, то сразу из нее и выходит. Потомучто этот путь- он конечно идеален- каждое уникальное знание будет представлено в индексе только один раз. Но у нас пока до этого не дошло. Пока всетаки яндекс оперирует текстами, а не знаниями. А раз так, то тексты
и
Цитата:
по шоссе мчался армейский бронированный джип
|
будут считаться разными, несмотря на то, что и содержут одинаковое знание.
Значит всетаки вы неправы насчет того что синонимии яндексом убираются.
Имхо.
:)
|