Форум SAPE.RU

Форум SAPE.RU (http://forum.sape.ru/index.php)
-   Яндекс (http://forum.sape.ru/forumdisplay.php?f=16)
-   -   Синонимизация размышления о перспективах (http://forum.sape.ru/showthread.php?t=41627)

treningdom 15.11.2009 06:27

Синонимизация размышления о перспективах
 
Хотел услышать мнение профессионалов в ответ на мои вольные размышления не тему...

1) Синонимизированные статьи с натяжкой можно назвать текстом для людей, много косяков даже если использовать хорошие проги и базы. Так?

2) Технически в принципе возможно сделать алгоритм который определяет что текст Синонимизирован. Так?

3) Пока Яндекс далеко не всегда просекает Синонимизированные тексты, вероятно потому что на это нужны дополнительные вычислительные мощьности и доработка алогоритма который адекватно будет палить.

5) В обозримом будущем можно ожидать от поисковиков появления более совершенных алгоритмов соответственно большая часть синонимизированных текстов будет пропалена и к сайтам на которых такие тексты находятся будут применяться фильтры и санкции.

Общий вывод: использование на сайте даже небольшого количества Синонимизированного контента чревато последствиями в ближайшем будушем когда алгоритмы распознования станут более совершенными...

Администрация 6-ой палаты 15.11.2009 06:52

Цитата:

Сообщение от treningdom (Сообщение 622252)
Хотел услышать мнение профессионалов

профессионалы не занимаются синонимайзингом :)

1) И так и не так, если своя база, то можно сделать текст максимально читабельным, но вот я писал свою базу, а потом забил, потому что писать пришлось бы лет эдак 15
2) Ну копискейп видит плагиат синонимизированный, значит технологию сделать реально
3) Ему нужен искусственный мозг
4) ?...
5) Мне кажется, что УЖЕ применяются такие фильтры


Цитата:

Сообщение от treningdom (Сообщение 622252)
Общий вывод: использование на сайте даже небольшого количества Синонимизированного контента чревато последствиями в ближайшем будушем когда алгоритмы распознования станут более совершенными...

если синонимизировать так, как делает сейчас большинство - то да
если же делать свою базу, где будут учтены все нюансы или хотя бы большинство, то все будет нормально. а подозрительные слова в предложениях глазами яндекса буду восприниматься как опечатки

factor213 15.11.2009 07:00

Цитата:

Сообщение от treningdom (Сообщение 622252)
1) Синонимизированные статьи с натяжкой можно назвать текстом для людей, много косяков даже если использовать хорошие проги и базы. Так?

Нет, если хорошая база - текст получается вполне читабельным, но не всегда бывает хороший процент замен


Цитата:

Сообщение от treningdom (Сообщение 622252)
2) Технически в принципе возможно сделать алгоритм который определяет что текст Синонимизирован. Так?

Ничего сложного в создании такого алгоритма нет, и знаменитый АГС-17 имеет в в своем составе чтото типа этого, правда работает он коряво


Цитата:

Сообщение от treningdom (Сообщение 622252)
3) Пока Яндекс далеко не всегда просекает Синонимизированные тексты, вероятно потому что на это нужны дополнительные вычислительные мощьности и доработка алогоритма который адекватно будет палить.

Думаю дело не столько в мощностях, сколько в корявости этого алгоритма


Цитата:

Сообщение от treningdom (Сообщение 622252)
5) В обозримом будущем можно ожидать от поисковиков появления более совершенных алгоритмов соответственно большая часть синонимизированных текстов будет пропалена и к сайтам на которых такие тексты находятся будут применяться фильтры и санкции.

Уже применяются


Цитата:

Сообщение от treningdom (Сообщение 622252)
Общий вывод: использование на сайте даже небольшого количества Синонимизированного контента чревато последствиями в ближайшем будушем когда алгоритмы распознования станут более совершенными...

Если не большое количество - то думаю не факт, что последует наказание


Пока писал - меня опередили :))

timp 16.11.2009 20:53

treningdom, отличный вопрос Вы подняли, мне кажется весьма злободневный.

Сугубо ИМХО:
1. Синонимизированный текст может быть вполне читаемым, другой вопрос что он почти всегда создан для поисковых роботов. Поэтому особого какая разница, читаем ли он, главное чтобы не выпадал из индекса. А вот с этим то как раз сейчас проблемы.
2,3. Опять же, сугубо ИМХО, долгое время яндексу было параллельно на наличие синонимизированных текстов в индексе. Но сейчас они составляют основную часть контента сателлитов. А влияние сателлитов на выдачу растет с каждым днем из-за увеличения их числа. Поэтому яндекс вводит фильтры на синонимизированный контент. АГС17 - типичный пример такого фильтра.

В отлове синонимизированных текстов я не вижу никаких существенных проблем. Возьмем три текста:
Сей текст уникален
Данный контент авторский
Текущая статья единственная
и десинонимизируем по такой вот базе синонимов:

Сей, Данный, Текущая: Этот
текст, контент, статья: спам
уникален, авторский, единственная: уныл

Сравнение же приведенного десинонимизированного контента тем более не является проблемой, подкрутят еще алгоритмы и это станет видно невооруженным глазом.

А с выводами Вашими трудно не согласиться, да...
Не исключено, что будет лучше держать на сайте умеренное количество копипаста, чем тот же объем синонимайза, поскольку это прямое указание на то, что сайту не место в индексе

cool 16.11.2009 21:15

Делал на пробу один ГС с синонимизированным текстом. В бане через четыре месяца. Понимаю, этого мало чтобы делать какие-то выводы, но больше не хочу связываться.

seocore 16.11.2009 21:41

Цитата:

Сообщение от treningdom (Сообщение 622252)
1) Синонимизированные статьи с натяжкой можно назвать текстом для людей

нет, в зависимости от качества базы + есть синонимайзеры учитывающие морфологию + варианты (это уже не синонимайзинг конечно) когда меняются целые выражения и группы слов...

Цитата:

Сообщение от treningdom (Сообщение 622252)
2) Технически в принципе возможно сделать алгоритм который определяет что текст Синонимизирован. Так?

уже есть в Яндексе, причем где-то еще с весны

Цитата:

Сообщение от treningdom (Сообщение 622252)
3) Пока Яндекс далеко не всегда просекает Синонимизированные тексты, вероятно потому что на это нужны дополнительные вычислительные мощьности и доработка алогоритма который адекватно будет палить.

просекает на ура, а если говорить про БАН, то можно вогнать чистый копипаст и наставить тучку трастовых ссылок + обернуть в хороший СДЛ шаблончик - и это дело будет жить долго и счастливо

Цитата:

Сообщение от treningdom (Сообщение 622252)
5) В обозримом будущем можно ожидать от поисковиков появления более совершенных алгоритмов

они уже есть, в яндексе АГС-17 помоему уже продемонстрирован, а в Гугл он есть уже несколько лет, вспомните про "саплементал" :D

и уник ваш вылетит на ура через несколько АПов, - достаточно лишь просто уронить траст ниже плинтуса и БАН придет сам :D

ocherik 05.08.2010 02:21

Но ведь если брать тексты, синонимизированные Баззингой (http://bazzinga.org/) - ведь текст получается читаемый почти на 100%. Читается человек идеально, но при это страдает уникальность - не так много слов заменяется, как хотелось бы. В результате имеем идеальный текст с точки зрения читаемости но не идеальный с точки зрения уникальности.

Что делать? Только развивать и развивать базы. Но КАК Яндекс определит уникальность этой синонимизированной статьи? Очень просто - для того есть шинглы. Они в яндексе не просто фигню придумывают, а занимаются наработкой всех этих алгоритмов и баз тоже. А команда у них намного больше, чем у любого синонимизатора. Поэтому они на сто шагов впереди и нам остается только делать выводы из собственного опыта: синонимизировать, размещать и наблюдать.

А сервис этот - баззинга действительно хорошо делает, люди трудятся над сервисом. "Деревянный скворечник" заменяет на "скворечник, сделанный из дерева" и обратно, и все подобные обороты заменяет. Вообще очень хорошо проработаны нюансы, фразы заменяются, слова целые, плюс законы Зипфа участвуют в разработке.

Но опять же - процент синонимизации. Статьи получаются не бредовые, а читаемые. И мне бы хотелось довести синонимизацию до максимального процента, но уже то, что мы имеем сегодня позволяет нам скармливать поисковикам синонимизированные статьи как оригинал, главное - читаемость.

Я видел мнжество синонимизаторов и ни один из них не давал читаемость. Вообще. Даже приблизительной. Эта баззинга, о которой я говорю, больше всего понравилась, потому и упоминаю. Но из всего, что можно узнать в интернете о синонимизации, можно сделать вывод: законы Зипфа и читаемость - важнейший критерий.

Я добавил кучу статей втупую синонимизированных простым синонимизатором и они вылетели через неделю уже! Потому что яндексу не нужен набор слов.

sylex 05.08.2010 09:26

Цитата:

Сообщение от seocore (Сообщение 624053)
просекает на ура, а если говорить про БАН, то можно вогнать чистый копипаст и наставить тучку трастовых ссылок + обернуть в хороший СДЛ шаблончик - и это дело будет жить долго и счастливо

не раз слышал подобные утверждения, надо проверить :)

Litov 05.08.2010 09:27

ocherik, ф топку со своим спамом.... зарегился специально, чтобы поднять тему прошлого года и запихнуть туда свою ссылку.?

seocore 05.08.2010 21:41

кошмар, куда катитесь? - Вы бы еще через 2 года тему подняли! :)

синонимайз жил, синонимайз жив, синонимайз будет жить! :)


Часовой пояс GMT +3, время: 17:05.

Работает на vBulletin® версия 3.8.7.
Copyright ©2000 - 2024, Jelsoft Enterprises Ltd.
Перевод: zCarot
SAPE.RU — система купли-продажи ссылок с главных и внутренних страниц сайтов.