Форум SAPE.RU

Форум SAPE.RU (http://forum.sape.ru/index.php)
-   Софт для оптимизаторов и вебмастеров (http://forum.sape.ru/forumdisplay.php?f=36)
-   -   Программа синонимизация с учетом морфологии русского языка WordSyn (http://forum.sape.ru/showthread.php?t=20878)

Ufaweb 28.11.2008 16:48

Цитата:

Сообщение от Leonardo (Сообщение 321360)
при 15% замен похожесть текста должна быть 85%

Например, было мама мыла раму. Стало: мама чистила раму. Замена всего одна, а тексты нисколько не похожи, то есть 0% схожести.

ortega3000 28.11.2008 18:56

Цитата:

Сообщение от Leonardo (Сообщение 321360)
вот у мя есть лицензия на прогу, и есть словарик дефолтный и на 5килослов, правилные иснонимы можно подставлять в самом окне синонимайзера после трансформаци текста.
Так например предложение:
Растению помимо солнечного света нужен свежий воздух слово света
имеет синоним освещение и он его подставляет в этой же форме а не как например нужно освещения
или внастройках что-то не так сделано?

Добавлено через 14 минут
и ещё один вопросик! после синонинизации текста в низу показывается процент замен (исходя от настроек эта цивра меняется)
например процент замен 15%, а после нажатия кнопки похожесть выдаёт процент похожести 8% !!!
почему так?, если я не ошибаюсь (хотя такое возможно) при 15% замен похожесть текста должна быть 85%. Хотя я понимаю, что это разные параметы похожесть и процент замен. но программа не может перефразировать предложение, только заменяет слова на синонимы в соответствии с морфологией и других особенностей (род, падеж, склонение, число).

Со словом "светом" в самом деле какая-то проблема. Похоже, в системном словаре неправильно прописаны грамматические данные этого слова. К сожалению, изменить это можно только с помощью компилятора системного словаря.

По поводу замен и похожести. Процент замен является отношением измененных слов к общему их количеству в тексте. Процент похожести текстов вычисляется по методу десятисловных шинглов. При этом чем выше процент замен, тем ниже процент похожести, и наоборот.
Кстати, на процент похожести влияет рассредоточенность замен по тексту. Если заменить первую половину слов в тексте и не трогать вторую половину, то процент похожести будет намного выше, чем если то же количество слов будет заменено равномерно по тексту (в данном случае - надо заменить каждое второе слово). При равномерном распределении замен процент похожести будет стремиться к нулю намного быстрее, чем при скученных заменах. Имейте это в виду.

Кстати, в вашем случае 8% похожести при 15% замен - это отличный результат!!! Такое может быть если замены распределены достаточно равномерно. Например, заменив каждое десятое слово в тексте из 100 слов, мы получим 10% замен и 0% похожести. Но не стоит слишком уж надеяться на результат проверки похожести. Никто точно не знает, какие методы проверок используют ПС. Так что старайтесь делать процент замен все же повыше. Хотя бы процентов 40-50.

Кстати, проверка похожести текстов работает только для текстов с десятью или более словами. Поэтому не удивляйтесь, если не меняя ничего вы получите нулевой процент похожести для текста из трех слов. :)

Leonardo 02.12.2008 12:47

ortega3000, спасибо за консультацию, кое-что подправил, резльтаты от раза в раз всё лучше и лучше, вобщем начинаю составлять персональные словари для узкоспециализированных тематик, так намного правельнее при трансформации ,а тексты получаются просто офегенные :)

Kostushko 09.12.2008 19:28

Приобрел программу со скидкой, буду тестить!

Al Pacino 17.01.2009 00:13

Цитата:

Сообщение от awe (Сообщение 312025)
Ufaweb, спасибо! Все наглядно, а значит и понятно. Хотя остается вопрос еще по процентовке: если брать новости, то какой процент схожести текстов можно считать приемлемым? Естественно, с точки зрения Яши и Гоши?

5 подряд идущих слов повторяются - текст неуник.

Steh 17.01.2009 09:58

Цитата:

Сообщение от Al Pacino (Сообщение 358696)
5 подряд идущих слов повторяются - текст неуник.

Аль Пачино, это кто-то сказал или ваше предположение7 Я вообще ориентировался на 3-4 слова вподряд в своих расчетах. Если 5, то это лучше!

Я тут смотрю результаты замен слов. Ну, я бы половину таких слов никогда не упортебил. Они не к слогу, не к теме и вообще устарели. На взгляд можно подобрать такое же слово к сателитам - ахинея) А если банчить ради денег, то синонимайзер подобный в самый раз.

vtomas 17.01.2009 12:54

Откуда такие данные: "пять слов подряд - текст не уникальный"? Если пять подряд находятся в тексте из 3000 знаков. А как же тогда шинглы по десять слов, пассажи и 20-25% отличия от исходного текста, которые Яша прекрасно кушает???
Если есть примеры не уника из пяти слов подряд - В СТУДИЮ!!

vtomas 22.01.2009 21:37

АКЦИЯ АнТи-Кризис!!!
 
АКЦИЯ АнТи-Кризис!!!

По многочисленным просьбам объявляется анти-кризисная программа:
до конца января вы можете приобрести одну коммерческую лицензию для синонимайзера со скидкой в 40%, или две коммерческие лицензии по цене одной, экономя 50% на каждой из лицензий.
Таким образом одна коммерческая лицензия обойдется вам в 45WMZ, а две в 75WMZ.

Если у вас некоммерческая лицензия, то вы тоже можете воспользоваться этой анти-кризисной программой и перейти на коммерческую лицензию (и получить при этом оба словаря) всего за 30WMZ (вместо 50), сэкономив при этом 40%. Покупка двух обновлений до коммерческой лицензии позволит вам сэкономить еще больше - 50%, так что переход двух компьютеров на коммерческие лицензии обойдется всего в 50WMZ.

Еще раз напомню, что коммерческие лицензии на WordSyn позволят вам приобретать все продукты автора со скидкой в 50%. Владельцы некоммерческих лицензий такой возможности не имеют.

И еще раз: анти-кризисная программа действует только до конца января!

Al Pacino 31.01.2009 00:15

Цитата:

Сообщение от vtomas (Сообщение 358929)
Откуда такие данные: "пять слов подряд - текст не уникальный"? Если пять подряд находятся в тексте из 3000 знаков. А как же тогда шинглы по десять слов, пассажи и 20-25% отличия от исходного текста, которые Яша прекрасно кушает???
Если есть примеры не уника из пяти слов подряд - В СТУДИЮ!!

копискейп похоже работает. В ПС тоже не дураки сидят, а не уник подряд - это самое простое что только можно запалить.

ortega3000 31.01.2009 01:08

Цитата:

Сообщение от Al Pacino (Сообщение 371206)
копискейп похоже работает. В ПС тоже не дураки сидят, а не уник подряд - это самое простое что только можно запалить.

Вы забываете, что есть такое понятие. как устойчивые выражения и штампы. Мало кто использует уникальные и неповторяющиеся конструкции, так что выражения "из этого следует, что этот продукт" будут повторяться достаточно часто. Но это ведь не значит, что текст, содержащий такие штампы, будет считаться неуником.


Часовой пояс GMT +3, время: 07:49.

Работает на vBulletin® версия 3.8.7.
Copyright ©2000 - 2024, Jelsoft Enterprises Ltd.
Перевод: zCarot
SAPE.RU — система купли-продажи ссылок с главных и внутренних страниц сайтов.