Форум SAPE.RU

Форум SAPE.RU (http://forum.sape.ru/index.php)
-   Яндекс (http://forum.sape.ru/forumdisplay.php?f=16)
-   -   Уникальность контента (http://forum.sape.ru/showthread.php?t=3194)

AeC 16.07.2007 13:47

Уникальность контента
 
У меня вопрос, вы знаете, каким образом Я и G проверяют контент на уникальность?
Допустим, у меня размещается статья - собранный руками и приведенный в читабельный вид материал с нескольких других сайтов. Активной ссылки на первоисточники нет, но есть упоминание их URL в тексте (например, "по материалам abc.ru и def.ru").

Будет ли эта статья считаться уникальной?
И вообще каким образом уникальность контента проверяется - используется процент совпадения или что?

Avelon 16.07.2007 13:56

Цитата:

Сообщение от outtime (Сообщение 26396)
У меня вопрос, вы знаете, каким образом Я и G проверяют контент на уникальность?
Допустим, у меня размещается статья - собранный руками и приведенный в читабельный вид материал с нескольких других сайтов. Активной ссылки на первоисточники нет, но есть упоминание их URL в тексте (например, "по материалам abc.ru и def.ru").

Будет ли эта статья считаться уникальной?
И вообще каким образом уникальность контента проверяется - используется процент совпадения или что?

сложно сказать, раньше яндекс оперировал ШИНГЛАМИ, сейчас он перешел на другой алгоритм. Гдето статья лежала на самом яндексе - поищите.

в целом если статья сделана из нескольких источников и хотябы немного переписана - то шансы есть - иначе - врядли

mymy 17.07.2007 12:29

Цитата:

Сообщение от Avelon (Сообщение 26398)
в целом если статья сделана из нескольких источников и хотябы немного переписана - то шансы есть - иначе - врядли


Что врядли?

seocore 18.07.2007 13:56

Цитата:

Сообщение от outtime (Сообщение 26396)
Будет ли эта статья считаться уникальной?
И вообще каким образом уникальность контента проверяется - используется процент совпадения или что?

на мой взгляд используется процент совпадения...

мне кажется, что алгоритм скорее всего примерно такой:
1) берется контент странички и разбивается на блочки допустим по 32 байта
2) по каждому блочку получают чексумму, например md5("контент блока");
3) далее полученные данные закидываются в базу

время от времени специальная прога обходит всю базу, и проверяет на наличие совпадений по чексуммам + если выходит большой процент совпадений то проверка идет уже на уровне контента + использование шаблонов (на основе морфологии) например: существ-1 + глагол + существ-5+союз+существ-4.... где существ-1 - это к примеру конкретная группа существительных таких как [Москв|Петербург|Киев] и в таком духе...

тем самым даже если вы тупо перемешали в страничке абзацы, добавили целые абзацы текста из других страничек, то - это все равно будет определено как "не уникальный" контент :)

обычно такие сайты с неуникальным контентом в индексе появляются, но через месяц начинают резко пропадать странички из индекса, в конечном счете отсается 1-2 странички, либо вообще полный вылет сайта из индекса :)

Евген 18.07.2007 14:43

Цитата:

Сообщение от mymy (Сообщение 26561)
Что врядли?

врядли будет признана уникальной.

mymy 18.07.2007 14:53

Цитата:

Сообщение от seocore (Сообщение 26760)
обычно такие сайты с неуникальным контентом в индексе появляются, но через месяц начинают резко пропадать странички из индекса, в конечном счете отсается 1-2 странички, либо вообще полный вылет сайта из индекса :)

Чушь полная. Есть 10+ сайтов, контент которых полностью передерал. Тока в дизайн в свой вставил. Уже год с лишнем в индексе. Многие странички в топе по СЧ (естественно достигнуто ссылочным).

Максимум что за это может быть - снижение позиций в выдаче.

seocore 20.07.2007 20:19

Цитата:

Сообщение от mymy (Сообщение 26776)
Чушь полная. Есть 10+ сайтов, контент которых полностью передерал. Тока в дизайн в свой вставил. Уже год с лишнем в индексе. Многие странички в топе по СЧ (естественно достигнуто ссылочным).

Максимум что за это может быть - снижение позиций в выдаче.

не, все горазда хуже - неуникальные (дубли) странички яндекс выкидывает из индекса на автопилоте...

если твой сайт индексируется то все дело кроется как раз в дизайне, т.е. при копировании контента изменились многие вещи, такие как <H1> заголовки, прочее оформление текста + яндекс не смог корректно определить уникальность...

можете убрать в <noindex> все элементы сайта за исключением контента и увидите что через пару АППов от вашего сайта останется только морда + 5-6 страничек :)

неуникальный контент если хорошо разбавить тяжелым дизайном + тяжелым движочком аля DLE, SLAED, то такой сайт будет в индексе довольно долго - как правило до первого стука :)

x007xx 20.07.2007 22:47

бан за неуникальность... как избежать?
 
Сделал сайтик, в нем справочная информации, но в свете последних событий Яндекс вроде банит за неуникальный контент, следовательно я собираюсь написать статьи на сайт,
На сайте одна справка- одна страница, их около 900 справок, т.е. 900 страниц.- эти страницы не уникальны, но собранны со всего инета.
Сколько нужно уникальных статей написать, чтобы яндекс не забанил...

mashell 20.07.2007 23:40

"В свете последних событий" - это Вы про "Ты последний"?

Вообще для увеличения уникальности лучше сами тексты рерайтить - примерно 0,6$-1$ за 1К знаков. Можно просто на страницы немножко текста другого подкинуть - ну нечто вроде заголовков других статей и т.п.

А точных цифр (да и даже примерных) о том сколько текста добавить, Вам никто не скажет.

mashell 20.07.2007 23:49

2 seocore

Для стука - нужна причина стука. Если сайт разрешает копировать свой контент, то он обычно требует разместить активную ссылку, ведущую на этот сайт. Просто не стоит этим пренебрегать.

Описывая то как Вы представляете себе процесс определения ПС-ами уникальности - это, по сути, и есть метод шинглов.


Часовой пояс GMT +3, время: 15:13.

Работает на vBulletin® версия 3.8.7.
Copyright ©2000 - 2024, Jelsoft Enterprises Ltd.
Перевод: zCarot
SAPE.RU — система купли-продажи ссылок с главных и внутренних страниц сайтов.