Форум SAPE.RU

Форум SAPE.RU (http://forum.sape.ru/index.php)
-   Курилка (http://forum.sape.ru/forumdisplay.php?f=22)
-   -   Новый сервис для текстов. тестируем. (http://forum.sape.ru/showthread.php?t=13582)

Mendel 25.05.2008 20:22

Новый сервис для текстов. тестируем.
 
Написал сервис анализа текста.
Выделение ключевых слов, определение тематики (спасибо garem за базу)
немного статистики и поиск копий в интернете...
алгоритмов поиска копий два.
первый базируется на индексе яндекса. алгоритм как правило находит только четкие дубли. это связано с тем что у яндекса слишком строгие ограничения на xml.
второй алгоритм базируется на индексе yahoo. Здесь алгоритм менее жесткий, и поэтому иногда может выдать и чтото лишнее.. однако находит значительно лучше.
Дизайна пока нет :)
http://max.8kb.ru
адрес временный, когда закончим тестирование я перенесу на основной домен и скажу новый адрес :)

Сразу скажу что термины указанные в статистике придуманы "с потолка"... если предложите лучше буду благодарен... если есть мысли что еще вы бы хотели видеть то буду рад.

Что вообще за цифры?
В осоновном работа идет со списком слов из которых были отброшены стопслова, оценочные эпитеты и прочие "водянистые слова".
Водность это процент отброшеных слов.. нормальное значение 30-60% помагает немного представить себе качество текста... лично я пользуюсь этим параметром чисто интуитивно..
Вес первой десятки это каков процент в "обезвоженных словах" занимает первые десять слов из словаря..
Срез 10/40% показывает сколько слов нужно взять чтобы получить 10/40% от обезвоженного словаря...
эти три параметры помогают понять частотное распределение ключевиков и прочего.. "правильных" цифр несуществует, для каждой задачи свои..

Чтобы было проще понять что такое "вода" с точки зрения сервиса я приведу два примера:
Пример первый:
Цитата:

Любимый мой! Я хочу сказать тебе что я люблю тебя!
Ты самое лучшее, что когдато было у меня. Я никогда не смогу сказать тебе об этом, однако это на самом деле так. Ты действительно лучший из всех. На самом деле я больше не могу без тебя. Когда ты наконец поймешь это?
Неужели я так и буду без тебя? Я так не смогу! Когда я думаю о тебе то я понимаю, что ты идеальный! Ты нужен мне. Я требую чтобы ты был моим! Ведь ты же знаешь, что только я смогу быть верной тебе. Я предлагаю тебе как можно быстрее прийти ко мне и стать моим. Я вся твоя, и я не знаю как я смогу без тебя. Мне нужен ты, и больше никто мне не нужен. Лучше меня не будет, чем я буду без тебя.
Пример второй:
Цитата:

Дьяченко Максим Игоревич.
Место жительства - город Одесса. Образование - Одесская Национальная Морская Академия. Специализация - программирование, интернет-технологии, электронная коммерция, руководство проектами. Эксцентричен, хитер, вспыльчив, коммуникабелен. Предпочитает носить одежду светлых тонов. Любвеобилен. Холост. Злоупотр****ет интернетом. Знак зодиака - весы. Интелект выше среднего. Характер тяжелый. Знание иностранных языков - английский, французский. Интересуется психологией. Чувство стиля отсутствует. Эксплуатирует чужой труд. Занудный, скучный, наглый, темпераментный.
В первом примере 100% воды, во втором 0% воды :)
вообще конечно словарь будет еще правиться и правиться, но обая идея думаю ясна...

PS: плиз, по больше коментов.. чем больше вы будете критиковать тем лучше я его сделаю, а вы потом будете пользоваться...

Trezub 25.05.2008 21:39

Приятный сервис, удобный. Полагаю, в какой-то момент он перестанет быть бесплатным?

Категорию он определяет плохо. Видимо по частоте слов.
"Водность" - такого раньше не встречал. Некоторые рерайты зашкаливают за 50% :)

Mendel 25.05.2008 21:50

Цитата:

Сообщение от Trezub (Сообщение 163924)
Приятный сервис, удобный. Полагаю, в какой-то момент он перестанет быть бесплатным?

Категорию он определяет плохо. Видимо по частоте слов.
"Водность" - такого раньше не встречал. Некоторые рерайты зашкаливают за 50% :)

планирую оставить бесплатным. естественно поставив защиту от парсеров :) давно уже пора побывать на обратной стороне баррикад :)
категория действительно немного хромает, но лучше может быть только ручной перебор базы, а это несколько месяцев работы...
водность по моему опыту гдето до 55% нормально... если больше то это уже слишком обычно... но тоже не показатель.. я если честно в основном использую этот параметр для оценки сложности рерайта - если исходник сильно водный, то рерайтить будет сложно.. а на выходе больше всетаки читаю... но тоже одним глазком поглядываю..)

bla-bla-bla 25.05.2008 21:52

текст
Цитата:

Rusty воды в плетеных воды в то время как железо, пока оно окисляется кислородом в плавки.
В последние годы загрязнение водных источников, в том, что прогресс и водопроводной воды является сильной окисляющие зависящее для того, дополнительные инвестиции в больших количествах хлор.

Это свободный хлор окись является мощной движущей силой для дальнейшего стимулирования развития ржавчины и результаты.
Водопроводная вода в красные цвета с водой, как только вы знаете, это неправильно, но если у вас врасплох выпить небольшое количество он может иметь.

Долгосрочные чрезмерное потребление чугуна и железа сверх陥りますпродолжаться. Избыток железа в неспособности системы кровообращения, для рвоты, симптомов, таких, как кровотечение.
Использование воды для ржавый долгого времени, что может н****гоприятно сказаться.

Так что теперь, водопровод Всего Уход находится в центре внимания.
Для поддержания старение зданий и технического обслуживания, управления, в прошлом много внимания.
Но меры по сохранению объектов водоснабжения, в частности, в старении водопроводных труб из-за появления красных проблемы водных ресурсов для дешевого решения для возможного развития наибольшее внимание в прошлом году.
Длина с пробелами: 1245.
Длина без пробелов:1033.
Текст предположительно уникальный(1).
Текст предположительно уникальный(2).
Водность текста: 41%
Вес первой десятки: 27%
Срез 10%: 3 слов.
Срез 40%: 20 слов.
Словарь текста: 113 слов.
Обезвоженный словарь: 77 слов.

как узнать он уникальный?

imcl 25.05.2008 21:58

Зачет. Если оставишь бесплатным будет много почета.

bla-bla-bla 25.05.2008 22:00

а вобще можно теоритически такой же сервис сделать еще и как ICQ бот?

Mendel 25.05.2008 22:02

Цитата:

Сообщение от bla-bla-bla (Сообщение 163930)
...
Текст предположительно уникальный(1).
Текст предположительно уникальный(2).
...
как узнать он уникальный?

ну раз оба алгоритма ничего не нашли значит уникальный.. разве что он есть только в гугле, или я чтото не учел...
хотя если речь идет о тексте приведенном в цитате то по копискайпу он тоже пока уникален... пока топик не проиндексируется ))
хотя всетаки сервис немного не для доров...

Kaif 25.05.2008 22:02

Дизайна не надо и так хорошо ) просто )

Пожелание: сделай так, что когда анализ уже прошел, сайты с дублями текстов открывались в новом окне.

Mendel 25.05.2008 22:05

Цитата:

Сообщение от imcl (Сообщение 163933)
Зачет. Если оставишь бесплатным будет много почета.

оставлю. только на другом домене. из платных есть копискейп..
Цитата:

Сообщение от bla-bla-bla (Сообщение 163934)
а вобще можно теоритически такой же сервис сделать еще и как ICQ бот?

теоретически да... а практически - в icq рекламу не впихнешь, а лимиты жрать будет. бот дело не хитрое, а вот ресурсы (в виде тех же лимитов яндекса) стоят денег.. да и ограничение по количеству символов в сообщении аси делают затею не очень удачной...

Trezub 25.05.2008 22:05

Я думаю экономически это даже целесообразнее для наших, словянских, подходов. Например, подобным, бесплатным, сервисом я скорее всего буду пользоваться.

А платным не буду :) И так все остальные. Так что выгоднее придумать грамотную монетизацию, может быть повесить какой-нибудь баннер с оплатой по показам. И оставить бесплатным.

Только защиту от парсеров не надо делать так, чтобы каждый раз вводить капчу надо было)


Часовой пояс GMT +3, время: 19:33.

Работает на vBulletin® версия 3.8.7.
Copyright ©2000 - 2024, Jelsoft Enterprises Ltd.
Перевод: zCarot
SAPE.RU — система купли-продажи ссылок с главных и внутренних страниц сайтов.