Новый сервис для текстов. тестируем.
Написал сервис анализа текста.
Выделение ключевых слов, определение тематики (спасибо garem за базу) немного статистики и поиск копий в интернете... алгоритмов поиска копий два. первый базируется на индексе яндекса. алгоритм как правило находит только четкие дубли. это связано с тем что у яндекса слишком строгие ограничения на xml. второй алгоритм базируется на индексе yahoo. Здесь алгоритм менее жесткий, и поэтому иногда может выдать и чтото лишнее.. однако находит значительно лучше. Дизайна пока нет :) http://max.8kb.ru адрес временный, когда закончим тестирование я перенесу на основной домен и скажу новый адрес :) Сразу скажу что термины указанные в статистике придуманы "с потолка"... если предложите лучше буду благодарен... если есть мысли что еще вы бы хотели видеть то буду рад. Что вообще за цифры? В осоновном работа идет со списком слов из которых были отброшены стопслова, оценочные эпитеты и прочие "водянистые слова". Водность это процент отброшеных слов.. нормальное значение 30-60% помагает немного представить себе качество текста... лично я пользуюсь этим параметром чисто интуитивно.. Вес первой десятки это каков процент в "обезвоженных словах" занимает первые десять слов из словаря.. Срез 10/40% показывает сколько слов нужно взять чтобы получить 10/40% от обезвоженного словаря... эти три параметры помогают понять частотное распределение ключевиков и прочего.. "правильных" цифр несуществует, для каждой задачи свои.. Чтобы было проще понять что такое "вода" с точки зрения сервиса я приведу два примера: Пример первый: Цитата:
Цитата:
вообще конечно словарь будет еще правиться и правиться, но обая идея думаю ясна... PS: плиз, по больше коментов.. чем больше вы будете критиковать тем лучше я его сделаю, а вы потом будете пользоваться... |
Приятный сервис, удобный. Полагаю, в какой-то момент он перестанет быть бесплатным?
Категорию он определяет плохо. Видимо по частоте слов. "Водность" - такого раньше не встречал. Некоторые рерайты зашкаливают за 50% :) |
Цитата:
категория действительно немного хромает, но лучше может быть только ручной перебор базы, а это несколько месяцев работы... водность по моему опыту гдето до 55% нормально... если больше то это уже слишком обычно... но тоже не показатель.. я если честно в основном использую этот параметр для оценки сложности рерайта - если исходник сильно водный, то рерайтить будет сложно.. а на выходе больше всетаки читаю... но тоже одним глазком поглядываю..) |
текст
Цитата:
Длина без пробелов:1033. Текст предположительно уникальный(1). Текст предположительно уникальный(2). Водность текста: 41% Вес первой десятки: 27% Срез 10%: 3 слов. Срез 40%: 20 слов. Словарь текста: 113 слов. Обезвоженный словарь: 77 слов. как узнать он уникальный? |
Зачет. Если оставишь бесплатным будет много почета.
|
а вобще можно теоритически такой же сервис сделать еще и как ICQ бот?
|
Цитата:
хотя если речь идет о тексте приведенном в цитате то по копискайпу он тоже пока уникален... пока топик не проиндексируется )) хотя всетаки сервис немного не для доров... |
Дизайна не надо и так хорошо ) просто )
Пожелание: сделай так, что когда анализ уже прошел, сайты с дублями текстов открывались в новом окне. |
Цитата:
Цитата:
|
Я думаю экономически это даже целесообразнее для наших, словянских, подходов. Например, подобным, бесплатным, сервисом я скорее всего буду пользоваться.
А платным не буду :) И так все остальные. Так что выгоднее придумать грамотную монетизацию, может быть повесить какой-нибудь баннер с оплатой по показам. И оставить бесплатным. Только защиту от парсеров не надо делать так, чтобы каждый раз вводить капчу надо было) |
Часовой пояс GMT +3, время: 19:33. |
Работает на vBulletin® версия 3.8.7.
Copyright ©2000 - 2024, Jelsoft Enterprises Ltd.
Перевод: zCarot
SAPE.RU — система купли-продажи ссылок с главных и внутренних страниц сайтов.