27.06.2012, 16:37 | #1 |
Эксперт
|
Сравнение файлов на уникальность контента
Помогите найти софтину, если такая существует в природе
Необходимо из большого количества текстов выделить N наиболее различающихся между собой. Существует ли какое-либо готовое решение? Заранее благодарю за внимание к теме.
__________________
выдыхаю криптон |
27.06.2012, 16:45 | #2 |
ашипка
Регистрация: 05.04.2008
Адрес: Зазеркалье
Сообщений: 2,707
Вес репутации: 393
|
Между собой попарно сравнивала Shingles Expert. Работает
Существует еще Shingles Expert Pro, который может сравнивать пакетно, вроде немного платный. Его не пробовала. PS. makebusiness.ru - сайт создателя.
__________________
|
27.06.2012, 16:51 | #3 |
Эксперт
|
чмоки, побежал изучать, спасибо огромное
альтернативные предположения естественно будут приняты с удовольствием)
__________________
выдыхаю криптон |
27.06.2012, 17:14 | #4 |
ашипка
Регистрация: 05.04.2008
Адрес: Зазеркалье
Сообщений: 2,707
Вес репутации: 393
|
Эм, да не за что. Вопрос изучался год назад, когда попросили вручную описать одно и то же событие (при чем узкоспециализированное) десять раз. Запомнилось надолго пляски с бубном, поиски программок для контроля, ибо после 3-4 "копии" уже был крупный затык
__________________
|
09.07.2012, 18:32 | #5 |
Специалист
|
Есть программа DuplOff, она делает отсев из набора статей по заданному шинглу и % уникальности.
Есть моя разработка, TextExpert2, она также делает отсев по шинглу и % уника. Только больше настроек для сравнения. Можно удалить, переименовать, перенести неподходящие статьи. Можно задать "Оставить N наиболее уникальных" и т.д.
__________________
|
10.07.2012, 15:08 | #6 | |
Магистр
Регистрация: 04.12.2007
Сообщений: 3,681
Вес репутации: 421
|
Цитата:
Как бы это устроить?
__________________
|
|
11.07.2012, 00:57 | #7 |
Специалист
|
Взглянуть просто здесь.
Дистрибутив TextExpert2, он портабельный. Программа платная, без ключа работает в демо режиме (ограничение функций). Если понравится, с вами мы решим вопрос без денег.
__________________
|
19.07.2012, 15:56 | #8 |
Магистр
Регистрация: 04.12.2007
Сообщений: 3,681
Вес репутации: 421
|
Razdolnov, скачал.
Не понимаю как сделать требуемое. Задача- сравнить множество статей в папке и сказать мне какие из них наиболее "уникальные" в прелах этих статей. Я выбираю пачку статей из папки, происходит какойто процесс, в окне программы рисуется табличка с процентами чегото- везде нули, у пары-тройки файлов- единички. Лог файл генерится, но он нулевой длины. Вопрос- что делать? Заранее признателен.
__________________
|
20.07.2012, 06:40 | #9 |
Специалист
|
Небольшая инструкция, возможно пригодится и другим заинтересовавшимся.
Протокол в лог-файл по умолчанию блокирован без ключа полного доступа. Для сравнения закладка "Сравнение". Устанавливаем Шингл сравнения и процент (если будем делать отсев N лучших). Кнопка "Расчет процента". Выбираем файлы, ждем, получаем таблицу сравнения каждая с каждой, там мин. ср. и максимальные проценты для каждой статьи. Нам как правило нужен максимальный, т.е. самый н****гоприятный вариант. Слева внизу сводные данные по всей пачке статей. Кнопка "Сравнить 2 статьи" понятно из названия. Кнопка "Обработка статей" то же что и "Сравнение" но выполнит со статьями действия по опциям в области "Действия со статьями" и "Способ отсеивания". Кнопка "Анализ шинглов" выдаст список самых критичных (наиболее часто встречаемых в группе статей) шинглов, которые отрицательно влияют на уникальность (согласно указанному шагу шингла). Позволяет быстро улучшить шаблон размножения не просто подставлением дополнительных синонимов куда попало, а конкретно в критичные места ("точечным ударом"). Прочие опции предназначены для более тонкой настройки сравнения и как правило не используются в обычной работе. Вам нужен ключ полного доступа. Вышлите мне key1.pr2 , я вам бесплатно сгенерю key2.pr2 . igr-slp@mail.ru 471402278
__________________
|
|
|
Похожие темы | ||||
Тема | Автор | Раздел | Ответов | Последнее сообщение |
Уникальность контента? А если копипаст моего контента? | anomymous | Яндекс | 26 | 23.08.2010 18:56 |
Про Уникальность контента | Rolf | Яндекс | 17 | 12.08.2010 13:47 |
Уникальность контента | Fozzia | Вопросы от новичков | 35 | 10.07.2010 15:54 |
Уникальность контента для MFS | dasinok | Яндекс | 21 | 22.11.2009 16:34 |
Уникальность контента | AeC | Яндекс | 11 | 21.07.2007 11:33 |
Часовой пояс GMT +3, время: 03:17.