29.10.2015, 11:37 | #1 |
Эксперт
Регистрация: 16.04.2013
Адрес: Украина, 3 мин до метро
Сообщений: 1,262
Вес репутации: 173
|
Как лучше загнать в реестр целую гору PDF?
Есть некоммерческая задача для внутреннего употребления, к которой пока не знаю как подступится:
- есть 30+ к PDF'ов - каждый файл содержит многостраничный скан входящих документов - входящие документы далеко не всегда на стандартном бланке - надо заглянуть в каждый файл, и определить по первой или второй странице скана отправителя данного документа и дату отправки - внести в реестр запись "файл такой-то, отправитель такой-то, дата такая-то" Потенциально мне интересно примерно 10...15% всех этих документов для последующей обработки...
__________________
Но почему спит твой разум, а эти чудовища лезут в мой дом? |
29.10.2015, 12:00 | #2 |
Эксперт
Регистрация: 03.07.2007
Адрес: Chinatown
Сообщений: 7,265
Вес репутации: 611
|
только ручками и глазками. на фрилансе индусов и габоинцев полно.
__________________
тексты по 10 руб/кзнак автоматизируй все, не мучайся! |
29.10.2015, 12:08 | #3 |
Куриллочный троль
|
мне такой вариант нафантазировался: распознать все автоматом (не в курсе файнридер, например, позволяет так или нет), потом скриптом распознанные документы шерстить, строчку ключевую нашли - ищем пдф с таким же названием и кладем куда надо
__________________
|
29.10.2015, 12:40 | #5 |
Эксперт
Регистрация: 16.04.2013
Адрес: Украина, 3 мин до метро
Сообщений: 1,262
Вес репутации: 173
|
И на проверку результатов работы уйдет сопоставимое время с пробежаться самому ручками и глазками
В какой среде пробегаться? Я пробежался примерно по сотне документов: передвинуть курсор в Total Commander, "Enter", в FOXit мышкой пролестнуть, если интересный документ, то скопировать в Total имя файла, переключиться в Excel, вбить в строку название файла, нужные теги, переключиться обратно в FOXit и подсмотреть дату, вбить ее в Excel... С такой скоростью буду перебивать все до второго пришествия. Как-то сей алгоритм работы облегчить можно? Да и теги в пропертях PDF файла меня устраивают вполне... PS Документы на английском, но со всего света и за несколько десятков лет. Габонцы с индусами за какой порядок суммы обойдутся?
__________________
Но почему спит твой разум, а эти чудовища лезут в мой дом? |
31.10.2015, 19:08 | #6 |
Эксперт
Регистрация: 18.06.2007
Адрес: Картофель
Сообщений: 2,417
Вес репутации: 358
|
|
01.11.2015, 16:56 | #7 |
Эксперт
Регистрация: 16.04.2013
Адрес: Украина, 3 мин до метро
Сообщений: 1,262
Вес репутации: 173
|
Пришел к такому же варианту: пакетно вытащить сканы из PDF в картинки (есть несколько бесплатных прог для этого), натравить на них Google OCR, полученные текстовики загнать в базу MySQL в поле с полнотекстовым поиском, что бы по конкретным ключевикам искать конкретные наборы документов (возможно использовать какую-то DMS). Задачку скорее всего отложу на месяц (или до января) - пусть вылежится, вызреет. Результаты, вполне возможно, уйдут в открытый доступ.
__________________
Но почему спит твой разум, а эти чудовища лезут в мой дом? |
19.02.2016, 17:38 | #8 | |
Эксперт
Регистрация: 16.04.2013
Адрес: Украина, 3 мин до метро
Сообщений: 1,262
Вес репутации: 173
|
Цитата:
__________________
Но почему спит твой разум, а эти чудовища лезут в мой дом? |
|
20.02.2016, 15:07 | #10 | |
Эксперт
Регистрация: 16.04.2013
Адрес: Украина, 3 мин до метро
Сообщений: 1,262
Вес репутации: 173
|
Цитата:
но не пробовал Для него есть языковые модули под русский и украинский языки
__________________
Но почему спит твой разум, а эти чудовища лезут в мой дом? |
|
|
|
Похожие темы | ||||
Тема | Автор | Раздел | Ответов | Последнее сообщение |
Загнать в WP много текстов | Апокалипсис | Разработка и сопровождение сайтов | 24 | 12.03.2012 19:06 |
Как загнать сайт в БЛ? | Santehnik | Ошибки при работе с системой | 6 | 10.03.2009 12:00 |
Загнать сайт в индекс | 4ip | Яндекс | 5 | 06.02.2009 22:26 |
Как загнать в бан домен? | antimild | Яндекс | 62 | 15.06.2008 21:05 |
Может Яндекс забанить целую зону? | vosp | Яндекс | 16 | 09.03.2008 22:51 |
Часовой пояс GMT +3, время: 09:16.