Вернуться   Форум SAPE.RU > Общие вопросы > Разработка и сопровождение сайтов

-->
Ответ
 
Опции темы
Старый 29.10.2015, 11:37   #1
Эксперт
 
Аватар для elia_ua
 
Регистрация: 16.04.2013
Адрес: Украина, 3 мин до метро
Сообщений: 1,262
Вес репутации: 171
elia_ua - за этого человека можно гордитсяelia_ua - за этого человека можно гордитсяelia_ua - за этого человека можно гордитсяelia_ua - за этого человека можно гордитсяelia_ua - за этого человека можно гордитсяelia_ua - за этого человека можно гордитсяelia_ua - за этого человека можно гордитсяelia_ua - за этого человека можно гордитсяelia_ua - за этого человека можно гордится
По умолчанию Как лучше загнать в реестр целую гору PDF?

Есть некоммерческая задача для внутреннего употребления, к которой пока не знаю как подступится:

- есть 30+ к PDF'ов
- каждый файл содержит многостраничный скан входящих документов
- входящие документы далеко не всегда на стандартном бланке
- надо заглянуть в каждый файл, и определить по первой или второй странице скана отправителя данного документа и дату отправки
- внести в реестр запись "файл такой-то, отправитель такой-то, дата такая-то"

Потенциально мне интересно примерно 10...15% всех этих документов для последующей обработки...
__________________
Сон разума рождает чудовищ...
Но почему спит твой разум, а эти чудовища лезут в мой дом?
elia_ua вне форума   Ответить с цитированием
Старый 29.10.2015, 12:00   #2
Эксперт
 
Аватар для MonAmur
 
Регистрация: 03.07.2007
Адрес: Chinatown
Сообщений: 7,265
Вес репутации: 609
MonAmur - прекрасное будущееMonAmur - прекрасное будущееMonAmur - прекрасное будущееMonAmur - прекрасное будущееMonAmur - прекрасное будущееMonAmur - прекрасное будущееMonAmur - прекрасное будущееMonAmur - прекрасное будущееMonAmur - прекрасное будущееMonAmur - прекрасное будущееMonAmur - прекрасное будущее
По умолчанию

Цитата:
Сообщение от elia_ua Посмотреть сообщение
Есть некоммерческая задача для внутреннего употребления, к которой пока не знаю как подступится
только ручками и глазками. на фрилансе индусов и габоинцев полно.
MonAmur вне форума   Ответить с цитированием
Старый 29.10.2015, 12:08   #3
Куриллочный троль
 
Аватар для Клон
 
Регистрация: 15.03.2010
Сообщений: 8,483
Вес репутации: 521
Клон - прекрасное будущееКлон - прекрасное будущееКлон - прекрасное будущееКлон - прекрасное будущееКлон - прекрасное будущееКлон - прекрасное будущееКлон - прекрасное будущееКлон - прекрасное будущееКлон - прекрасное будущееКлон - прекрасное будущееКлон - прекрасное будущее
Отправить сообщение для Клон с помощью ICQ
По умолчанию

мне такой вариант нафантазировался: распознать все автоматом (не в курсе файнридер, например, позволяет так или нет), потом скриптом распознанные документы шерстить, строчку ключевую нашли - ищем пдф с таким же названием и кладем куда надо
__________________
2013 год. В прошлом апокалипсис. Страшный апокалипсис. Гнилой апокалипсис. Просто чмо
Клон вне форума   Ответить с цитированием
Старый 29.10.2015, 12:29   #4
Эксперт
 
Аватар для SergejF
 
Регистрация: 17.02.2008
Адрес: Донецк, ДНР
Сообщений: 8,880
Вес репутации: 502
SergejF - прекрасное будущееSergejF - прекрасное будущееSergejF - прекрасное будущееSergejF - прекрасное будущееSergejF - прекрасное будущееSergejF - прекрасное будущееSergejF - прекрасное будущееSergejF - прекрасное будущееSergejF - прекрасное будущееSergejF - прекрасное будущееSergejF - прекрасное будущее
По умолчанию

Цитата:
Сообщение от MonAmur Посмотреть сообщение
на фрилансе индусов и габоинцев полно.
Имхо тс в данном случае неплатежеспособен: "Есть некоммерческая задача...".
SergejF вне форума   Ответить с цитированием
Старый 29.10.2015, 12:40   #5
Эксперт
 
Аватар для elia_ua
 
Регистрация: 16.04.2013
Адрес: Украина, 3 мин до метро
Сообщений: 1,262
Вес репутации: 171
elia_ua - за этого человека можно гордитсяelia_ua - за этого человека можно гордитсяelia_ua - за этого человека можно гордитсяelia_ua - за этого человека можно гордитсяelia_ua - за этого человека можно гордитсяelia_ua - за этого человека можно гордитсяelia_ua - за этого человека можно гордитсяelia_ua - за этого человека можно гордитсяelia_ua - за этого человека можно гордится
По умолчанию

Цитата:
Сообщение от MonAmur Посмотреть сообщение
только ручками и глазками. на фрилансе индусов и габоинцев полно.
И на проверку результатов работы уйдет сопоставимое время с пробежаться самому ручками и глазками

В какой среде пробегаться? Я пробежался примерно по сотне документов: передвинуть курсор в Total Commander, "Enter", в FOXit мышкой пролестнуть, если интересный документ, то скопировать в Total имя файла, переключиться в Excel, вбить в строку название файла, нужные теги, переключиться обратно в FOXit и подсмотреть дату, вбить ее в Excel...

С такой скоростью буду перебивать все до второго пришествия. Как-то сей алгоритм работы облегчить можно? Да и теги в пропертях PDF файла меня устраивают вполне...

PS
Документы на английском, но со всего света и за несколько десятков лет. Габонцы с индусами за какой порядок суммы обойдутся?
__________________
Сон разума рождает чудовищ...
Но почему спит твой разум, а эти чудовища лезут в мой дом?
elia_ua вне форума   Ответить с цитированием
Старый 31.10.2015, 19:08   #6
Эксперт
 
Аватар для seocore
 
Регистрация: 18.06.2007
Адрес: Картофель
Сообщений: 2,417
Вес репутации: 356
seocore - прекрасное будущееseocore - прекрасное будущееseocore - прекрасное будущееseocore - прекрасное будущееseocore - прекрасное будущееseocore - прекрасное будущееseocore - прекрасное будущееseocore - прекрасное будущееseocore - прекрасное будущееseocore - прекрасное будущееseocore - прекрасное будущее
По умолчанию

Цитата:
Сообщение от elia_ua Посмотреть сообщение
Как-то сей алгоритм работы облегчить можно? Да и теги в пропертях PDF файла меня устраивают вполне...
если в PDF'ке картинка, то гуглить OCR решения для php, а далее PDF=>TXT с последующим поиском нужной строки при помощи регулярок
seocore вне форума   Ответить с цитированием
Старый 01.11.2015, 16:56   #7
Эксперт
 
Аватар для elia_ua
 
Регистрация: 16.04.2013
Адрес: Украина, 3 мин до метро
Сообщений: 1,262
Вес репутации: 171
elia_ua - за этого человека можно гордитсяelia_ua - за этого человека можно гордитсяelia_ua - за этого человека можно гордитсяelia_ua - за этого человека можно гордитсяelia_ua - за этого человека можно гордитсяelia_ua - за этого человека можно гордитсяelia_ua - за этого человека можно гордитсяelia_ua - за этого человека можно гордитсяelia_ua - за этого человека можно гордится
По умолчанию

Цитата:
Сообщение от seocore Посмотреть сообщение
если в PDF'ке картинка, то гуглить OCR решения для php, а далее PDF=>TXT с последующим поиском нужной строки при помощи регулярок
Пришел к такому же варианту: пакетно вытащить сканы из PDF в картинки (есть несколько бесплатных прог для этого), натравить на них Google OCR, полученные текстовики загнать в базу MySQL в поле с полнотекстовым поиском, что бы по конкретным ключевикам искать конкретные наборы документов (возможно использовать какую-то DMS). Задачку скорее всего отложу на месяц (или до января) - пусть вылежится, вызреет. Результаты, вполне возможно, уйдут в открытый доступ.
__________________
Сон разума рождает чудовищ...
Но почему спит твой разум, а эти чудовища лезут в мой дом?
elia_ua вне форума   Ответить с цитированием
Старый 19.02.2016, 17:38   #8
Эксперт
 
Аватар для elia_ua
 
Регистрация: 16.04.2013
Адрес: Украина, 3 мин до метро
Сообщений: 1,262
Вес репутации: 171
elia_ua - за этого человека можно гордитсяelia_ua - за этого человека можно гордитсяelia_ua - за этого человека можно гордитсяelia_ua - за этого человека можно гордитсяelia_ua - за этого человека можно гордитсяelia_ua - за этого человека можно гордитсяelia_ua - за этого человека можно гордитсяelia_ua - за этого человека можно гордитсяelia_ua - за этого человека можно гордится
По умолчанию

Цитата:
Сообщение от elia_ua Посмотреть сообщение
Пришел к такому же варианту: пакетно вытащить сканы из PDF в картинки (есть несколько бесплатных прог для этого), натравить на них Google OCR, полученные текстовики загнать в базу MySQL в поле с полнотекстовым поиском, что бы по конкретным ключевикам искать конкретные наборы документов (возможно использовать какую-то DMS). Задачку скорее всего отложу на месяц (или до января) - пусть вылежится, вызреет. Результаты, вполне возможно, уйдут в открытый доступ.
Все именно по такому пути и сделал. Вот разве что выкладывание результатов в открытый доступ пока не делал.
__________________
Сон разума рождает чудовищ...
Но почему спит твой разум, а эти чудовища лезут в мой дом?
elia_ua вне форума   Ответить с цитированием
Старый 19.02.2016, 19:18   #9
Специалист
 
Регистрация: 05.09.2010
Сообщений: 222
Вес репутации: 175
tex_1982 - луч света в тёмном царствеtex_1982 - луч света в тёмном царствеtex_1982 - луч света в тёмном царствеtex_1982 - луч света в тёмном царствеtex_1982 - луч света в тёмном царствеtex_1982 - луч света в тёмном царстве
Отправить сообщение для tex_1982 с помощью ICQ
По умолчанию

Только два вопроса в догонку:
1) чем раздербанить djvu на изъятие слоя текста и на картинки не искали?
2) Гугл оцр работает с кириллическим текстом?
tex_1982 вне форума   Ответить с цитированием
Старый 20.02.2016, 15:07   #10
Эксперт
 
Аватар для elia_ua
 
Регистрация: 16.04.2013
Адрес: Украина, 3 мин до метро
Сообщений: 1,262
Вес репутации: 171
elia_ua - за этого человека можно гордитсяelia_ua - за этого человека можно гордитсяelia_ua - за этого человека можно гордитсяelia_ua - за этого человека можно гордитсяelia_ua - за этого человека можно гордитсяelia_ua - за этого человека можно гордитсяelia_ua - за этого человека можно гордитсяelia_ua - за этого человека можно гордитсяelia_ua - за этого человека можно гордится
По умолчанию

Цитата:
Сообщение от tex_1982 Посмотреть сообщение
Только два вопроса в догонку:
1) чем раздербанить djvu на изъятие слоя текста и на картинки не искали?
http://djvu.sourceforge.net/doc/man/djvuextract.html
но не пробовал
Цитата:
Сообщение от tex_1982 Посмотреть сообщение
2) Гугл оцр работает с кириллическим текстом?
Для него есть языковые модули под русский и украинский языки
__________________
Сон разума рождает чудовищ...
Но почему спит твой разум, а эти чудовища лезут в мой дом?
elia_ua вне форума   Ответить с цитированием
Ответ


Ваши права в разделе
Вы не можете создавать новые темы
Вы не можете отвечать в темах
Вы не можете прикреплять вложения
Вы не можете редактировать свои сообщения

BB коды Вкл.
Смайлы Вкл.
[IMG] код Вкл.
HTML код Выкл.

Быстрый переход

Похожие темы
Тема Автор Раздел Ответов Последнее сообщение
Загнать в WP много текстов Апокалипсис Разработка и сопровождение сайтов 24 12.03.2012 19:06
Как загнать сайт в БЛ? Santehnik Ошибки при работе с системой 6 10.03.2009 12:00
Загнать сайт в индекс 4ip Яндекс 5 06.02.2009 22:26
Как загнать в бан домен? antimild Яндекс 62 15.06.2008 21:05
Может Яндекс забанить целую зону? vosp Яндекс 16 09.03.2008 22:51


Часовой пояс GMT +3, время: 11:39.