Problemas con OCR de ficheros PDF
PostPosted:Fri Jun 12, 2015 1:03 pm
Hola,
tengo la impresión que no funciona fino el OCR de los ficheros PDF. Raro es que al principio de cada arranque del Tomcat si lo funciona y veo que se están creando ficheros PNG que luego se están revisando por OCR y veo el texto que sale en el DEBUG del "PdfTextExtractor".
Pero después de algunos ficheros (5 - 8 ) que han salido bien, se para el proceso y ya solo veo este output repitiéndose:
TextExtractionWorker: Awaiting for pool tasks termination
Si me muevo rápido a "Administration -> Stats -> Text extraction queue", puedo revisar que al principio se van los documentos que están colados en la tabla "Pending Extractions", pero después de algunos ficheros (5 - 8 ) que se van de la lista, ya no se cambia la lista, ni la de "Extractions In Progress (Running)". Estoy esperando horas y no pasa nada. Pero si paro otra vez el Tomcat y lo arranco de nuevo, volverá a pasar los mismo como descrito arriba, pero siempre solo con algunos PDFs...
Creo que la configuración tengo correcto:
Gracias y saludos,
Stefan
tengo la impresión que no funciona fino el OCR de los ficheros PDF. Raro es que al principio de cada arranque del Tomcat si lo funciona y veo que se están creando ficheros PNG que luego se están revisando por OCR y veo el texto que sale en el DEBUG del "PdfTextExtractor".
Pero después de algunos ficheros (5 - 8 ) que han salido bien, se para el proceso y ya solo veo este output repitiéndose:
TextExtractionWorker: Awaiting for pool tasks termination
Si me muevo rápido a "Administration -> Stats -> Text extraction queue", puedo revisar que al principio se van los documentos que están colados en la tabla "Pending Extractions", pero después de algunos ficheros (5 - 8 ) que se van de la lista, ya no se cambia la lista, ni la de "Extractions In Progress (Running)". Estoy esperando horas y no pasa nada. Pero si paro otra vez el Tomcat y lo arranco de nuevo, volverá a pasar los mismo como descrito arriba, pero siempre solo con algunos PDFs...
Creo que la configuración tengo correcto:
Code: Select all
¿Que esta pasando? ¿Quien me puede ayudar?managed.text.extraction Boolean Active
managed.text.extraction.batch Integer 10
managed.text.extraction.concurrent Boolean Active
managed.text.extraction.pool.size Integer 4
managed.text.extraction.pool.threads Integer 8
managed.text.extraction.pool.timeout Integer 1
system.ocr String D:/openkm/tesseract-ocr/tesseract.exe ${fileIn} ${fileOut}
system.imagemagick.convert String D:/openkm/ImageMagick/convert.exe
system.pdf.force.ocr Boolean Active
system.swftools.pdf2swf String D:/openkm/tomcat/bin/pdf2swf.exe -T 9 -f -t -G -s storeallcharacters ${fileIn} -o ${fileOut}
Gracias y saludos,
Stefan