Open Source Document Management System | OpenKM

PostPosted:**Fri Jun 12, 2015 1:03 pm**

Hola,

tengo la impresión que no funciona fino el OCR de los ficheros PDF. Raro es que al principio de cada arranque del Tomcat si lo funciona y veo que se están creando ficheros PNG que luego se están revisando por OCR y veo el texto que sale en el DEBUG del "PdfTextExtractor".
Pero después de algunos ficheros (5 - 8 ) que han salido bien, se para el proceso y ya solo veo este output repitiéndose:

TextExtractionWorker: Awaiting for pool tasks termination

Si me muevo rápido a "Administration -> Stats -> Text extraction queue", puedo revisar que al principio se van los documentos que están colados en la tabla "Pending Extractions", pero después de algunos ficheros (5 - 8 ) que se van de la lista, ya no se cambia la lista, ni la de "Extractions In Progress (Running)". Estoy esperando horas y no pasa nada. Pero si paro otra vez el Tomcat y lo arranco de nuevo, volverá a pasar los mismo como descrito arriba, pero siempre solo con algunos PDFs...

Creo que la configuración tengo correcto:

Code: Select all

managed.text.extraction	Boolean 	Active
managed.text.extraction.batch	Integer 	10
managed.text.extraction.concurrent	Boolean 	Active
managed.text.extraction.pool.size	Integer 	4
managed.text.extraction.pool.threads	Integer 	8
managed.text.extraction.pool.timeout	Integer 	1

system.ocr	String 	D:/openkm/tesseract-ocr/tesseract.exe ${fileIn} ${fileOut}
system.imagemagick.convert	String 	D:/openkm/ImageMagick/convert.exe 
system.pdf.force.ocr	Boolean 	Active
system.swftools.pdf2swf	String 	D:/openkm/tomcat/bin/pdf2swf.exe -T 9 -f -t -G -s storeallcharacters ${fileIn} -o ${fileOut}

¿Que esta pasando? ¿Quien me puede ayudar?

Gracias y saludos,
Stefan

PostPosted:**Mon Jun 15, 2015 7:27 am**

Primero, lo del system.PDF.force.ocr lo desactivaría ( forzar que todos los pdf pasen por el ocr sólo debería utilizarse en segun que casos ). La idea es que si el extractor normal de pdf no es capaz de sacar texto automáticamente se le pasa el OCR ( esto ya lo hace automático ).

Mira a ver si se quedan procesos corriendo. Si tienes algun fichero que siempre esta presente entre los 4 primeros.

Cuantos cores tienes ?

PostPosted:**Mon Jun 15, 2015 10:21 am**

Hola,

voy a desactivar lo de "force". Tengo 4 cores con hyperthreading. No hay procesos corriendo después de un "shutdown.bat".
Acabo de arrancar OpenKM 2 veces y realmente ha revisado solo 12 documentos y nada mas. En "openkm/tomcat/temp/" se añadieron solo 24 ficheros y nada mas. 2 arranques x 6 documentos x 2 ficheros (uno de txt y otro de png) = 24 ficheros.

Saludos,
Stefan

PostPosted:**Tue Jun 16, 2015 3:20 pm**

Este parametro managed.text.extraction.batch mejor si es multiple de 8, pero vamos que de ahí no viene el problema.

Que tal vas de memoria y que parametros tiene el setenv.bat ?

PostPosted:**Wed Jun 17, 2015 4:24 pm**

OK, he cambiado el parametro managed.text.extraction.batch a 16.

setenv.bat esta sin cambiar y así:

Code: Select all

set JAVA_OPTS=%JAVA_OPTS% -Xms256m -Xmx2048m -XX:PermSize=256m -XX:MaxPermSize=356m
set JAVA_OPTS=%JAVA_OPTS% -Djava.awt.headless=true -Dlog4j.configuration=file:///%CATALINA_HOME%/conf/log4j.properties
set JAVA_OPTS=%JAVA_OPTS% -Dfile.encoding=utf-8 -Dmail.mime.ignoreunknownencoding=true
set PATH=%PATH%;%CATALINA_HOME%\lib\sigar

Parece que solo realiza el OCR para 8 ficheros (managed.text.extraction.pool.threads=8).
Si cambio este valora a 6 hace solo OCR de 6 ficheros... Vaya!

Saludos,
Bieli

PostPosted:**Thu Jun 18, 2015 2:56 pm**

En cada ciclo, hace los del batch y despues se duerme 5 minutos antes de volver a empezar ( así es como esta programada la tarea de crontab ). La puedes poner mas radical ( que se ejecute cada minuto, pero piensa que esto puede comer gran cantidad de recursos del hardware ).

PostPosted:**Fri Sep 18, 2015 9:57 am**

Solucionado! Ha sido este problema:

CPU continuamente a 50% de sus recursos

Saludos,
Bieli

PostPosted:**Fri Sep 18, 2015 3:56 pm**

Gracias por el aporte, lo tendremos en consideración porque vemos que ya hay un par de usuarios con el mismo problema.

Open Source Document Management System | OpenKM

Problemas con OCR de ficheros PDF

Problemas con OCR de ficheros PDF

Re: Problemas con OCR de ficheros PDF

Re: Problemas con OCR de ficheros PDF

Re: Problemas con OCR de ficheros PDF

Re: Problemas con OCR de ficheros PDF

Re: Problemas con OCR de ficheros PDF

Re: Problemas con OCR de ficheros PDF

Re: Problemas con OCR de ficheros PDF