Open Source Document Management System | OpenKM

PostPosted:**Thu Feb 23, 2012 7:24 pm**

Estoy usando la version Community 5.1.10 Build 7461 sobre WinXP Profesional

Cuando subo un PDF el log me arroja el siguiente error :

Code: Select all

[PdfTextExtractor] PDF does not contains text layer
[PdfTextExtractor] No OCR engine configured

Y no me indexa el interior del PDF. Si desactivo la linea de Tesseract me desaparece el error y si me indexa el contenido.

Uso tessreact 3 y si lo prueba desde linea de comandos me realiza el OCR sin problemas.

¿Alguna idea?

Por cierto, como se puede controlar el numero de mensajes que arroja el server. Es decir quitar los WARN o los INFO y solo dejar los errores.

Saludos

PostPosted:**Fri Feb 24, 2012 6:00 pm**

Según parece no tienes configurado un OCR. Puedes postear tu configuración?

Para el tema de log, lee http://wiki.openkm.com/index.php/Debugging_OpenKM.

PostPosted:**Sun Feb 26, 2012 8:38 am**

Lo has configurado - el tesseract3 - en los parametros de configuración. Ojo que tienes que modificar también el CuneiformTextExtractor por la classe del extractor del tesseract, me refiero a esta propiedad registered.text.extractors ( mira los valores ) y contrastalos con los que has de tener si tienes el tesseract3, mira aqui la clase del textextractor que le corresponde http://wiki.openkm.com/index.php/OCR

Open Source Document Management System | OpenKM

No hace index

No hace index

Re: No hace index

Re: No hace index