Page 1 of 1

No hace index

PostPosted:Thu Feb 23, 2012 7:24 pm
by thallusete
Estoy usando la version Community 5.1.10 Build 7461 sobre WinXP Profesional

Cuando subo un PDF el log me arroja el siguiente error :
Code: Select all
[PdfTextExtractor] PDF does not contains text layer
[PdfTextExtractor] No OCR engine configured
Y no me indexa el interior del PDF. Si desactivo la linea de Tesseract me desaparece el error y si me indexa el contenido.

Uso tessreact 3 y si lo prueba desde linea de comandos me realiza el OCR sin problemas.

¿Alguna idea?

Por cierto, como se puede controlar el numero de mensajes que arroja el server. Es decir quitar los WARN o los INFO y solo dejar los errores.

Saludos

Re: No hace index

PostPosted:Fri Feb 24, 2012 6:00 pm
by pavila
Según parece no tienes configurado un OCR. Puedes postear tu configuración?

Para el tema de log, lee http://wiki.openkm.com/index.php/Debugging_OpenKM.

Re: No hace index

PostPosted:Sun Feb 26, 2012 8:38 am
by jllort
Lo has configurado - el tesseract3 - en los parametros de configuración. Ojo que tienes que modificar también el CuneiformTextExtractor por la classe del extractor del tesseract, me refiero a esta propiedad registered.text.extractors ( mira los valores ) y contrastalos con los que has de tener si tienes el tesseract3, mira aqui la clase del textextractor que le corresponde http://wiki.openkm.com/index.php/OCR