Page 1 of 1

PDF CON CAPA DE TEXTO QUE NO ENCUENTRA

PostPosted:Mon Mar 17, 2014 12:08 pm
by acaballero
Buenos días, me he dado cuenta de lo siguiente:

Tengo un documento pdf que tiene capa de texto por lo que resulta fácil localizarlo.

Subo el documento a mi openkm y no lo encuentra. Sin embargo si lo subo a la demo lo encuentra sin problemas.

¿Cómo puedo atajar el problema?

Os adjunto el fichero pdf.

Re: PDF CON CAPA DE TEXTO QUE NO ENCUENTRA

PostPosted:Wed Mar 19, 2014 7:29 pm
by jllort
Que versión de OpenKM tienes ?

Re: PDF CON CAPA DE TEXTO QUE NO ENCUENTRA

PostPosted:Thu Mar 20, 2014 7:41 am
by acaballero
La 6.2.5 con mysql en windows 7 64 bits.

Me acabo de dar cuenta que el problema surge cuando utilizo mysql, con la base de datos original no me ocurre este problema.

¿Es problema es mio en la configuración o es problema del openkm?

Re: PDF CON CAPA DE TEXTO QUE NO ENCUENTRA

PostPosted:Fri Mar 21, 2014 7:03 pm
by jllort
tendrías que mirar el log a ver si te da algún tipo de error al tratar de insertar los valores. La MySQL la has creado como InnoDB ?

Re: PDF CON CAPA DE TEXTO QUE NO ENCUENTRA

PostPosted:Fri Mar 28, 2014 8:00 am
by acaballero
Hola, si, la MYSQL es InnoDB . No veo error, en el log de openkm. Entiendo que de lo contrario me daría errores continuos al subir ficheros, crear usuarios, etc. ¿verdad?

Re: PDF CON CAPA DE TEXTO QUE NO ENCUENTRA

PostPosted:Sat Mar 29, 2014 7:59 am
by jllort
Podría dar un error en el base de datos, hemos observado que algunas mysql tienen problemas , pero no todas.

Haz una cosa rápida:
1- en localiza el documento en OKM_NODE_DOCUMENT WHERE NBS_UUID= el uuid del documento
2- hay un campo que indica si el fichero se ha indexado o no T o F ( ponlo a F )
3- te vas a las tareas del crontab y disparas el text extractor
4- mira el log a ver si hay algun error

( En administracion -> stats -> extraction queue tienes la cola de pendientes de indexar ). Seria bueno asegurarse de que no hay nada pendiente, para estar seguros que le toca ser indexado.

Re: PDF CON CAPA DE TEXTO QUE NO ENCUENTRA

PostPosted:Thu Nov 06, 2014 3:24 pm
by acaballero
Buenas tardes, retomo este tema que lo dejé aparcado un tiempo por trabajo.

Me da este mensaje:
Code: Select all
06-nov-2014 16:20:53	system	MISC_TEXT_EXTRACTION_FAILURE	90d43038-04df-42e4-9ea7-f09b7bb9726f	/okm:root/ESCRITURA_NO_ENCUENTRA (3).PDF	Too few text extracted
¿Que debo hacer?
¿qué versión de Mysql me recomiendan? Tengo instalada Mysql 5.5

Gracias

Re: PDF CON CAPA DE TEXTO QUE NO ENCUENTRA

PostPosted:Sat Nov 08, 2014 11:06 am
by jllort
Aquí lo que te esta diciendo es que ha extraído poco texto o ninguno en este fichero. Esto se debe a que las imágenes que están dentro del PDF, una vez han pasado por el OCR ( esto lo tienes que tener bien configurado, sino siempre te dará el mismo problema ) no es capaz de extraer texto.

Si tienes el OCR bien configurado y esto continua haciendo lo mismo, nos tendrías que pasar un PDF para que viésemos que formato tiene. Y a partir de ahí te podemos hacer un par de sugerencias.