Page 1 of 1
PDF CON CAPA DE TEXTO QUE NO ENCUENTRA
PostPosted:Mon Mar 17, 2014 12:08 pm
by acaballero
Buenos días, me he dado cuenta de lo siguiente:
Tengo un documento pdf que tiene capa de texto por lo que resulta fácil localizarlo.
Subo el documento a mi openkm y no lo encuentra. Sin embargo si lo subo a la demo lo encuentra sin problemas.
¿Cómo puedo atajar el problema?
Os adjunto el fichero pdf.
Re: PDF CON CAPA DE TEXTO QUE NO ENCUENTRA
PostPosted:Wed Mar 19, 2014 7:29 pm
by jllort
Que versión de OpenKM tienes ?
Re: PDF CON CAPA DE TEXTO QUE NO ENCUENTRA
PostPosted:Thu Mar 20, 2014 7:41 am
by acaballero
La 6.2.5 con mysql en windows 7 64 bits.
Me acabo de dar cuenta que el problema surge cuando utilizo mysql, con la base de datos original no me ocurre este problema.
¿Es problema es mio en la configuración o es problema del openkm?
Re: PDF CON CAPA DE TEXTO QUE NO ENCUENTRA
PostPosted:Fri Mar 21, 2014 7:03 pm
by jllort
tendrías que mirar el log a ver si te da algún tipo de error al tratar de insertar los valores. La MySQL la has creado como InnoDB ?
Re: PDF CON CAPA DE TEXTO QUE NO ENCUENTRA
PostPosted:Fri Mar 28, 2014 8:00 am
by acaballero
Hola, si, la MYSQL es InnoDB . No veo error, en el log de openkm. Entiendo que de lo contrario me daría errores continuos al subir ficheros, crear usuarios, etc. ¿verdad?
Re: PDF CON CAPA DE TEXTO QUE NO ENCUENTRA
PostPosted:Sat Mar 29, 2014 7:59 am
by jllort
Podría dar un error en el base de datos, hemos observado que algunas mysql tienen problemas , pero no todas.
Haz una cosa rápida:
1- en localiza el documento en OKM_NODE_DOCUMENT WHERE NBS_UUID= el uuid del documento
2- hay un campo que indica si el fichero se ha indexado o no T o F ( ponlo a F )
3- te vas a las tareas del crontab y disparas el text extractor
4- mira el log a ver si hay algun error
( En administracion -> stats -> extraction queue tienes la cola de pendientes de indexar ). Seria bueno asegurarse de que no hay nada pendiente, para estar seguros que le toca ser indexado.
Re: PDF CON CAPA DE TEXTO QUE NO ENCUENTRA
PostPosted:Thu Nov 06, 2014 3:24 pm
by acaballero
Buenas tardes, retomo este tema que lo dejé aparcado un tiempo por trabajo.
Me da este mensaje:
Code: Select all06-nov-2014 16:20:53 system MISC_TEXT_EXTRACTION_FAILURE 90d43038-04df-42e4-9ea7-f09b7bb9726f /okm:root/ESCRITURA_NO_ENCUENTRA (3).PDF Too few text extracted
¿Que debo hacer?
¿qué versión de Mysql me recomiendan? Tengo instalada Mysql 5.5
Gracias
Re: PDF CON CAPA DE TEXTO QUE NO ENCUENTRA
PostPosted:Sat Nov 08, 2014 11:06 am
by jllort
Aquí lo que te esta diciendo es que ha extraído poco texto o ninguno en este fichero. Esto se debe a que las imágenes que están dentro del PDF, una vez han pasado por el OCR ( esto lo tienes que tener bien configurado, sino siempre te dará el mismo problema ) no es capaz de extraer texto.
Si tienes el OCR bien configurado y esto continua haciendo lo mismo, nos tendrías que pasar un PDF para que viésemos que formato tiene. Y a partir de ahí te podemos hacer un par de sugerencias.