Open Source Document Management System | OpenKM

PostPosted:**Mon Mar 17, 2014 12:08 pm**

Buenos días, me he dado cuenta de lo siguiente:

Tengo un documento pdf que tiene capa de texto por lo que resulta fácil localizarlo.

Subo el documento a mi openkm y no lo encuentra. Sin embargo si lo subo a la demo lo encuentra sin problemas.

¿Cómo puedo atajar el problema?

Os adjunto el fichero pdf.

PostPosted:**Wed Mar 19, 2014 7:29 pm**

Que versión de OpenKM tienes ?

PostPosted:**Thu Mar 20, 2014 7:41 am**

La 6.2.5 con mysql en windows 7 64 bits.

Me acabo de dar cuenta que el problema surge cuando utilizo mysql, con la base de datos original no me ocurre este problema.

¿Es problema es mio en la configuración o es problema del openkm?

PostPosted:**Fri Mar 21, 2014 7:03 pm**

tendrías que mirar el log a ver si te da algún tipo de error al tratar de insertar los valores. La MySQL la has creado como InnoDB ?

PostPosted:**Fri Mar 28, 2014 8:00 am**

Hola, si, la MYSQL es InnoDB . No veo error, en el log de openkm. Entiendo que de lo contrario me daría errores continuos al subir ficheros, crear usuarios, etc. ¿verdad?

PostPosted:**Sat Mar 29, 2014 7:59 am**

Podría dar un error en el base de datos, hemos observado que algunas mysql tienen problemas , pero no todas.

Haz una cosa rápida:
1- en localiza el documento en OKM_NODE_DOCUMENT WHERE NBS_UUID= el uuid del documento
2- hay un campo que indica si el fichero se ha indexado o no T o F ( ponlo a F )
3- te vas a las tareas del crontab y disparas el text extractor
4- mira el log a ver si hay algun error

( En administracion -> stats -> extraction queue tienes la cola de pendientes de indexar ). Seria bueno asegurarse de que no hay nada pendiente, para estar seguros que le toca ser indexado.

PostPosted:**Thu Nov 06, 2014 3:24 pm**

Buenas tardes, retomo este tema que lo dejé aparcado un tiempo por trabajo.

Me da este mensaje:

Code: Select all

06-nov-2014 16:20:53	system	MISC_TEXT_EXTRACTION_FAILURE	90d43038-04df-42e4-9ea7-f09b7bb9726f	/okm:root/ESCRITURA_NO_ENCUENTRA (3).PDF	Too few text extracted

¿Que debo hacer?
¿qué versión de Mysql me recomiendan? Tengo instalada Mysql 5.5

Gracias

PostPosted:**Sat Nov 08, 2014 11:06 am**

Aquí lo que te esta diciendo es que ha extraído poco texto o ninguno en este fichero. Esto se debe a que las imágenes que están dentro del PDF, una vez han pasado por el OCR ( esto lo tienes que tener bien configurado, sino siempre te dará el mismo problema ) no es capaz de extraer texto.

Si tienes el OCR bien configurado y esto continua haciendo lo mismo, nos tendrías que pasar un PDF para que viésemos que formato tiene. Y a partir de ahí te podemos hacer un par de sugerencias.

Open Source Document Management System | OpenKM

PDF CON CAPA DE TEXTO QUE NO ENCUENTRA

PDF CON CAPA DE TEXTO QUE NO ENCUENTRA

Re: PDF CON CAPA DE TEXTO QUE NO ENCUENTRA

Re: PDF CON CAPA DE TEXTO QUE NO ENCUENTRA

Re: PDF CON CAPA DE TEXTO QUE NO ENCUENTRA

Re: PDF CON CAPA DE TEXTO QUE NO ENCUENTRA

Re: PDF CON CAPA DE TEXTO QUE NO ENCUENTRA

Re: PDF CON CAPA DE TEXTO QUE NO ENCUENTRA

Re: PDF CON CAPA DE TEXTO QUE NO ENCUENTRA