• PDF CON CAPA DE TEXTO QUE NO ENCUENTRA

  • Hemos intentado hacer de OpenKM una aplicación lo más intuitiva posible, sin embargo siempre viene bien algún consejo.
Hemos intentado hacer de OpenKM una aplicación lo más intuitiva posible, sin embargo siempre viene bien algún consejo.
Forum rules: Por favor, antes de preguntar algo consulta el wiki de documentación o utiliza la función de búsqueda del foro. Recuerda que no tenemos una bola de cristal ni poderes mentales, o sea que que para informar sobre un error es necesario que nos indiques tanto la versión de OpenKM que usas como la del navegador y sistema operativo. Para más información consulta Cómo informar de fallos de forma efectiva.
 #28119  by acaballero
 
Buenos días, me he dado cuenta de lo siguiente:

Tengo un documento pdf que tiene capa de texto por lo que resulta fácil localizarlo.

Subo el documento a mi openkm y no lo encuentra. Sin embargo si lo subo a la demo lo encuentra sin problemas.

¿Cómo puedo atajar el problema?

Os adjunto el fichero pdf.
Last edited by acaballero on Thu Nov 06, 2014 12:42 pm, edited 1 time in total.
 #28143  by acaballero
 
La 6.2.5 con mysql en windows 7 64 bits.

Me acabo de dar cuenta que el problema surge cuando utilizo mysql, con la base de datos original no me ocurre este problema.

¿Es problema es mio en la configuración o es problema del openkm?
 #28155  by jllort
 
tendrías que mirar el log a ver si te da algún tipo de error al tratar de insertar los valores. La MySQL la has creado como InnoDB ?
 #28211  by acaballero
 
Hola, si, la MYSQL es InnoDB . No veo error, en el log de openkm. Entiendo que de lo contrario me daría errores continuos al subir ficheros, crear usuarios, etc. ¿verdad?
 #28221  by jllort
 
Podría dar un error en el base de datos, hemos observado que algunas mysql tienen problemas , pero no todas.

Haz una cosa rápida:
1- en localiza el documento en OKM_NODE_DOCUMENT WHERE NBS_UUID= el uuid del documento
2- hay un campo que indica si el fichero se ha indexado o no T o F ( ponlo a F )
3- te vas a las tareas del crontab y disparas el text extractor
4- mira el log a ver si hay algun error

( En administracion -> stats -> extraction queue tienes la cola de pendientes de indexar ). Seria bueno asegurarse de que no hay nada pendiente, para estar seguros que le toca ser indexado.
 #30463  by acaballero
 
Buenas tardes, retomo este tema que lo dejé aparcado un tiempo por trabajo.

Me da este mensaje:
Code: Select all
06-nov-2014 16:20:53	system	MISC_TEXT_EXTRACTION_FAILURE	90d43038-04df-42e4-9ea7-f09b7bb9726f	/okm:root/ESCRITURA_NO_ENCUENTRA (3).PDF	Too few text extracted
¿Que debo hacer?
¿qué versión de Mysql me recomiendan? Tengo instalada Mysql 5.5

Gracias
 #30482  by jllort
 
Aquí lo que te esta diciendo es que ha extraído poco texto o ninguno en este fichero. Esto se debe a que las imágenes que están dentro del PDF, una vez han pasado por el OCR ( esto lo tienes que tener bien configurado, sino siempre te dará el mismo problema ) no es capaz de extraer texto.

Si tienes el OCR bien configurado y esto continua haciendo lo mismo, nos tendrías que pasar un PDF para que viésemos que formato tiene. Y a partir de ahí te podemos hacer un par de sugerencias.

About Us

OpenKM is part of the management software. A management software is a program that facilitates the accomplishment of administrative tasks. OpenKM is a document management system that allows you to manage business content and workflow in a more efficient way. Document managers guarantee data protection by establishing information security for business content.