• Problema con Text Extractor

  • Hemos intentado hacer de OpenKM una aplicación lo más intuitiva posible, sin embargo siempre viene bien algún consejo.
Hemos intentado hacer de OpenKM una aplicación lo más intuitiva posible, sin embargo siempre viene bien algún consejo.
Forum rules: Por favor, antes de preguntar algo consulta el wiki de documentación o utiliza la función de búsqueda del foro. Recuerda que no tenemos una bola de cristal ni poderes mentales, o sea que que para informar sobre un error es necesario que nos indiques tanto la versión de OpenKM que usas como la del navegador y sistema operativo. Para más información consulta Cómo informar de fallos de forma efectiva.
 #27876  by Jaruiz
 
Hola,
me ha tocado administrar un OpenKM en producción, llevo un tiempo ya (pero todavía me queda muchísimo por descubrir), y estoy gratamente sorprendido.
Pero he encontrado un problema que no sé por donde atacar: estamos escaneando documentos, y he visto que la cola de extracción de texto está bloqueada; tras buscar por foros, he probado la opción "Rebuild indexes", y empieza a procesar todo el repositorio correctamente... hasta que se vuelve a parar, en el mismo documento. Es un PDF adjunto en un correo, y el log indica que no tiene capa de texto. Entiendo que el sistema debería saltar este documento, ¿no? Porque seguro que encontrará más así.
Si no lo hace automáticamente, ¿hay opción de manipular esta cola manualmente?
Es la versión 6.2.3
 #27887  by jllort
 
No debería quedarse parado debería saltar el documento, podrías mirar de subir a la 6.2.5 que se han solucionado algunos bugs.

Para solucionar el tema desde la Administración -> Database query
Tienes la tabla OKM_NODE_DOCUMENT el campo NBS_UUID es el identificador del documento ( UUID ) a partir de ahí puedes hacer una select y despues un update poniendo el campo NDC_TEXT_EXTRACTED='T' con eso te desaparecerá de la cola de pendientes.
 #27890  by Jaruiz
 
Muchas gracias por la respuesta.
Eso entiendo yo, que no se debería parar, pero llevaba meses atascado en ese documento (no había llegado a tocar esta parte del Openkm). He tocado la BD, y sigue el proceso.
Espero poder actualizar la próxima semana a 6.2.5, y volveré a probar el documento.
 #27894  by jllort
 
Si nos posteas aqui el documento le hecharemos a un ojo a ver si vemos alguna razon por la que se quede clavado, no será un excel esto ?
 #27923  by Jaruiz
 
Hola,
no puedo postear el documento aquí, tiene cierta información sensible.
Se ha parado con otro .doc; curiosamente, los dos son adjuntos de correo. Quedan unos 1000 documentos (de 29k); en cuanto termine la extracción, intentaré actualizar, y probaré otra vez los documentos.
 #27938  by jllort
 
Lo que mas nos interesa es el log del error. Puedes forzar la indexación desde el crontab y ahí tiene que aparecer el error.

About Us

OpenKM is part of the management software. A management software is a program that facilitates the accomplishment of administrative tasks. OpenKM is a document management system that allows you to manage business content and workflow in a more efficient way. Document managers guarantee data protection by establishing information security for business content.