• Re-extracción de texto

  • Hemos intentado hacer de OpenKM una aplicación lo más intuitiva posible, sin embargo siempre viene bien algún consejo.
Hemos intentado hacer de OpenKM una aplicación lo más intuitiva posible, sin embargo siempre viene bien algún consejo.
Forum rules: Por favor, antes de preguntar algo consulta el wiki de documentación o utiliza la función de búsqueda del foro. Recuerda que no tenemos una bola de cristal ni poderes mentales, o sea que que para informar sobre un error es necesario que nos indiques tanto la versión de OpenKM que usas como la del navegador y sistema operativo. Para más información consulta Cómo informar de fallos de forma efectiva.
 #42232  by diegospano
 
Tengo un documento en formato PDF que contiene imágenes escaneadas y texto, el cual puede ser seleccionado y pegado en otro documento. Pero no logro que se indexe su contenido. El menú "show indexes" me muestra lo siguiente:
Code: Select all
#	108671
_hibernate_class	com.openkm.dao.bean.NodeDocument
uuid	95d12a3f-c534-4d5a-bed7-ed591e3e2129
parent	2cdddeaf-6e6a-4087-898e-3f1169388106
context	okm_root
author	agarcia
created	20160704
name	trabajo práctico clac.pdf
userPermission	okmAdmin
userPermission	amendez
rolePermission	ROLE_DNTA_RO
rolePermission	ROLE_DNTA
lastModified	20160704
mimeType	application/pdf
checkedOut	false
textExtracted	true
locked	false
terms	[] 
Tengo alguna manera de marcar el documento para que se le vuelva a extraer el texto?
Gracias.
 #42238  by jllort
 
Lo que te interesa es al tabla OKM_NODE_DOCUMENT que tiene una columna que se llaman NDC_TEXT_EXTRACTED ( valores T o F ) y NBS_UUID.
El NBS_UUID te permite seleccionar un documento concreto ( el uuid lo puedes pillar de la pestaña de propiedades con el documento seleccionado ). El otro campo indica si el documento ha sido o no procesado ( T o F ). En el caso de F -> se encontrará en la cola de pendientes de indexación.

Si los quieres meter todos en la cola, es simplemente hacer un update de todo a "F"

Desde la administración -> tools -> tienes una utilidad para probar los text extractors ( "check text extractor" ). Si el documento presentase algún problema, desde ahí lo podrías ver.
 #42248  by diegospano
 
Pareciera que tengo un problema con el PDFTextExtractor. Analizando el log con un poco más de detalle encontré esta linea:

"extractor dependency not found org.apache.jackrabbit.extractor.PdfTtextExtractor".

Qué debo revisar?. La versión de la aplicación es 6.3.1 Build 8235.

Gracias.
 #42252  by jllort
 
En los parámetros de configuración tienes esta clase configurada ( mira en la administracion ).

Tienes que modificar la package org.apache.jackrabbit.extractor.PdfTtextExtracto por com.openkm.extractor.PdfTtextExtracto ( veras que hay varios )
 #42254  by diegospano
 
Ahora sí me funciona perfecto. Tengo además estos extractores configurados. Debo modificarlos también?
Code: Select all
org.apache.jackrabbit.extractor.PlainTextExtractor 
org.apache.jackrabbit.extractor.MsWordTextExtractor 
org.apache.jackrabbit.extractor.MsExcelTextExtractor 
org.apache.jackrabbit.extractor.MsPowerPointTextExtractor 
org.apache.jackrabbit.extractor.OpenOfficeTextExtractor 
org.apache.jackrabbit.extractor.RTFTextExtractor 
org.apache.jackrabbit.extractor.HTMLTextExtractor 
org.apache.jackrabbit.extractor.XMLTextExtractor 
Gracias
 #42258  by pavila
 
Modificarlos para qué? No entiendo lo que quieres hacer. Se supone que el problema ya lo habías resuelto.
 #42260  by diegospano
 
En un principio yo tenia el org.apache.jackrabbit.extractor.PdfTtextExtractor funcionando perfectamente y luego de la última actualización (creo) dejó de funcionarme. De ahí tu mensaje de reemplazarlo por "com.openkm.extractor". Mi pregunta apuntaba a determinar si los otros extractores (que ho he probado aún) también debían ser editados como "com.openkm.extractor".
Gracias.
 #42261  by pavila
 
Vale, que no te entendía. Esos que comentas están bien.

About Us

OpenKM is part of the management software. A management software is a program that facilitates the accomplishment of administrative tasks. OpenKM is a document management system that allows you to manage business content and workflow in a more efficient way. Document managers guarantee data protection by establishing information security for business content.