Open Source Document Management System | OpenKM

PostPosted:**Fri Sep 02, 2016 2:46 pm**

Tengo un documento en formato PDF que contiene imágenes escaneadas y texto, el cual puede ser seleccionado y pegado en otro documento. Pero no logro que se indexe su contenido. El menú "show indexes" me muestra lo siguiente:

Code: Select all

#	108671
_hibernate_class	com.openkm.dao.bean.NodeDocument
uuid	95d12a3f-c534-4d5a-bed7-ed591e3e2129
parent	2cdddeaf-6e6a-4087-898e-3f1169388106
context	okm_root
author	agarcia
created	20160704
name	trabajo práctico clac.pdf
userPermission	okmAdmin
userPermission	amendez
rolePermission	ROLE_DNTA_RO
rolePermission	ROLE_DNTA
lastModified	20160704
mimeType	application/pdf
checkedOut	false
textExtracted	true
locked	false
terms	[]

Tengo alguna manera de marcar el documento para que se le vuelva a extraer el texto?
Gracias.

PostPosted:**Sat Sep 03, 2016 7:44 am**

Lo que te interesa es al tabla OKM_NODE_DOCUMENT que tiene una columna que se llaman NDC_TEXT_EXTRACTED ( valores T o F ) y NBS_UUID.
El NBS_UUID te permite seleccionar un documento concreto ( el uuid lo puedes pillar de la pestaña de propiedades con el documento seleccionado ). El otro campo indica si el documento ha sido o no procesado ( T o F ). En el caso de F -> se encontrará en la cola de pendientes de indexación.

Si los quieres meter todos en la cola, es simplemente hacer un update de todo a "F"

Desde la administración -> tools -> tienes una utilidad para probar los text extractors ( "check text extractor" ). Si el documento presentase algún problema, desde ahí lo podrías ver.

PostPosted:**Mon Sep 05, 2016 1:02 pm**

Pareciera que tengo un problema con el PDFTextExtractor. Analizando el log con un poco más de detalle encontré esta linea:

"extractor dependency not found org.apache.jackrabbit.extractor.PdfTtextExtractor".

Qué debo revisar?. La versión de la aplicación es 6.3.1 Build 8235.

Gracias.

PostPosted:**Tue Sep 06, 2016 12:16 pm**

En los parámetros de configuración tienes esta clase configurada ( mira en la administracion ).

Tienes que modificar la package org.apache.jackrabbit.extractor.PdfTtextExtracto por com.openkm.extractor.PdfTtextExtracto ( veras que hay varios )

PostPosted:**Tue Sep 06, 2016 3:22 pm**

Ahora sí me funciona perfecto. Tengo además estos extractores configurados. Debo modificarlos también?

Code: Select all

org.apache.jackrabbit.extractor.PlainTextExtractor 
org.apache.jackrabbit.extractor.MsWordTextExtractor 
org.apache.jackrabbit.extractor.MsExcelTextExtractor 
org.apache.jackrabbit.extractor.MsPowerPointTextExtractor 
org.apache.jackrabbit.extractor.OpenOfficeTextExtractor 
org.apache.jackrabbit.extractor.RTFTextExtractor 
org.apache.jackrabbit.extractor.HTMLTextExtractor 
org.apache.jackrabbit.extractor.XMLTextExtractor

Gracias

PostPosted:**Wed Sep 07, 2016 11:40 am**

Modificarlos para qué? No entiendo lo que quieres hacer. Se supone que el problema ya lo habías resuelto.

PostPosted:**Wed Sep 07, 2016 3:14 pm**

En un principio yo tenia el org.apache.jackrabbit.extractor.PdfTtextExtractor funcionando perfectamente y luego de la última actualización (creo) dejó de funcionarme. De ahí tu mensaje de reemplazarlo por "com.openkm.extractor". Mi pregunta apuntaba a determinar si los otros extractores (que ho he probado aún) también debían ser editados como "com.openkm.extractor".
Gracias.

PostPosted:**Wed Sep 07, 2016 3:44 pm**

Vale, que no te entendía. Esos que comentas están bien.

Open Source Document Management System | OpenKM

Re-extracción de texto

Re-extracción de texto

Re: Re-extracción de texto

Re: Re-extracción de texto

Re: Re-extracción de texto

Re: Re-extracción de texto

Re: Re-extracción de texto

Re: Re-extracción de texto

Re: Re-extracción de texto