Page 1 of 1

Re-extracción de texto

PostPosted:Fri Sep 02, 2016 2:46 pm
by diegospano
Tengo un documento en formato PDF que contiene imágenes escaneadas y texto, el cual puede ser seleccionado y pegado en otro documento. Pero no logro que se indexe su contenido. El menú "show indexes" me muestra lo siguiente:
Code: Select all
#	108671
_hibernate_class	com.openkm.dao.bean.NodeDocument
uuid	95d12a3f-c534-4d5a-bed7-ed591e3e2129
parent	2cdddeaf-6e6a-4087-898e-3f1169388106
context	okm_root
author	agarcia
created	20160704
name	trabajo práctico clac.pdf
userPermission	okmAdmin
userPermission	amendez
rolePermission	ROLE_DNTA_RO
rolePermission	ROLE_DNTA
lastModified	20160704
mimeType	application/pdf
checkedOut	false
textExtracted	true
locked	false
terms	[] 
Tengo alguna manera de marcar el documento para que se le vuelva a extraer el texto?
Gracias.

Re: Re-extracción de texto

PostPosted:Sat Sep 03, 2016 7:44 am
by jllort
Lo que te interesa es al tabla OKM_NODE_DOCUMENT que tiene una columna que se llaman NDC_TEXT_EXTRACTED ( valores T o F ) y NBS_UUID.
El NBS_UUID te permite seleccionar un documento concreto ( el uuid lo puedes pillar de la pestaña de propiedades con el documento seleccionado ). El otro campo indica si el documento ha sido o no procesado ( T o F ). En el caso de F -> se encontrará en la cola de pendientes de indexación.

Si los quieres meter todos en la cola, es simplemente hacer un update de todo a "F"

Desde la administración -> tools -> tienes una utilidad para probar los text extractors ( "check text extractor" ). Si el documento presentase algún problema, desde ahí lo podrías ver.

Re: Re-extracción de texto

PostPosted:Mon Sep 05, 2016 1:02 pm
by diegospano
Pareciera que tengo un problema con el PDFTextExtractor. Analizando el log con un poco más de detalle encontré esta linea:

"extractor dependency not found org.apache.jackrabbit.extractor.PdfTtextExtractor".

Qué debo revisar?. La versión de la aplicación es 6.3.1 Build 8235.

Gracias.

Re: Re-extracción de texto

PostPosted:Tue Sep 06, 2016 12:16 pm
by jllort
En los parámetros de configuración tienes esta clase configurada ( mira en la administracion ).

Tienes que modificar la package org.apache.jackrabbit.extractor.PdfTtextExtracto por com.openkm.extractor.PdfTtextExtracto ( veras que hay varios )

Re: Re-extracción de texto

PostPosted:Tue Sep 06, 2016 3:22 pm
by diegospano
Ahora sí me funciona perfecto. Tengo además estos extractores configurados. Debo modificarlos también?
Code: Select all
org.apache.jackrabbit.extractor.PlainTextExtractor 
org.apache.jackrabbit.extractor.MsWordTextExtractor 
org.apache.jackrabbit.extractor.MsExcelTextExtractor 
org.apache.jackrabbit.extractor.MsPowerPointTextExtractor 
org.apache.jackrabbit.extractor.OpenOfficeTextExtractor 
org.apache.jackrabbit.extractor.RTFTextExtractor 
org.apache.jackrabbit.extractor.HTMLTextExtractor 
org.apache.jackrabbit.extractor.XMLTextExtractor 
Gracias

Re: Re-extracción de texto

PostPosted:Wed Sep 07, 2016 11:40 am
by pavila
Modificarlos para qué? No entiendo lo que quieres hacer. Se supone que el problema ya lo habías resuelto.

Re: Re-extracción de texto

PostPosted:Wed Sep 07, 2016 3:14 pm
by diegospano
En un principio yo tenia el org.apache.jackrabbit.extractor.PdfTtextExtractor funcionando perfectamente y luego de la última actualización (creo) dejó de funcionarme. De ahí tu mensaje de reemplazarlo por "com.openkm.extractor". Mi pregunta apuntaba a determinar si los otros extractores (que ho he probado aún) también debían ser editados como "com.openkm.extractor".
Gracias.

Re: Re-extracción de texto

PostPosted:Wed Sep 07, 2016 3:44 pm
by pavila
Vale, que no te entendía. Esos que comentas están bien.