Page 1 of 1
Re-extracción de texto
PostPosted:Fri Sep 02, 2016 2:46 pm
by diegospano
Tengo un documento en formato PDF que contiene imágenes escaneadas y texto, el cual puede ser seleccionado y pegado en otro documento. Pero no logro que se indexe su contenido. El menú "show indexes" me muestra lo siguiente:
Code: Select all# 108671
_hibernate_class com.openkm.dao.bean.NodeDocument
uuid 95d12a3f-c534-4d5a-bed7-ed591e3e2129
parent 2cdddeaf-6e6a-4087-898e-3f1169388106
context okm_root
author agarcia
created 20160704
name trabajo práctico clac.pdf
userPermission okmAdmin
userPermission amendez
rolePermission ROLE_DNTA_RO
rolePermission ROLE_DNTA
lastModified 20160704
mimeType application/pdf
checkedOut false
textExtracted true
locked false
terms []
Tengo alguna manera de marcar el documento para que se le vuelva a extraer el texto?
Gracias.
Re: Re-extracción de texto
PostPosted:Sat Sep 03, 2016 7:44 am
by jllort
Lo que te interesa es al tabla OKM_NODE_DOCUMENT que tiene una columna que se llaman NDC_TEXT_EXTRACTED ( valores T o F ) y NBS_UUID.
El NBS_UUID te permite seleccionar un documento concreto ( el uuid lo puedes pillar de la pestaña de propiedades con el documento seleccionado ). El otro campo indica si el documento ha sido o no procesado ( T o F ). En el caso de F -> se encontrará en la cola de pendientes de indexación.
Si los quieres meter todos en la cola, es simplemente hacer un update de todo a "F"
Desde la administración -> tools -> tienes una utilidad para probar los text extractors ( "check text extractor" ). Si el documento presentase algún problema, desde ahí lo podrías ver.
Re: Re-extracción de texto
PostPosted:Mon Sep 05, 2016 1:02 pm
by diegospano
Pareciera que tengo un problema con el PDFTextExtractor. Analizando el log con un poco más de detalle encontré esta linea:
"extractor dependency not found org.apache.jackrabbit.extractor.PdfTtextExtractor".
Qué debo revisar?. La versión de la aplicación es 6.3.1 Build 8235.
Gracias.
Re: Re-extracción de texto
PostPosted:Tue Sep 06, 2016 12:16 pm
by jllort
En los parámetros de configuración tienes esta clase configurada ( mira en la administracion ).
Tienes que modificar la package org.apache.jackrabbit.extractor.PdfTtextExtracto por com.openkm.extractor.PdfTtextExtracto ( veras que hay varios )
Re: Re-extracción de texto
PostPosted:Tue Sep 06, 2016 3:22 pm
by diegospano
Ahora sí me funciona perfecto. Tengo además estos extractores configurados. Debo modificarlos también?
Code: Select allorg.apache.jackrabbit.extractor.PlainTextExtractor
org.apache.jackrabbit.extractor.MsWordTextExtractor
org.apache.jackrabbit.extractor.MsExcelTextExtractor
org.apache.jackrabbit.extractor.MsPowerPointTextExtractor
org.apache.jackrabbit.extractor.OpenOfficeTextExtractor
org.apache.jackrabbit.extractor.RTFTextExtractor
org.apache.jackrabbit.extractor.HTMLTextExtractor
org.apache.jackrabbit.extractor.XMLTextExtractor
Gracias
Re: Re-extracción de texto
PostPosted:Wed Sep 07, 2016 11:40 am
by pavila
Modificarlos para qué? No entiendo lo que quieres hacer. Se supone que el problema ya lo habías resuelto.
Re: Re-extracción de texto
PostPosted:Wed Sep 07, 2016 3:14 pm
by diegospano
En un principio yo tenia el org.apache.jackrabbit.extractor.PdfTtextExtractor funcionando perfectamente y luego de la última actualización (creo) dejó de funcionarme. De ahí tu mensaje de reemplazarlo por "com.openkm.extractor". Mi pregunta apuntaba a determinar si los otros extractores (que ho he probado aún) también debían ser editados como "com.openkm.extractor".
Gracias.
Re: Re-extracción de texto
PostPosted:Wed Sep 07, 2016 3:44 pm
by pavila
Vale, que no te entendía. Esos que comentas están bien.