Open Source Document Management System | OpenKM

Re-extracción de texto

Forum rules: Por favor, antes de preguntar algo consulta el wiki de documentación o utiliza la función de búsqueda del foro. Recuerda que no tenemos una bola de cristal ni poderes mentales, o sea que que para informar sobre un error es necesario que nos indiques tanto la versión de OpenKM que usas como la del navegador y sistema operativo. Para más información consulta Cómo informar de fallos de forma efectiva.

8 posts

8 posts

Re-extracción de texto

#42232 by diegospano
Fri Sep 02, 2016 2:46 pm

Tengo un documento en formato PDF que contiene imágenes escaneadas y texto, el cual puede ser seleccionado y pegado en otro documento. Pero no logro que se indexe su contenido. El menú "show indexes" me muestra lo siguiente:

Code: Select all

#	108671
_hibernate_class	com.openkm.dao.bean.NodeDocument
uuid	95d12a3f-c534-4d5a-bed7-ed591e3e2129
parent	2cdddeaf-6e6a-4087-898e-3f1169388106
context	okm_root
author	agarcia
created	20160704
name	trabajo práctico clac.pdf
userPermission	okmAdmin
userPermission	amendez
rolePermission	ROLE_DNTA_RO
rolePermission	ROLE_DNTA
lastModified	20160704
mimeType	application/pdf
checkedOut	false
textExtracted	true
locked	false
terms	[]

Tengo alguna manera de marcar el documento para que se le vuelva a extraer el texto?
Gracias.

Username

diegospano

Rank

Senior Boarder

Posts

Joined

Wed Sep 28, 2011 7:12 pm

Re: Re-extracción de texto

#42238 by jllort
Sat Sep 03, 2016 7:44 am

Lo que te interesa es al tabla OKM_NODE_DOCUMENT que tiene una columna que se llaman NDC_TEXT_EXTRACTED ( valores T o F ) y NBS_UUID.
El NBS_UUID te permite seleccionar un documento concreto ( el uuid lo puedes pillar de la pestaña de propiedades con el documento seleccionado ). El otro campo indica si el documento ha sido o no procesado ( T o F ). En el caso de F -> se encontrará en la cola de pendientes de indexación.

Si los quieres meter todos en la cola, es simplemente hacer un update de todo a "F"

Desde la administración -> tools -> tienes una utilidad para probar los text extractors ( "check text extractor" ). Si el documento presentase algún problema, desde ahí lo podrías ver.

Username

jllort

Rank

Moderator

Posts

12129

Joined

Fri Dec 21, 2007 11:23 am

Location

Sineu - ( Illes Balears ) - Spain

Contact

Re: Re-extracción de texto

#42248 by diegospano
Mon Sep 05, 2016 1:02 pm

Pareciera que tengo un problema con el PDFTextExtractor. Analizando el log con un poco más de detalle encontré esta linea:

"extractor dependency not found org.apache.jackrabbit.extractor.PdfTtextExtractor".

Qué debo revisar?. La versión de la aplicación es 6.3.1 Build 8235.

Gracias.

Username

diegospano

Rank

Senior Boarder

Posts

Joined

Wed Sep 28, 2011 7:12 pm

Re: Re-extracción de texto

#42252 by jllort
Tue Sep 06, 2016 12:16 pm

En los parámetros de configuración tienes esta clase configurada ( mira en la administracion ).

Tienes que modificar la package org.apache.jackrabbit.extractor.PdfTtextExtracto por com.openkm.extractor.PdfTtextExtracto ( veras que hay varios )

Username

jllort

Rank

Moderator

Posts

12129

Joined

Fri Dec 21, 2007 11:23 am

Location

Sineu - ( Illes Balears ) - Spain

Contact

Re: Re-extracción de texto

#42254 by diegospano
Tue Sep 06, 2016 3:22 pm

Ahora sí me funciona perfecto. Tengo además estos extractores configurados. Debo modificarlos también?

Code: Select all

org.apache.jackrabbit.extractor.PlainTextExtractor 
org.apache.jackrabbit.extractor.MsWordTextExtractor 
org.apache.jackrabbit.extractor.MsExcelTextExtractor 
org.apache.jackrabbit.extractor.MsPowerPointTextExtractor 
org.apache.jackrabbit.extractor.OpenOfficeTextExtractor 
org.apache.jackrabbit.extractor.RTFTextExtractor 
org.apache.jackrabbit.extractor.HTMLTextExtractor 
org.apache.jackrabbit.extractor.XMLTextExtractor

Gracias

Username

diegospano

Rank

Senior Boarder

Posts

Joined

Wed Sep 28, 2011 7:12 pm

Re: Re-extracción de texto

#42258 by pavila
Wed Sep 07, 2016 11:40 am

Modificarlos para qué? No entiendo lo que quieres hacer. Se supone que el problema ya lo habías resuelto.

Username

pavila

Rank

Moderator

Posts

3142

Joined

Tue Dec 11, 2007 6:02 pm

Location

Alicante, Spain

Contact

Re: Re-extracción de texto

#42260 by diegospano
Wed Sep 07, 2016 3:14 pm

En un principio yo tenia el org.apache.jackrabbit.extractor.PdfTtextExtractor funcionando perfectamente y luego de la última actualización (creo) dejó de funcionarme. De ahí tu mensaje de reemplazarlo por "com.openkm.extractor". Mi pregunta apuntaba a determinar si los otros extractores (que ho he probado aún) también debían ser editados como "com.openkm.extractor".
Gracias.

Username

diegospano

Rank

Senior Boarder

Posts

Joined

Wed Sep 28, 2011 7:12 pm

Re: Re-extracción de texto

#42261 by pavila
Wed Sep 07, 2016 3:44 pm

Vale, que no te entendía. Esos que comentas están bien.

Username

pavila

Rank

Moderator

Posts

3142

Joined

Tue Dec 11, 2007 6:02 pm

Location

Alicante, Spain

Contact

Page 1 of 1
8 posts

Return to “Uso”

Display:

Sort by:

Jump to: