Page 1 of 1

Busqueda en Metadatos

PostPosted:Fri Jan 22, 2021 1:19 pm
by juanmc
Buenos dias,

Necesito una ayudita.

En una version community 6.3.9 he greado un grupo de metadatos en el que uno de los campos es de tipo texto.
Al hacer una busqueda avanzada en ese campo de metadatos por una palabra, no encuentra resultados.
Algo que no acabo de enteneder, si busco ESCRITURA, no encuentra ningun resultado, si busco ESCRITUR, entonces si que encuentra algunos (no todos)
El tipo de analizador que tengo configurado es hibernate.search.analyzer=org.apache.lucene.analysis.es.SpanishAnalyzer.
Por otro lado, he comprobado que hay casos en las que, aun habiendo metadatos asociados a un nodo, en el índice de ese nodo no hay "Terms" Cuando supongo que al menos deberían aparecer los "Terms" extraidos de los metadatos.

Espero haberme explicado.

Muchas gracias.

Re: Busqueda en Metadatos

PostPosted:Fri Jan 22, 2021 7:17 pm
by jllort
Piensa que los documentos no se indexan en tiempo real y igual aun los tienes en la cola de extracción https://docs.openkm.com/kcenter/view/ok ... ctionqueue

Los campos de metadatos se búscan separadamente, es decir, si en un campo de metados tienes el valor "escritura" no vas a poder buscar por contenido este valor, porque depende de un campo de metadatos, esto es importante tenerlo en cuenta.

Si nos pasas algun documento de ejemplo con capturas de pantalla - para entender la búsqueda que estas realizando y el documento que debería aparecer y no aparece - podemos intentar en uno de nuestros entornos de desarrollo reproducir el problema.

Re: Busqueda en Metadatos

PostPosted:Mon Jan 25, 2021 9:53 am
by juanmc
Hola Jillort,
Lo primero, Muchas gracias por contestar.
Y ahora al lío. Efectivamente tengo unas 12.000 extracciones pendientes, pero de un repositorio de más de 100.000 documentos, por lo que la cantidad de resultados que se obtienen al hacer una búsqueda, no tiene sentido.

Esta es la definicion del campo de metadatos:
Descripcion okp:archivo.descripcion 300px 100px TextArea Readonly: false
Data:

Esto, lo que contiene ese campo en varios registros:
ESCRITURA DE NOVACION
ESCRITURA DE AMPLIACION
ESCRITURA CONSTITUCION
[...]

Adjunto va una imagen de como realizo la búsqueda, y no aparece ningún resultado.
Como he dicho antes, con esa misma configuración busco por ESCRITUR, y entonces si da resultados.

Re: Busqueda en Metadatos

PostPosted:Sat Jan 30, 2021 7:42 am
by jllort
Los documentos donde debería aparecer este texto ... son PDF de imágenes o documentos PDF con capa de texto ... de que tipo de documento estamos hablando.

Debería ir a Administration > Tools > Check text extractión y comprobar la extracción de texto para uno de estos documentos ... a ver que es lo que realmente esta haciendo el indexador.

Re: Busqueda en Metadatos

PostPosted:Tue Feb 02, 2021 4:44 pm
by juanmc
Buenas,

¿Que importancia tiene el tipo de documento o la extracción de texto?

Estoy buscando los documentos en los que el campo de metadados "Descripcion" contiene la palabra "ESCRITURA".

Re: Busqueda en Metadatos

PostPosted:Thu Feb 04, 2021 10:32 am
by juanmc
Por si le sirve a alguien, he averiguado donde estaba el problema.

En el fichero OpenKM.cfg tenía configurado
Code: Select all
hibernate.search.analyzer=org.apache.lucene.analysis.es.SpanishAnalyzer
Lo configuré pensando que tendría mejores resultados en las búsquedas porque los documentos cargados en el gestor están en ese idioma.....ERROR

Volviendo al
Code: Select all
hibernate.search.analyzer=org.apache.lucene.analysis.standard.StandardAnalyzer
y reconstruyendo el indice de lucene, las busquedas se comportan como es de esperar.

Re: Busqueda en Metadatos

PostPosted:Sat Feb 06, 2021 12:41 pm
by jllort
En general el analizador standard funciona bien en la mayoría de escenarios, sólo recomendamos cambiarlo en idiomas tales como los orientales, árabes, etc... de todas formas el resultado con este analizador no debería ser tan malo. Aun así no aconsejamos cambiar de analizador a no ser que el standard presente algún tipo de problemática en los resultados ... entonces si que conviene buscar una alternativa.