• Configuración Tessereact OCR

  • OpenKM tiene muchas características interesantes, pero es necesario un proceso de configuración para mostrar todo su potencial.
OpenKM tiene muchas características interesantes, pero es necesario un proceso de configuración para mostrar todo su potencial.
Forum rules: Por favor, antes de preguntar algo consulta el wiki de documentación o utiliza la función de búsqueda del foro. Recuerda que no tenemos una bola de cristal ni poderes mentales, o sea que que para informar sobre un error es necesario que nos indiques tanto la versión de OpenKM que usas como la del navegador y sistema operativo. Para más información consulta Cómo informar de fallos de forma efectiva.
 #42300  by jairo.palacios
 
Hola,

Estoy utilizando OpenKM con la Version: 6.3.1 (build: 8235), sobre Windows 8.1 Pro.

El objetivo es utilizar el Tessaract sobre los PDFs y las imágenes para que pueda indexar las palabras que contienen las imágenes, por ejemplo, si un PDF contiene una imagen que contiene el texto "Hola", al buscar la palabra "Hola" en el OpenKM, aparezca dicho documento. He probado a hacer esto en la versión de prueba online, y entiendo que es posible, pero a la hora de hacerlo en local, no soy capaz.

He instalado el Tessaract-OCR, y he configurado lo siguiente:

system.ocr String C:\Program Files (x86)\Tesseract-OCR\tesseract.exe ${fileIn} ${fileOut}
system.pdf.force.ocr Boolean Active


¿Alguna idea de que puede estar ocurriendo?

Muchas gracias
 #42310  by jllort
 
El parámetro system.PDF.force.ocr en principio no es necesario. Piensa que los documentos entran en la cola de indexación ( lo puedes ver en Administración / Stats -> "pending stats queue" ) y hasta que no son procesado para extraer el texto las búsquedas por contenido no te daran resultados.

También desde la Administración > Tools > "check text extraction" puedes chequear la extracción de texto de un documento ( existente o no en openkm ).
 #42319  by jairo.palacios
 
De acuerdo, he realizado la prueba desde Administración > Tools > "check text extraction" puedes chequear la extracción de texto de un documento ( existente o no en openkm ).

Pero a la hora de realizar la búsqueda, busco una de las palabras que aparecen en la imagen y que previamente me han aparecido en la herramienta de "check text extraction", pero es muy dificil de hallar la coincidencia, es decir, solo ocurre con algunas palabras concretas, ni si quiera con la mayoría.

¿Hay alguna forma de optimizar esto y que detecte en mayor medida más palabras? ¿Algo en la configuración quizás?

Muchas gracias de antemano!
 #42326  by jllort
 
El buscador localizará un documento por todos aquellos términos - palabras - por los que haya sido indexado. No tiene comportamientos aleatorios, si has indexado un documento por la palabra "pato" te lo va a encontrar por "pato", "pat*" o por "?ato". Esto seguro.

Desde las propias tools puedes ver los terminos por los cuales el documento ha sido indexado con la opción de "list indexes",
-> seleccionas search indexes
pones el uuid en el buscador y te localizará el documento,
pinchas en el icono -> saltarás a la información del documento en cuestión
click en show term ( arriba a la derecha )

About Us

OpenKM is part of the management software. A management software is a program that facilitates the accomplishment of administrative tasks. OpenKM is a document management system that allows you to manage business content and workflow in a more efficient way. Document managers guarantee data protection by establishing information security for business content.