Page 1 of 1

Configuración Tessereact OCR

PostPosted:Thu Sep 22, 2016 10:05 am
by jairo.palacios
Hola,

Estoy utilizando OpenKM con la Version: 6.3.1 (build: 8235), sobre Windows 8.1 Pro.

El objetivo es utilizar el Tessaract sobre los PDFs y las imágenes para que pueda indexar las palabras que contienen las imágenes, por ejemplo, si un PDF contiene una imagen que contiene el texto "Hola", al buscar la palabra "Hola" en el OpenKM, aparezca dicho documento. He probado a hacer esto en la versión de prueba online, y entiendo que es posible, pero a la hora de hacerlo en local, no soy capaz.

He instalado el Tessaract-OCR, y he configurado lo siguiente:

system.ocr String C:\Program Files (x86)\Tesseract-OCR\tesseract.exe ${fileIn} ${fileOut}
system.pdf.force.ocr Boolean Active


¿Alguna idea de que puede estar ocurriendo?

Muchas gracias

Re: Configuración Tessereact OCR

PostPosted:Sat Sep 24, 2016 4:45 pm
by jllort
El parámetro system.PDF.force.ocr en principio no es necesario. Piensa que los documentos entran en la cola de indexación ( lo puedes ver en Administración / Stats -> "pending stats queue" ) y hasta que no son procesado para extraer el texto las búsquedas por contenido no te daran resultados.

También desde la Administración > Tools > "check text extraction" puedes chequear la extracción de texto de un documento ( existente o no en openkm ).

Re: Configuración Tessereact OCR

PostPosted:Mon Sep 26, 2016 5:33 pm
by jairo.palacios
De acuerdo, he realizado la prueba desde Administración > Tools > "check text extraction" puedes chequear la extracción de texto de un documento ( existente o no en openkm ).

Pero a la hora de realizar la búsqueda, busco una de las palabras que aparecen en la imagen y que previamente me han aparecido en la herramienta de "check text extraction", pero es muy dificil de hallar la coincidencia, es decir, solo ocurre con algunas palabras concretas, ni si quiera con la mayoría.

¿Hay alguna forma de optimizar esto y que detecte en mayor medida más palabras? ¿Algo en la configuración quizás?

Muchas gracias de antemano!

Re: Configuración Tessereact OCR

PostPosted:Wed Sep 28, 2016 3:29 pm
by jllort
El buscador localizará un documento por todos aquellos términos - palabras - por los que haya sido indexado. No tiene comportamientos aleatorios, si has indexado un documento por la palabra "pato" te lo va a encontrar por "pato", "pat*" o por "?ato". Esto seguro.

Desde las propias tools puedes ver los terminos por los cuales el documento ha sido indexado con la opción de "list indexes",
-> seleccionas search indexes
pones el uuid en el buscador y te localizará el documento,
pinchas en el icono -> saltarás a la información del documento en cuestión
click en show term ( arriba a la derecha )