Configuración Tessereact OCR

OpenKM tiene muchas características interesantes, pero es necesario un proceso de configuración para mostrar todo su potencial.
Forum rules
Por favor, antes de preguntar algo consulta el wiki de documentación o utiliza la función de búsqueda del foro. Recuerda que no tenemos una bola de cristal ni poderes mentales, o sea que que para informar sobre un error es necesario que nos indiques tanto la versión de OpenKM que usas como la del navegador y sistema operativo. Para más información consulta Cómo informar de fallos de forma efectiva.
Post Reply
jairo.palacios
Fresh Boarder
Fresh Boarder
Posts: 2
Joined: Thu Sep 22, 2016 9:48 am

Configuración Tessereact OCR

Post by jairo.palacios » Thu Sep 22, 2016 10:05 am

Hola,

Estoy utilizando OpenKM con la Version: 6.3.1 (build: 8235), sobre Windows 8.1 Pro.

El objetivo es utilizar el Tessaract sobre los PDFs y las imágenes para que pueda indexar las palabras que contienen las imágenes, por ejemplo, si un PDF contiene una imagen que contiene el texto "Hola", al buscar la palabra "Hola" en el OpenKM, aparezca dicho documento. He probado a hacer esto en la versión de prueba online, y entiendo que es posible, pero a la hora de hacerlo en local, no soy capaz.

He instalado el Tessaract-OCR, y he configurado lo siguiente:

system.ocr String C:\Program Files (x86)\Tesseract-OCR\tesseract.exe ${fileIn} ${fileOut}
system.pdf.force.ocr Boolean Active


¿Alguna idea de que puede estar ocurriendo?

Muchas gracias

jllort
Moderator
Moderator
Posts: 9590
Joined: Fri Dec 21, 2007 11:23 am
Location: Sineu - ( Illes Balears ) - Spain
Contact:

Re: Configuración Tessereact OCR

Post by jllort » Sat Sep 24, 2016 4:45 pm

El parámetro system.PDF.force.ocr en principio no es necesario. Piensa que los documentos entran en la cola de indexación ( lo puedes ver en Administración / Stats -> "pending stats queue" ) y hasta que no son procesado para extraer el texto las búsquedas por contenido no te daran resultados.

También desde la Administración > Tools > "check text extraction" puedes chequear la extracción de texto de un documento ( existente o no en openkm ).

jairo.palacios
Fresh Boarder
Fresh Boarder
Posts: 2
Joined: Thu Sep 22, 2016 9:48 am

Re: Configuración Tessereact OCR

Post by jairo.palacios » Mon Sep 26, 2016 5:33 pm

De acuerdo, he realizado la prueba desde Administración > Tools > "check text extraction" puedes chequear la extracción de texto de un documento ( existente o no en openkm ).

Pero a la hora de realizar la búsqueda, busco una de las palabras que aparecen en la imagen y que previamente me han aparecido en la herramienta de "check text extraction", pero es muy dificil de hallar la coincidencia, es decir, solo ocurre con algunas palabras concretas, ni si quiera con la mayoría.

¿Hay alguna forma de optimizar esto y que detecte en mayor medida más palabras? ¿Algo en la configuración quizás?

Muchas gracias de antemano!

jllort
Moderator
Moderator
Posts: 9590
Joined: Fri Dec 21, 2007 11:23 am
Location: Sineu - ( Illes Balears ) - Spain
Contact:

Re: Configuración Tessereact OCR

Post by jllort » Wed Sep 28, 2016 3:29 pm

El buscador localizará un documento por todos aquellos términos - palabras - por los que haya sido indexado. No tiene comportamientos aleatorios, si has indexado un documento por la palabra "pato" te lo va a encontrar por "pato", "pat*" o por "?ato". Esto seguro.

Desde las propias tools puedes ver los terminos por los cuales el documento ha sido indexado con la opción de "list indexes",
-> seleccionas search indexes
pones el uuid en el buscador y te localizará el documento,
pinchas en el icono -> saltarás a la información del documento en cuestión
click en show term ( arriba a la derecha )

Post Reply

Who is online

Users browsing this forum: No registered users and 4 guests