• OCR

  • OpenKM tiene muchas características interesantes, pero es necesario un proceso de configuración para mostrar todo su potencial.
OpenKM tiene muchas características interesantes, pero es necesario un proceso de configuración para mostrar todo su potencial.
Forum rules: Por favor, antes de preguntar algo consulta el wiki de documentación o utiliza la función de búsqueda del foro. Recuerda que no tenemos una bola de cristal ni poderes mentales, o sea que que para informar sobre un error es necesario que nos indiques tanto la versión de OpenKM que usas como la del navegador y sistema operativo. Para más información consulta Cómo informar de fallos de forma efectiva.

OCR

 #41951  by andresj10
 
buenas..

esoy probando el OCR en la Vr community de OpenKM 6.3, ya tengo instalado el Tesseract pero como logro hacer una busqueda del texto que esta en el archivo.

toca crear una plantilla?
me falta instalar algo mas?

muchas gracias
 #41961  by jllort
 
Lo primero es ver que tipo de texto esta pasando por el OCR ( PDF, imagen ) ?
Piensa que la indexación es una cola ( en Administración / Stats -> tienes el "Pending text extractor queue" ), mientras los documentos esten en la cola, estan pendientes de extraer el contenido.
Finalmente con el uuid del documento ( lo puedes capturar de la pestaña de Propiedades en el panel inferior del UI ), puedes realizar esta consulta en la base de datos ( Administration / Database Query ):
select * from OKM_NODE_DOCUMENT WHERE NBS_UUID='valor de uuid del documento';

En el resultado tienes dos columnas significativas, el NDC_TEXT ( que es el texto extraído ) y el NDC_TEXT_EXTRACTED ( con un valor T o F ) que indica si ha sido o no procesado

About Us

OpenKM is part of the management software. A management software is a program that facilitates the accomplishment of administrative tasks. OpenKM is a document management system that allows you to manage business content and workflow in a more efficient way. Document managers guarantee data protection by establishing information security for business content.