Open Source Document Management System | OpenKM - Problemas con respuesta de OCR

Problemas con respuesta de OCR

Forum rules: Por favor, antes de preguntar algo consulta el wiki de documentación o utiliza la función de búsqueda del foro. Recuerda que no tenemos una bola de cristal ni poderes mentales, o sea que que para informar sobre un error es necesario que nos indiques tanto la versión de OpenKM que usas como la del navegador y sistema operativo. Para más información consulta Cómo informar de fallos de forma efectiva.

6 posts

6 posts

Problemas con respuesta de OCR

#48528 by fgeymonat
Sat Aug 03, 2019 6:34 pm

Hola, los molesto porque hace dias estoy intentando y no puedo hacer funcionar correctamente el OCR. He probado con Tesseract y otro, tanto en ambiente Ubuntu como Windows 10, y el comportamiento es el mismo, funciona pero la respuesta del texto extraido la recibo triplicada u cuatriplicada... y esto sucede tantos desde la consola Administracion\Check Text Extraction, o si configuro la accion SetTextExtracted. Estoy usando la version Community 6.3.8. Agradezo por favor cualquier pista o informacion que me puedan dar para solucionar este problema.
Copio aqui abajo parte de una respuesta a un UNICO pedido de extraccion desde la consola de Administracion\Check Text Extraction. Doy un solo click y me devuelve 3 respuestas concatenadas...

Code: Select all

 Pago en Abitab S.A. Local:25/0 Reme VELANDO, FERNANDO C.2.2 2572081-7 NO. GIRO: 41477383 Cliz 465549 Bens GARCIA, SILVIA Monedas C.T.5
 Pago en Abitab S.A. Local:25/0 Reme VELANDO, FERNANDO C.2.2 2592081-7 NO. GIRO: 414677383 Cliz 465549 Bens GARCIA, SILVIA Monedas C.T.
 Pago en Abitab S.A. Local:25/0 Reme VELANDO, FERNANDO C.2.2 2572081-7 NO. GIRO: 414677383 Cliz 465549 Bans GARCIA, SILVIA Monedas C.T.

Saludos,
FG

Username

fgeymonat

Rank

Fresh Boarder

Posts

Joined

Sat Aug 03, 2019 6:13 pm

Re: Problemas con respuesta de OCR

#48530 by jllort
Sun Aug 04, 2019 12:34 pm

Es posible que nos compartas el fichero para poder realizar pruebas?

Username

jllort

Rank

Moderator

Posts

12048

Joined

Fri Dec 21, 2007 11:23 am

Location

Sineu - ( Illes Balears ) - Spain

Contact

Re: Problemas con respuesta de OCR

#48545 by fgeymonat
Wed Aug 07, 2019 12:32 am

Hola, antes que nada muchisimas gracias por la pronta respuesta. Te comento que el problema que estaba teniendo es por tener configurada la propiedad system.ocr.rotate = 0;90;270, y por eso me llegaban 3 respuestas concatenadas. Eliminè el valor de la property y comencé a recibir la respuesta tal como la esperaba.
Aprovecho y te hago otra consulta sobre las posibilidades de OpenKM. En mi trabajo queremos escanear aproximadamente 25000 formularios de pago todos los dias. Nuestros scanners estarian conectados con el cliente de scanner de OpenKM, y de ahi transmitirlos al servidor donde tendriamos activo el OCR, y con una accion que se dispare cuando ocurre el evento "TextExtracted" renombrariamos la imagen con el numero de documento extraido del texto, y la moveriamos a una carpeta dentro de OpenKM, para luego poder ser accedida por otros sistemas desde otros sistemas por WEBDAV.
Todo esto lo probè con 60 o 70 formularios y funciona muy bien.
La pregunta es: ¿estos 25000 formularios diarios es mucha carga para OpenKM?, ¿como tendria que configurar las propiedades de extraccion de texto?. ¿Los threads de extracciòn se "pisarìan" o no habria problemas y seguiran trabajando hasta consumir todos los formularios a procesar ?.
Muchas gracias y saludos,
FG

Username

fgeymonat

Rank

Fresh Boarder

Posts

Joined

Sat Aug 03, 2019 6:13 pm

Re: Problemas con respuesta de OCR

#48563 by jllort
Thu Aug 08, 2019 6:31 pm

Lo suyo es enviar los ficheros por FTP ( activar el servicio de FTP en el servidor ), si es que tus equipos disponen de esta funcionalidad.

25K ficheros al dia, son 500K mensuales, estamos hablando de un respositorio de 6 millones al año. La comunity creo que puede aguantarte 1-2 millones, pero 6 igual ya vas un poco pasado. A parte de esto tienes que catalogar bien la información o al final tendras un sistema con un difícil mantenimiento.

Yo te tengo que aconsejar que vayas a una versión profesional, sea de OpenKM o del producto que escojas, es un volúmen que fijo va a necesitar tunning y hacer las cosas finas. De hecho la parte de captura de texto yo la haría con una herramienta como chronoscan ( que tiene un coste muy competitivo ) y una estación de trabajo dedicada a esta historia.

Si me apuras tampoco daria acceso directo a los usuarios, o como mucho les daría acceso al buscador ( estaba pensando en una interfaz minimalista de consulta ). Esto de consultar por red, no es una gran idea, sobretodo con este volúmen, te interesa un UI rápido y no ir perdiendo el tiempo navegando por unidades de red..

En definitiva tienes un problema de volúmen y esto se tendría que analizar con calma, crecimientos anuales, si es posible eliminar cosas con el tiempo etc... Y mi consejo en este escenario es que vayas a algo profesional, sea la herramienta que sea.

Un ejemplo del tipo de integración que tenia en mente:
https://www.youtube.com/watch?v=c-XVQbD6FpA

Username

jllort

Rank

Moderator

Posts

12048

Joined

Fri Dec 21, 2007 11:23 am

Location

Sineu - ( Illes Balears ) - Spain

Contact

Re: Problemas con respuesta de OCR

#48565 by fgeymonat
Fri Aug 09, 2019 1:43 am

Muchas gracias por la respuesta, y volviendo al tema del volumen de documentos que manejamos te cuento que son esos y de futuro pensamos incorporar mas al proceso de digitalizacion, por lo que ese volumen va a crecer, ¿ a vos te parece que la version profesional de OpenKM soporarà estos volumenes?, te reitero que lo que pensamos hacer es conectar scanners mediante OpenKM scanner client y enviarlos al servidor donde se digitalizaran con la tarea del cron y mediante una accion implementada por nosotros se renombraran y moveran a distintas carpetas en el OpenKM. Luego estas imagenes se accederan via WebDAV desde nuestras aplicaciones de backoffice para ser consultadas por nuestros usuarios en la empresa. ¿Esto se podrà hacer con la version profesional ?.
Saludos y muchas gracias por la atencion,
FG

Username

fgeymonat

Rank

Fresh Boarder

Posts

Joined

Sat Aug 03, 2019 6:13 pm

Re: Problemas con respuesta de OCR

#48579 by jllort
Sat Aug 10, 2019 9:12 am

Tenemos instalaciones con más de 14 millones de ficheros ahora mismo ( de los que yo tengo constancia ). Eso si, tienes que tener en tu equipo técnico personal cualificado en la gestión de base de datos o subcontrarlo ( porque la base de datos tienes que ir fina ).

Yo continuo pensando que la solución esta de compartir por webdav los ficheros no me motiva. Si lo que tienes en la cabeza es integrar tus aplicaciones con OpenKM ( o cualquier otro gestor documental ), yo te aconsejaría ir en la dirección del API REST. De hecho lo suyo es extender el API de REST con unos cuantos métodos que hagan exactamente lo que quieres a bajo nivel.

Sobre el tema de scanear, captura de datos y catalogar. La parte de catalogación siempre es mejor delegarla en OpenKM ( un simple plugin del Automation en combinación con metadatos ). Lo que no tengo tan claro es si la captura de datos ( OCR ) hacerla desde OpenKM o como te comentaba anteriormente tener un servidor dedicado para esto. Tienes un volúmen elevado de ficheros y en estos caos es mejor separar el problema. El tema del chornoscan que te comentaba es una solución muy económica ( estamos hablando de 10 veces inferior a lo que te puede costar un kofax o un abbyflexy capture ) por lo que pienso que vale la pena ( esto se amortiza rápido porque te libera de según que tipo de problemas recurrentes en el tiempo ).

Otro tema importante es el periodo de retención. Estamos hablando de un repositorio que crece de forma constante o cada cierto periodo de tiempo se pueden expurgar ficheros del sistema ( por ejemplo pasados 4-5 años -> exportación con informe -> eliminación del sistema ). También es importante entender el tipode trabajo que haceis. Por ejemplo si tienes que conservar un histórico pero a ti lo que realmente te interesa sonlos ficheros de los ultimos 2 años, lo suyo es barajar dos servidores. Una para el trabajo actual ( optimización máxima ) otro para el histórico ( se consulta menos y por lo tanto puede ir mas apretado ). La idea es como en la vida real, tú tienes documentos de trabajo en tu mesa ( los usas a diario ) y un histórico en estanterías ( los usas menos ).

Username

jllort

Rank

Moderator

Posts

12048

Joined

Fri Dec 21, 2007 11:23 am

Location

Sineu - ( Illes Balears ) - Spain

Contact

Page 1 of 1
6 posts

Return to “Configuración”

Display:

Sort by:

Jump to: