Page 1 of 1

Consulta sobre adaptación de OpenKM a mi pequeña empresa

PostPosted:Thu Dec 27, 2012 12:34 pm
by muyprax
Hola buenas , pongo este tema acá ya que el de "Customatization" estaba sólo en inglés y la verdad es que no me manejo mucho.
Quería hacer la siguiente consulta a ver que opinan ustedes:

Quiero comprarme la licencia del programa Abby ICR(ya que se le puede integrar a OpenKM según el manual y lo que necesito leer es letra manuscrita de mas de 30 personas distintas, además de imprenta, por eso no me sirve Tesseract OCR) y lo que quiero hacer es lo siguiente:

Al escanear una factura que el software Abby haga el reconocimiento de caracteres y descubra si esta factura es de venta/compra y por ende, que OpenKM automaticamente lleve a esta factura a la carpeta XXXXXXX. Además poder leer la descripción de la factura para tal vez automaticamente llenar algún campo de descripción que he creado en metadatos...He trabajado con jsp pero no soy experto y tengo la sensación de que si se puede lograr hacer esto, obviamente manipulando el código...la pregunta es ¿qué archivos exactamente debería editar? ya que no hay ningún vínculo de archivos cuándo presiono la opción escanear desde scanner asi que estoy medio perdido...

Muchas gracias!

PD: esto es para mi empresa personal, en ningún caso para lucrar.-

Re: Consulta sobre adaptación de OpenKM a mi pequeña empresa

PostPosted:Thu Dec 27, 2012 2:47 pm
by muyprax
O en su defecto, me recomendarían otra aplicación que pudiera funcionar con OpenKM para reconocimiento de imprenta y manuscrita ??

Re: Consulta sobre adaptación de OpenKM a mi pequeña empresa

PostPosted:Sat Dec 29, 2012 11:22 am
by jllort
Esto ya te lo comento de entrada que no es trivial y no te sirve cualquier ocr ( depende de lo que quieras hacer ). En primer lugar me gustaría entender porque quieres leer texto manuscrito porque esto tiene un coste elevado. Lo segundo seria saber que uso le quieres dar, porque aquí hay 2 problemas distintos -> extraer todo el texto o explotar datos que aparecen en el texto ( metadatos ). Cuentanos un poco para que lo quieres ( que uso le vas a dar ) y te podremos orientar.

Como mas mágia quieras, mas caro es ( esto tenlo en mente ) un software que te reconoce el tipo de factura no cuesta lo mismo que uno que te hace un OCR a saco y nada mas. Aquí también tienes que tener claro con que presupuesto estas trabajando. Pero bueno primero explicanos el uso que tienes en mente, si a partir de metadatos quieres recuperar facturas etc... a partir de ahí te podemos orientar. Eso si todo esto pasa por programar algo, con una jsp no vas a arreglar nada, es un poco mas complicado, pero también depende de si ciertas operaciones pueden estar subordinadas a un humano.

Re: Consulta sobre adaptación de OpenKM a mi pequeña empresa

PostPosted:Mon Dec 31, 2012 12:13 pm
by muyprax
Hola jllort ,gracias por responder;

Mira te explico: En estos momentos estoy utilizando el servidor OpenKM sólo como prueba, utilicé descripciones , palabras claves y metadatos(la última fue la que mejor me sirvió para la búsqueda). La subida de los ficheros lo hice a través de disco duro y de escaner, dándome buenos resultados pero no los que yo realmente necesito ,¿ porqué ? por lo siguiente: Lo que yo realmente quiero almacenar en este servidor son facturas de todo tipo en primera instancia(que son muchísimas) y para poder hacer esto primero tengo que digitalizarlas, ¿te imaginas digitalizar alrededor de 500 documentos y a cada uno asignarle grupos de propiedad y descripción(uno por uno) para después poder acceder a ellos? no tengo el tiempo necesario para hacer esto y la verdad es que es muy tedioso.
Entonces mi solución era que de alguna manera, poder aplicar OCR una vez el documento es escaneado y a través de algún proceso inteligente poder "descubrir" si era una factura de cliente/proveedor etc y poder tomar ciertos atributos del documento para que el programa pueda inmediatamente almacenarlo en la carpeta que corresponda(previamente creada) y asignarle algún metadato y/o descripción para posteriormente poder acceder al(a los) documento(s) a través del sistema de búsqueda. Ahora bien, luego mi jefe me planteó el tema de ICR y OMR para poder reconocer manuscritas y firmas respectivamente y pensamos en que podría ser una buena solución que a través de la firma por ejemplo, poder descubrir si la factura es por ejemplo de cierto proveedor. Y finalmente, sobre la manuscrita es porque hay varios documentos que no utilizan letra imprenta sino manuscrita y claramente un OCR común como el Tesseract 3.x no podrá reconocer este tipo de letras.

Me gustaría saber que es lo que piensas sobre esto y que consejo podrías darme, yo creo que claramente habría que editar el código fuente del programa y además integrarle una aplicación a lo menos ICR.

Muchas gracias.

PD: El proceso de automatización que quiero realizar no necesariamente tiene que ser desde el escaner , también pensamos en primero digitalizar todo al disco duro y luego subirlo al servidor desde el PC para aplicar el proceso de inteligencia que te mencioné.-

Re: Consulta sobre adaptación de OpenKM a mi pequeña empresa

PostPosted:Tue Jan 01, 2013 6:06 pm
by jllort
Para esto que quieres hacer no hace falta modificar el codigo fuente de openkm, simplemente es que las cosas tienen que hacerse de otra forma. Lo mas sencillo que te puedo proponer es lo siguiente:

El objetivo es que en algun sitio de la red o del servidor coloques los documentos escaneados con los metadatos ( los metadatos pueden estar en el propio nombre del fichero o bien en un fichero a parte ( en tu caso casi te propongo lo segundo )). En esta url tienes un ejemplo de como subir y parsear documentos a openkm a partir de metadatos contenidos en el nombre ( esto te servirá de guia para lo que tienes que hacer en tu caso )). http://wiki.openkm.com/index.php/Cronta ... h_metadata

Para la estracción de texto ( identificación etc... ) no necesitas para nada openkm, simplemente necesitas un software que haga este tipo de operaciones. Te comento de entrada que si no has pedido precio lo vas a flipar - por eso te dije yo que la mágia va cara -. Lo que realmente sale muy caro es el software especializado en reconocimiento de tipos de factura ( es decir indicarle si es una factura A, B etc...) si esto puedes hacer que un humano lo coloque en una carpeta A ( todo se te simplificará mucho y vas a abaratar enormemente los costes ). Nosotros en este sentido hemos hecho algun experimento con omnipage con bastantes buenos resultados ( es decir sabiendo que tipo de factura es al colocarla en una carpeta, podemos pasarle un tipo de OCR zonal o otro). Con esto pasaras de una solucion de varios miles de euros a una de menos de 300 ( en cuanto a coste de software ). Tampoco te vayas a creer que estos software especializados no haya que entrenarlos etc... ( le vas a tener que dedicar horas ).

Todo depende bastante de cuantos tipos de facturas distintas vayas a tener, si tienes muchas probablemente no te quedará mas remedio, el volumen que escanees a diario no es el problema, el problema es cuantas distintas hay que identificar ( a mi modo de ver llega un momento que esto no es válido ).

Cuando tienes mogollon de facturas distintas lo suyo es pegarle un código de barras ( como las facturas las mecanizas, lo mejor seria sacarlo del ERP etc... ) y los OCR si que pueden leer este tipo de código ( incluso openkm por defecto puede leer código de barras 2D entre otros ) ... como ves te intento dar ideas y esto da muy buenos resultados ( desde mi punto de vista es la mejor solución, siempre que se pueda sacar este tipo de datos del ERP ).

Re: Consulta sobre adaptación de OpenKM a mi pequeña empresa

PostPosted:Wed Jan 02, 2013 6:49 pm
by muyprax
Gracias por responder;
sobre Crontab(el script que aparece en el ejemplo) tengo la sensación de que será muy complicado utilizar esta solución pero tal vez si se pudieran unir ambas soluciones que me diste , podría ser.

Mira, hablando con mi jefe nos dimos cuenta que en realidad no son 500 documentos , sino que más de 2000; no los tenemos digitalizados en ningún ERP (los tenemos sólo de manera física) y de todas maneras queremos digitalizarlos en OpenKM. ¿será posible utilizar de alguna manera el código de barras 2D(utilizando mysql para obtener información apartir de la secuencia numérica del código) en el script de Crontab cada vez que se suba un documento?. Lo único que se me ocurre en este momento es algo asi como que el script lea el codigo de barras(la secuencia de numeros) y haga la consulta a la base de datos y que la base de datos retorne el tipo de factura , quizás la fecha(del documento , no la fecha de subida a OpenKM) , alguna descripción , nosé...nunca he trabajado con código de barras y soy un estudiante en práctica asi que para mi todo esto es nuevo, de hecho en este instante me dedicaré a investigar como utilizar bien el código de barras. Pero al menos la idea que te planteo será posible hacerla?
Lo otro , que consejo me podrías dar para meter el código de barra en los documentos una vez que los digitalice en el computador? tal vez conozcas alguna aplicación o algo por el estilo.

Re: Consulta sobre adaptación de OpenKM a mi pequeña empresa

PostPosted:Thu Jan 03, 2013 6:42 pm
by jllort
La idea de las facturas es que en algun sitio la información esta mecanizada. Entonces lo que se hace es sacar esta informacion en forma de código de barras y pegarla en la factura. Se digitaliza la factura y se lee el código de barras. Yo hablaba de esto.

El número de documentos da igual que sean 500 o 2000 lo que importa es cuantos tienes de diferentes, si es que quieres sacar metadatos. Porque en cada tipo de factura los metadatos estan en un sitio diferente.

Re: Consulta sobre adaptación de OpenKM a mi pequeña empresa

PostPosted:Thu Jan 03, 2013 6:56 pm
by muyprax
comprendo y me gusta mucho tu idea! , nunca he trabajado con codigos de barra pero me imagino como se utiliza...la única y última duda que tengo es la siguiente ; tengo facturas de proveedor y clientes , simplemente eso, por lo tanto tendría 2 grandes tipos de codigos de barra: 1) cliente 2) proveedor , también podría asignarle un cierto número adicional para identificar exactamente al cliente y al proveedor y hasta aquí no tendría niun problema ,¿¿ pero como se te ocurriría poder descubrir alguna descripción o fecha de emición de la factura para posteriormente poder identificarla??

De verdad te agradezco mucho tu ayuda y tiempo, gracias totales.-

Re: Consulta sobre adaptación de OpenKM a mi pequeña empresa

PostPosted:Fri Jan 04, 2013 6:20 pm
by jllort
las facturas de clientes las tendras contabilidas y proveedores supongo que las tendras en algun programa de contabilidad. Lo genial seria una vez introducidas en el programa de contabilidad ( o desde la facturación ) poder generar las pegatinas con los códigos de barras -> pegar y escanear ( esto seria la fase 1 ). En el código de barras puedes añadir la información que quieres ( número, tipo ( cliente / proveedor ), fechas etc... ) -> códigos de barras de estos mas potentes ( http://www.activebarcode.com/codes/ -> datamatrix o los qr etc... ).

En la fase 2 al subir a openkm y pasarle el lector de códigos de barras ( eso es otro tipo de problema ). Pero lo esencial es saber las posibilidades reales de hacer lo primero.