• Consulta sobre adaptación de OpenKM a mi pequeña empresa

  • Hemos intentado hacer de OpenKM una aplicación lo más intuitiva posible, sin embargo siempre viene bien algún consejo.
Hemos intentado hacer de OpenKM una aplicación lo más intuitiva posible, sin embargo siempre viene bien algún consejo.
Forum rules: Por favor, antes de preguntar algo consulta el wiki de documentación o utiliza la función de búsqueda del foro. Recuerda que no tenemos una bola de cristal ni poderes mentales, o sea que que para informar sobre un error es necesario que nos indiques tanto la versión de OpenKM que usas como la del navegador y sistema operativo. Para más información consulta Cómo informar de fallos de forma efectiva.
 #20030  by muyprax
 
Hola buenas , pongo este tema acá ya que el de "Customatization" estaba sólo en inglés y la verdad es que no me manejo mucho.
Quería hacer la siguiente consulta a ver que opinan ustedes:

Quiero comprarme la licencia del programa Abby ICR(ya que se le puede integrar a OpenKM según el manual y lo que necesito leer es letra manuscrita de mas de 30 personas distintas, además de imprenta, por eso no me sirve Tesseract OCR) y lo que quiero hacer es lo siguiente:

Al escanear una factura que el software Abby haga el reconocimiento de caracteres y descubra si esta factura es de venta/compra y por ende, que OpenKM automaticamente lleve a esta factura a la carpeta XXXXXXX. Además poder leer la descripción de la factura para tal vez automaticamente llenar algún campo de descripción que he creado en metadatos...He trabajado con jsp pero no soy experto y tengo la sensación de que si se puede lograr hacer esto, obviamente manipulando el código...la pregunta es ¿qué archivos exactamente debería editar? ya que no hay ningún vínculo de archivos cuándo presiono la opción escanear desde scanner asi que estoy medio perdido...

Muchas gracias!

PD: esto es para mi empresa personal, en ningún caso para lucrar.-
 #20047  by jllort
 
Esto ya te lo comento de entrada que no es trivial y no te sirve cualquier ocr ( depende de lo que quieras hacer ). En primer lugar me gustaría entender porque quieres leer texto manuscrito porque esto tiene un coste elevado. Lo segundo seria saber que uso le quieres dar, porque aquí hay 2 problemas distintos -> extraer todo el texto o explotar datos que aparecen en el texto ( metadatos ). Cuentanos un poco para que lo quieres ( que uso le vas a dar ) y te podremos orientar.

Como mas mágia quieras, mas caro es ( esto tenlo en mente ) un software que te reconoce el tipo de factura no cuesta lo mismo que uno que te hace un OCR a saco y nada mas. Aquí también tienes que tener claro con que presupuesto estas trabajando. Pero bueno primero explicanos el uso que tienes en mente, si a partir de metadatos quieres recuperar facturas etc... a partir de ahí te podemos orientar. Eso si todo esto pasa por programar algo, con una jsp no vas a arreglar nada, es un poco mas complicado, pero también depende de si ciertas operaciones pueden estar subordinadas a un humano.
 #20078  by muyprax
 
Hola jllort ,gracias por responder;

Mira te explico: En estos momentos estoy utilizando el servidor OpenKM sólo como prueba, utilicé descripciones , palabras claves y metadatos(la última fue la que mejor me sirvió para la búsqueda). La subida de los ficheros lo hice a través de disco duro y de escaner, dándome buenos resultados pero no los que yo realmente necesito ,¿ porqué ? por lo siguiente: Lo que yo realmente quiero almacenar en este servidor son facturas de todo tipo en primera instancia(que son muchísimas) y para poder hacer esto primero tengo que digitalizarlas, ¿te imaginas digitalizar alrededor de 500 documentos y a cada uno asignarle grupos de propiedad y descripción(uno por uno) para después poder acceder a ellos? no tengo el tiempo necesario para hacer esto y la verdad es que es muy tedioso.
Entonces mi solución era que de alguna manera, poder aplicar OCR una vez el documento es escaneado y a través de algún proceso inteligente poder "descubrir" si era una factura de cliente/proveedor etc y poder tomar ciertos atributos del documento para que el programa pueda inmediatamente almacenarlo en la carpeta que corresponda(previamente creada) y asignarle algún metadato y/o descripción para posteriormente poder acceder al(a los) documento(s) a través del sistema de búsqueda. Ahora bien, luego mi jefe me planteó el tema de ICR y OMR para poder reconocer manuscritas y firmas respectivamente y pensamos en que podría ser una buena solución que a través de la firma por ejemplo, poder descubrir si la factura es por ejemplo de cierto proveedor. Y finalmente, sobre la manuscrita es porque hay varios documentos que no utilizan letra imprenta sino manuscrita y claramente un OCR común como el Tesseract 3.x no podrá reconocer este tipo de letras.

Me gustaría saber que es lo que piensas sobre esto y que consejo podrías darme, yo creo que claramente habría que editar el código fuente del programa y además integrarle una aplicación a lo menos ICR.

Muchas gracias.

PD: El proceso de automatización que quiero realizar no necesariamente tiene que ser desde el escaner , también pensamos en primero digitalizar todo al disco duro y luego subirlo al servidor desde el PC para aplicar el proceso de inteligencia que te mencioné.-
 #20550  by jllort
 
Para esto que quieres hacer no hace falta modificar el codigo fuente de openkm, simplemente es que las cosas tienen que hacerse de otra forma. Lo mas sencillo que te puedo proponer es lo siguiente:

El objetivo es que en algun sitio de la red o del servidor coloques los documentos escaneados con los metadatos ( los metadatos pueden estar en el propio nombre del fichero o bien en un fichero a parte ( en tu caso casi te propongo lo segundo )). En esta url tienes un ejemplo de como subir y parsear documentos a openkm a partir de metadatos contenidos en el nombre ( esto te servirá de guia para lo que tienes que hacer en tu caso )). http://wiki.openkm.com/index.php/Cronta ... h_metadata

Para la estracción de texto ( identificación etc... ) no necesitas para nada openkm, simplemente necesitas un software que haga este tipo de operaciones. Te comento de entrada que si no has pedido precio lo vas a flipar - por eso te dije yo que la mágia va cara -. Lo que realmente sale muy caro es el software especializado en reconocimiento de tipos de factura ( es decir indicarle si es una factura A, B etc...) si esto puedes hacer que un humano lo coloque en una carpeta A ( todo se te simplificará mucho y vas a abaratar enormemente los costes ). Nosotros en este sentido hemos hecho algun experimento con omnipage con bastantes buenos resultados ( es decir sabiendo que tipo de factura es al colocarla en una carpeta, podemos pasarle un tipo de OCR zonal o otro). Con esto pasaras de una solucion de varios miles de euros a una de menos de 300 ( en cuanto a coste de software ). Tampoco te vayas a creer que estos software especializados no haya que entrenarlos etc... ( le vas a tener que dedicar horas ).

Todo depende bastante de cuantos tipos de facturas distintas vayas a tener, si tienes muchas probablemente no te quedará mas remedio, el volumen que escanees a diario no es el problema, el problema es cuantas distintas hay que identificar ( a mi modo de ver llega un momento que esto no es válido ).

Cuando tienes mogollon de facturas distintas lo suyo es pegarle un código de barras ( como las facturas las mecanizas, lo mejor seria sacarlo del ERP etc... ) y los OCR si que pueden leer este tipo de código ( incluso openkm por defecto puede leer código de barras 2D entre otros ) ... como ves te intento dar ideas y esto da muy buenos resultados ( desde mi punto de vista es la mejor solución, siempre que se pueda sacar este tipo de datos del ERP ).
 #20563  by muyprax
 
Gracias por responder;
sobre Crontab(el script que aparece en el ejemplo) tengo la sensación de que será muy complicado utilizar esta solución pero tal vez si se pudieran unir ambas soluciones que me diste , podría ser.

Mira, hablando con mi jefe nos dimos cuenta que en realidad no son 500 documentos , sino que más de 2000; no los tenemos digitalizados en ningún ERP (los tenemos sólo de manera física) y de todas maneras queremos digitalizarlos en OpenKM. ¿será posible utilizar de alguna manera el código de barras 2D(utilizando mysql para obtener información apartir de la secuencia numérica del código) en el script de Crontab cada vez que se suba un documento?. Lo único que se me ocurre en este momento es algo asi como que el script lea el codigo de barras(la secuencia de numeros) y haga la consulta a la base de datos y que la base de datos retorne el tipo de factura , quizás la fecha(del documento , no la fecha de subida a OpenKM) , alguna descripción , nosé...nunca he trabajado con código de barras y soy un estudiante en práctica asi que para mi todo esto es nuevo, de hecho en este instante me dedicaré a investigar como utilizar bien el código de barras. Pero al menos la idea que te planteo será posible hacerla?
Lo otro , que consejo me podrías dar para meter el código de barra en los documentos una vez que los digitalice en el computador? tal vez conozcas alguna aplicación o algo por el estilo.
 #20579  by jllort
 
La idea de las facturas es que en algun sitio la información esta mecanizada. Entonces lo que se hace es sacar esta informacion en forma de código de barras y pegarla en la factura. Se digitaliza la factura y se lee el código de barras. Yo hablaba de esto.

El número de documentos da igual que sean 500 o 2000 lo que importa es cuantos tienes de diferentes, si es que quieres sacar metadatos. Porque en cada tipo de factura los metadatos estan en un sitio diferente.
 #20580  by muyprax
 
comprendo y me gusta mucho tu idea! , nunca he trabajado con codigos de barra pero me imagino como se utiliza...la única y última duda que tengo es la siguiente ; tengo facturas de proveedor y clientes , simplemente eso, por lo tanto tendría 2 grandes tipos de codigos de barra: 1) cliente 2) proveedor , también podría asignarle un cierto número adicional para identificar exactamente al cliente y al proveedor y hasta aquí no tendría niun problema ,¿¿ pero como se te ocurriría poder descubrir alguna descripción o fecha de emición de la factura para posteriormente poder identificarla??

De verdad te agradezco mucho tu ayuda y tiempo, gracias totales.-
 #20597  by jllort
 
las facturas de clientes las tendras contabilidas y proveedores supongo que las tendras en algun programa de contabilidad. Lo genial seria una vez introducidas en el programa de contabilidad ( o desde la facturación ) poder generar las pegatinas con los códigos de barras -> pegar y escanear ( esto seria la fase 1 ). En el código de barras puedes añadir la información que quieres ( número, tipo ( cliente / proveedor ), fechas etc... ) -> códigos de barras de estos mas potentes ( http://www.activebarcode.com/codes/ -> datamatrix o los qr etc... ).

En la fase 2 al subir a openkm y pasarle el lector de códigos de barras ( eso es otro tipo de problema ). Pero lo esencial es saber las posibilidades reales de hacer lo primero.

About Us

OpenKM is part of the management software. A management software is a program that facilitates the accomplishment of administrative tasks. OpenKM is a document management system that allows you to manage business content and workflow in a more efficient way. Document managers guarantee data protection by establishing information security for business content.