• Tesseract?

  • OpenKM tiene muchas características interesantes, pero es necesario un proceso de configuración para mostrar todo su potencial.
OpenKM tiene muchas características interesantes, pero es necesario un proceso de configuración para mostrar todo su potencial.
Forum rules: Por favor, antes de preguntar algo consulta el wiki de documentación o utiliza la función de búsqueda del foro. Recuerda que no tenemos una bola de cristal ni poderes mentales, o sea que que para informar sobre un error es necesario que nos indiques tanto la versión de OpenKM que usas como la del navegador y sistema operativo. Para más información consulta Cómo informar de fallos de forma efectiva.
 #14522  by Firefox2000
 
Estoy probando de hacer búsquedas en el contenido de las imágenes, tengo configurado OpenKM 5.1.9 para que haga uso de tesseract.
Por línea de comandos (tesseract imagen fichero_salida) va bien, y aparece en fichero_salida el texto extraído de imagen.

Entiendo que al subir la imagen en OpenKM, automáticamente se extrae el texto lo que permite hacer búsquedas. Es decir, se ha de configurar sólo system.ocr.
En mi caso ocurre que cuando subo una imagen y después hago una búsqueda, no aparece ningún resultado.

Vía log de OpenKM no aparece ningún error:
Code: Select all
14:47:53,360 INFO  [FileUploadServlet] Filename: 'cardif documento 1.2.jpg'
14:47:53,360 INFO  [FileUploadServlet] Upload file 'cardif documento 1.2.jpg' into '/okm:root/proves/imatges'
14:47:57,475 INFO  [DirectDocumentModule] create: {path=/okm:root/proves/imatges/cardif documento 1.2.jpg, mimeType=image/jpeg, author=admin, permissions=15, created=Thu Mar 15 14:47:57 CET 2012, lastModified=Thu Mar 15 14:47:57 CET 2012, keywords=[], categories=[], locked=false, lockInfo=null, actualVersion={name=1.0, size=1385863, author=admin, actual=true, comment=, created=Thu Mar 15 14:47:57 CET 2012}, subscribed=false, uuid=e41e2d6f-bc2b-476b-b810-113177aaa297, convertibleToPdf=true, convertibleToSwf=true, convertibleToDxf=false, cipherName=null, notes=[]}
14:48:00,519 INFO  [MultiIndex] Unable to delete obsolete index: _4
¿Tal vez la última línea sea algún error?

Curiosamente subo la imagen en demo.openkm.com y la búsqueda tampoco funciona.

P.D: Adjunto la imagen con la que estoy haciendo las pruebas.
Attachments
Imagen de prueba
Imagen de prueba
texteimg.jpg (98.91 KiB) Viewed 1997 times
 #14535  by jllort
 
Ojo al dato, fíjate en http://wiki.openkm.com/index.php/OCR

Por defecto openkm viene preparado para configurar el cuneiform, no el tesseract, para ese ( aquí he presupuesto que vas a utilizar el tesseract 3, tienes que modificar en los parametros de configuracion los estractors com.openkm.extractor.Tesseract3TextExtractor

A parte de eso tambien tienes que modificar el repository.xml y dentro de repository/default/workspaces.xml ( puede que el path no te lo de al 100% correcto ) esta la misma entrada ( cuando modifiques los xml el jboss tiene que estar parado ).

Otro tema importante es la resolución, el cuneiform creo que en este sentido funciona un poco mejor que el tesseract, lo que te sugiero es que hagas un test con la imagen del tesseract que viene por defecto en los ejemplos.
 #14542  by pavila
 
300 dpi es una resulución adecuada para que funcione bien un OCR.

About Us

OpenKM is part of the management software. A management software is a program that facilitates the accomplishment of administrative tasks. OpenKM is a document management system that allows you to manage business content and workflow in a more efficient way. Document managers guarantee data protection by establishing information security for business content.