• Problema con extraccion de texto

  • Hemos intentado hacer de OpenKM una aplicación lo más intuitiva posible, sin embargo siempre viene bien algún consejo.
Hemos intentado hacer de OpenKM una aplicación lo más intuitiva posible, sin embargo siempre viene bien algún consejo.
Forum rules: Por favor, antes de preguntar algo consulta el wiki de documentación o utiliza la función de búsqueda del foro. Recuerda que no tenemos una bola de cristal ni poderes mentales, o sea que que para informar sobre un error es necesario que nos indiques tanto la versión de OpenKM que usas como la del navegador y sistema operativo. Para más información consulta Cómo informar de fallos de forma efectiva.
 #11491  by dmayan
 
Hola!

Acabo de instalar OpenKM 5.1.6 sobre Ubuntu Server 11.04. Todo funciona correctamente, salvo la extracción de texto que no funciona de ninguna manera, ni para TXT, ni Excel, ni TIFF

Puse el log del extractor en DEBUG y lo que veo cuando subo un TXT es:
Code: Select all
16:58:27,179 INFO  [RegisteredExtractors] getText(application/octet-stream, UTF-8, org.apache.jackrabbit.core.data.LazyFileInputStream@128bbfa)
16:58:27,190 WARN  [RegisteredExtractors] There was a problem extracting text from '/okm:root/BasConex.txt'
16:58:27,192 INFO  [RegisteredExtractors] getText: com.openkm.util.ReaderInputStream@1bf07d6
16:58:27,179 INFO  [RegisteredExtractors] getText(application/octet-stream, UTF-8, org.apache.jackrabbit.core.data.LazyFileInputStream@128bbfa)
16:58:27,190 WARN  [RegisteredExtractors] There was a problem extracting text from '/okm:root/BasConex.txt'
16:58:27,192 INFO  [RegisteredExtractors] getText: com.openkm.util.ReaderInputStream@1bf07d6
Tampoco me extrae texto desde tesseract ni cuneiform, ni desde archivos Excel ,ni 97 ni 2007.

Gracias!!

Diego
 #11492  by dmayan
 
Subo el error al intentar extraer desde un TIFF
Code: Select all
17:22:47,105 INFO  [RegisteredExtractors] getText: com.openkm.util.ReaderInputStream@9a6c56
17:24:00,579 INFO  [RegisteredExtractors] getText(image/tiff, UTF-8, org.apache.jackrabbit.core.data.LazyFileInputStream@1aaeb5)
17:24:09,984 WARN  [RegisteredExtractors] There was a problem extracting text from '/okm:root/prueba2ocr.tif'
17:24:09,992 INFO  [RegisteredExtractors] getText: com.openkm.util.ReaderInputStream@183cb25
Saludos
 #11497  by jllort
 
amplia el log4j para este package com.openkm.util a ver si vemos mas cosa
 #11498  by dmayan
 
GRACIAS!!

Igualmente reinstalé de cero, cambiando solamente las líneas del OpenKM.cfg y agregando Tesseract3 a los registered text extractors de la configuración en el panel administrativo y funciona bien. Ahora, quise cambiar a Cuneiform para tener mas exactitud con el OCR y tuve problemas, lo posteo en otro thread?

Saludos desde Argentina y sigan con el GRAN trabajo!

About Us

OpenKM is part of the management software. A management software is a program that facilitates the accomplishment of administrative tasks. OpenKM is a document management system that allows you to manage business content and workflow in a more efficient way. Document managers guarantee data protection by establishing information security for business content.