Open Source Document Management System | OpenKM

PostPosted:**Thu Jul 07, 2011 8:04 pm**

Hola!

Acabo de instalar OpenKM 5.1.6 sobre Ubuntu Server 11.04. Todo funciona correctamente, salvo la extracción de texto que no funciona de ninguna manera, ni para TXT, ni Excel, ni TIFF

Puse el log del extractor en DEBUG y lo que veo cuando subo un TXT es:

Code: Select all

16:58:27,179 INFO  [RegisteredExtractors] getText(application/octet-stream, UTF-8, org.apache.jackrabbit.core.data.LazyFileInputStream@128bbfa)
16:58:27,190 WARN  [RegisteredExtractors] There was a problem extracting text from '/okm:root/BasConex.txt'
16:58:27,192 INFO  [RegisteredExtractors] getText: com.openkm.util.ReaderInputStream@1bf07d6
16:58:27,179 INFO  [RegisteredExtractors] getText(application/octet-stream, UTF-8, org.apache.jackrabbit.core.data.LazyFileInputStream@128bbfa)
16:58:27,190 WARN  [RegisteredExtractors] There was a problem extracting text from '/okm:root/BasConex.txt'
16:58:27,192 INFO  [RegisteredExtractors] getText: com.openkm.util.ReaderInputStream@1bf07d6

Tampoco me extrae texto desde tesseract ni cuneiform, ni desde archivos Excel ,ni 97 ni 2007.

Gracias!!

Diego

PostPosted:**Thu Jul 07, 2011 8:30 pm**

Subo el error al intentar extraer desde un TIFF

Code: Select all

17:22:47,105 INFO  [RegisteredExtractors] getText: com.openkm.util.ReaderInputStream@9a6c56
17:24:00,579 INFO  [RegisteredExtractors] getText(image/tiff, UTF-8, org.apache.jackrabbit.core.data.LazyFileInputStream@1aaeb5)
17:24:09,984 WARN  [RegisteredExtractors] There was a problem extracting text from '/okm:root/prueba2ocr.tif'
17:24:09,992 INFO  [RegisteredExtractors] getText: com.openkm.util.ReaderInputStream@183cb25

Saludos

PostPosted:**Fri Jul 08, 2011 11:07 am**

amplia el log4j para este package com.openkm.util a ver si vemos mas cosa

PostPosted:**Fri Jul 08, 2011 11:16 am**

GRACIAS!!

Igualmente reinstalé de cero, cambiando solamente las líneas del OpenKM.cfg y agregando Tesseract3 a los registered text extractors de la configuración en el panel administrativo y funciona bien. Ahora, quise cambiar a Cuneiform para tener mas exactitud con el OCR y tuve problemas, lo posteo en otro thread?

Saludos desde Argentina y sigan con el GRAN trabajo!

PostPosted:**Tue Jul 12, 2011 3:31 pm**

Mejor en otro thread.

Open Source Document Management System | OpenKM

Problema con extraccion de texto

Problema con extraccion de texto

Re: Problema con extraccion de texto

Re: Problema con extraccion de texto

Re: Problema con extraccion de texto

Re: Problema con extraccion de texto