Page 1 of 1

Problema con extraccion de texto

PostPosted:Thu Jul 07, 2011 8:04 pm
by dmayan
Hola!

Acabo de instalar OpenKM 5.1.6 sobre Ubuntu Server 11.04. Todo funciona correctamente, salvo la extracción de texto que no funciona de ninguna manera, ni para TXT, ni Excel, ni TIFF

Puse el log del extractor en DEBUG y lo que veo cuando subo un TXT es:
Code: Select all
16:58:27,179 INFO  [RegisteredExtractors] getText(application/octet-stream, UTF-8, org.apache.jackrabbit.core.data.LazyFileInputStream@128bbfa)
16:58:27,190 WARN  [RegisteredExtractors] There was a problem extracting text from '/okm:root/BasConex.txt'
16:58:27,192 INFO  [RegisteredExtractors] getText: com.openkm.util.ReaderInputStream@1bf07d6
16:58:27,179 INFO  [RegisteredExtractors] getText(application/octet-stream, UTF-8, org.apache.jackrabbit.core.data.LazyFileInputStream@128bbfa)
16:58:27,190 WARN  [RegisteredExtractors] There was a problem extracting text from '/okm:root/BasConex.txt'
16:58:27,192 INFO  [RegisteredExtractors] getText: com.openkm.util.ReaderInputStream@1bf07d6
Tampoco me extrae texto desde tesseract ni cuneiform, ni desde archivos Excel ,ni 97 ni 2007.

Gracias!!

Diego

Re: Problema con extraccion de texto

PostPosted:Thu Jul 07, 2011 8:30 pm
by dmayan
Subo el error al intentar extraer desde un TIFF
Code: Select all
17:22:47,105 INFO  [RegisteredExtractors] getText: com.openkm.util.ReaderInputStream@9a6c56
17:24:00,579 INFO  [RegisteredExtractors] getText(image/tiff, UTF-8, org.apache.jackrabbit.core.data.LazyFileInputStream@1aaeb5)
17:24:09,984 WARN  [RegisteredExtractors] There was a problem extracting text from '/okm:root/prueba2ocr.tif'
17:24:09,992 INFO  [RegisteredExtractors] getText: com.openkm.util.ReaderInputStream@183cb25
Saludos

Re: Problema con extraccion de texto

PostPosted:Fri Jul 08, 2011 11:07 am
by jllort
amplia el log4j para este package com.openkm.util a ver si vemos mas cosa

Re: Problema con extraccion de texto

PostPosted:Fri Jul 08, 2011 11:16 am
by dmayan
GRACIAS!!

Igualmente reinstalé de cero, cambiando solamente las líneas del OpenKM.cfg y agregando Tesseract3 a los registered text extractors de la configuración en el panel administrativo y funciona bien. Ahora, quise cambiar a Cuneiform para tener mas exactitud con el OCR y tuve problemas, lo posteo en otro thread?

Saludos desde Argentina y sigan con el GRAN trabajo!

Re: Problema con extraccion de texto

PostPosted:Tue Jul 12, 2011 3:31 pm
by pavila
Mejor en otro thread.