Page 1 of 1

TextExtractor

Posted: Fri Oct 07, 2016 5:27 pm
by gcosta
Buenas tardes, desde hace unos días nos fijamos que el textextractor no lee el contenido de los ficheros .tiff que hasta la fecha hacía perfectamente.

Estamos usando la versión Community 6.3.1.

Os pongo el log del catalina.log, a ver si alguien puede ayudarme.

Gracias.

Code: Select all

2016-10-07 19:20:09,632 [Thread-68925] WARN  com.openkm.dao.NodeDocumentDAO - There was a problem extracting text from '/okm:root/Boadella/Administracio/Albarans/Pendents/doc02314620161004083909.tif': convert: incorrect count for field "JpegQTables" (0, expecting 1); tag ignored. `/opt/openkm-6.2.5-community/tomcat/temp/okm6304218702031541458.tif' @ warning/tiff.c/TIFFWarnings/768.
convert: incorrect count for field "JpegDcTables" (0, expecting 1); tag ignored. `/opt/openkm-6.2.5-community/tomcat/temp/okm6304218702031541458.tif' @ warning/tiff.c/TIFFWarnings/768.
convert: incorrect count for field "JpegAcTables" (0, expecting 1); tag ignored. `/opt/openkm-6.2.5-community/tomcat/temp/okm6304218702031541458.tif' @ warning/tiff.c/TIFFWarnings/768.
convert: Depreciated and troublesome old-style JPEG compression mode, please convert to new-style JPEG compression and notify vendor of writing software. `OJPEGSetupDecode' @ warning/tiff.c/TIFFWarnings/768.
convert: /opt/openkm-6.2.5-community/tomcat/temp/okm6304218702031541458.tif: Invalid tag "Predictor" (not supported by codec). `_TIFFVGetField' @ error/tiff.c/TIFFErrors/508.

Re: TextExtractor

Posted: Sat Oct 08, 2016 6:38 pm
by jllort
Últimamente, habeis hecho un update del sistema operativo ( me refiero a actualizar paquetes ). Podría ser algún problema con el convert ( la utilidad del imagemagick ).

Re: TextExtractor

Posted: Mon Oct 10, 2016 7:04 am
by gcosta
Buenos días, sí. Si no recuerdo mal algún que otro paquete he actualizado del sistema operativo Debian.

Cómo puedo solucionar eso?

Gracias.

Re: TextExtractor

Posted: Mon Oct 10, 2016 7:35 am
by jllort
Intentando instalar una versión anterior del imagemagick en /opt y que openkm utilice esta configuración en las propiedades.
Esperando a que solucionen el bug ( si es que es un bug del convert ).

Una buena idea seria, intentar desde la terminal ejecutar el mismo comando que se ejuta desde la aplicación. El text extractor que se ejecuta será el Tesseract3TextExtractor, aquí tiene sel código fuente:
https://sourceforge.net/p/openkm/code/H ... actor.java

Re: TextExtractor

Posted: Mon Oct 10, 2016 11:36 am
by gcosta
Buenos días, eso ya lo probé. Si ejecuto el comando desde el terminal del Debian extrae el texto correctamente.

El problema es que el OpenKM no.

Gracias.

Re: TextExtractor

Posted: Tue Oct 11, 2016 6:34 am
by jllort
Esto que comentas no tiene mucho sentido. Ejecutar un comando desde la terminal o desde la aplicación tiene que dar el mismo resultado. Asegúrate que estas ejecutando el mismo comando con los mismos parámetros y sobre el mismo fichero que esta dando problemas en OpenKM.

Fíjate que has comentado que no has cambiado la aplicación - OpenKM - y que de repente esto te ha dejado de funcionar. No busques en lo que no ha cambiado, se tiene que buscar en la parte de fuera. Fíjate que el error al final lo esta dando el convert

Code: Select all

convert: /opt/openkm-6.2.5-community/tomcat/temp/okm6304218702031541458.tif: Invalid tag "Predictor" (not supported by codec). `_TIFFVGetField' @ error/tiff.c/TIFFErrors/508.

Re: TextExtractor

Posted: Tue Oct 11, 2016 2:16 pm
by gcosta
Buenas tardes, hay alguna forma de reinstalar el convert?

Gracias.

Re: TextExtractor

Posted: Wed Oct 12, 2016 10:17 am
by jllort
Puedes instalar el paquete manualmente ( compilando y tal, un rollo considerable, teniendo en cuenta que cuando lo compilas tienes que indicarle para que tipos de ficheros soportados etc.. ).

// Aqui tienes una primera idea de como hacerlo
http://www.imagemagick.org/script/install-source.php

Alguna veces nos hemos encontrado con que la versión de imagemagick ( por defecto ) en alguna determinada release del SO no termina de funcionar como debería y hemos tenido que acudir a esta solución ( no es agradable, otro tema es esperar un par de semanas a ver si hay un update que te lo soluciona ).

Re: TextExtractor

Posted: Mon Oct 17, 2016 11:16 am
by gcosta
Buenos días, por si ha alguien le sirve pongo los pasos seguidos para solucionar el problema.

El error ha aparecido tras actualizar el SO en mi caso Debian. De todos modos la solución es valida también para Ubuntu.

Para solucionar el problema, hay que reinstalar el ImageMagick tras actualizar el SO.

Muy importante!!! no se puede instalar una versión posterior a la 6.8.7-10. No por el SO si no por el OpenKM. El problema es que el OpenKM usa el comando "rotate -90" y a partir de la versión 6.8.8-10 el ImageMagick ya no la interpreta!

Yo utilizo la versión Comnunity 6.3.1. No se si el la versión professional el problema será el mismo. Si es así hay que tener en cuenta eso para futuras versiones de OpenKM.

A Continuación los pasos ejecutados para reinstalar o actualizar el Imagemagick.

Code: Select all

$ sudo apt-get update
$ sudo apt-get install build-essential checkinstall libx11-dev libxext-dev zlib1g-dev libpng12-dev libjpeg-dev libfreetype6-dev libxml2-dev
$ sudo apt-get build-dep imagemagick
$ wget http://www.imagemagick.org/download/ImageMagick-6.8.7-9.tar.gz
$ tar -xzvf ImageMagick-6.8.7-9.tar.gz
$ cd ImageMagick-6.8.7-9
$ ./configure (or configure or sudo configure)
$ sudo checkinstall
$ ldconfig /usr/local/lib (or sudo ldconfig /usr/local/lib)
Por último, una vez todo instalado solo queda acceder al OpenKM en el apartado de configuración y modificar la ruta de ejecución del imagemagick. Por defecto la nueva ruta suele ser /usr/local/bin/convert en vez de /usr/bin/convert.

Espero que le sirve a alguien ya que a mi me a traído de cabeza.

Re: TextExtractor

Posted: Tue Oct 18, 2016 6:23 pm
by jllort
El tema del comando rotate lo tendremos en cuenta a ver si de alguna forma podemos hacer que esta parte sea mas configurable. Gracias por el dato.