TextExtractor

Hemos intentado hacer de OpenKM una aplicación lo más intuitiva posible, sin embargo siempre viene bien algún consejo.
Forum rules
Por favor, antes de preguntar algo consulta el wiki de documentación o utiliza la función de búsqueda del foro. Recuerda que no tenemos una bola de cristal ni poderes mentales, o sea que que para informar sobre un error es necesario que nos indiques tanto la versión de OpenKM que usas como la del navegador y sistema operativo. Para más información consulta Cómo informar de fallos de forma efectiva.
Post Reply
gcosta
Gold Boarder
Gold Boarder
Posts: 214
Joined: Thu Dec 05, 2013 7:43 am

TextExtractor

Post by gcosta »

Buenas tardes, desde hace unos días nos fijamos que el textextractor no lee el contenido de los ficheros .tiff que hasta la fecha hacía perfectamente.

Estamos usando la versión Community 6.3.1.

Os pongo el log del catalina.log, a ver si alguien puede ayudarme.

Gracias.

Code: Select all

2016-10-07 19:20:09,632 [Thread-68925] WARN  com.openkm.dao.NodeDocumentDAO - There was a problem extracting text from '/okm:root/Boadella/Administracio/Albarans/Pendents/doc02314620161004083909.tif': convert: incorrect count for field "JpegQTables" (0, expecting 1); tag ignored. `/opt/openkm-6.2.5-community/tomcat/temp/okm6304218702031541458.tif' @ warning/tiff.c/TIFFWarnings/768.
convert: incorrect count for field "JpegDcTables" (0, expecting 1); tag ignored. `/opt/openkm-6.2.5-community/tomcat/temp/okm6304218702031541458.tif' @ warning/tiff.c/TIFFWarnings/768.
convert: incorrect count for field "JpegAcTables" (0, expecting 1); tag ignored. `/opt/openkm-6.2.5-community/tomcat/temp/okm6304218702031541458.tif' @ warning/tiff.c/TIFFWarnings/768.
convert: Depreciated and troublesome old-style JPEG compression mode, please convert to new-style JPEG compression and notify vendor of writing software. `OJPEGSetupDecode' @ warning/tiff.c/TIFFWarnings/768.
convert: /opt/openkm-6.2.5-community/tomcat/temp/okm6304218702031541458.tif: Invalid tag "Predictor" (not supported by codec). `_TIFFVGetField' @ error/tiff.c/TIFFErrors/508.

jllort
Moderator
Moderator
Posts: 11240
Joined: Fri Dec 21, 2007 11:23 am
Location: Sineu - ( Illes Balears ) - Spain
Contact:

Re: TextExtractor

Post by jllort »

Últimamente, habeis hecho un update del sistema operativo ( me refiero a actualizar paquetes ). Podría ser algún problema con el convert ( la utilidad del imagemagick ).

gcosta
Gold Boarder
Gold Boarder
Posts: 214
Joined: Thu Dec 05, 2013 7:43 am

Re: TextExtractor

Post by gcosta »

Buenos días, sí. Si no recuerdo mal algún que otro paquete he actualizado del sistema operativo Debian.

Cómo puedo solucionar eso?

Gracias.

jllort
Moderator
Moderator
Posts: 11240
Joined: Fri Dec 21, 2007 11:23 am
Location: Sineu - ( Illes Balears ) - Spain
Contact:

Re: TextExtractor

Post by jllort »

Intentando instalar una versión anterior del imagemagick en /opt y que openkm utilice esta configuración en las propiedades.
Esperando a que solucionen el bug ( si es que es un bug del convert ).

Una buena idea seria, intentar desde la terminal ejecutar el mismo comando que se ejuta desde la aplicación. El text extractor que se ejecuta será el Tesseract3TextExtractor, aquí tiene sel código fuente:
https://sourceforge.net/p/openkm/code/H ... actor.java

gcosta
Gold Boarder
Gold Boarder
Posts: 214
Joined: Thu Dec 05, 2013 7:43 am

Re: TextExtractor

Post by gcosta »

Buenos días, eso ya lo probé. Si ejecuto el comando desde el terminal del Debian extrae el texto correctamente.

El problema es que el OpenKM no.

Gracias.

jllort
Moderator
Moderator
Posts: 11240
Joined: Fri Dec 21, 2007 11:23 am
Location: Sineu - ( Illes Balears ) - Spain
Contact:

Re: TextExtractor

Post by jllort »

Esto que comentas no tiene mucho sentido. Ejecutar un comando desde la terminal o desde la aplicación tiene que dar el mismo resultado. Asegúrate que estas ejecutando el mismo comando con los mismos parámetros y sobre el mismo fichero que esta dando problemas en OpenKM.

Fíjate que has comentado que no has cambiado la aplicación - OpenKM - y que de repente esto te ha dejado de funcionar. No busques en lo que no ha cambiado, se tiene que buscar en la parte de fuera. Fíjate que el error al final lo esta dando el convert

Code: Select all

convert: /opt/openkm-6.2.5-community/tomcat/temp/okm6304218702031541458.tif: Invalid tag "Predictor" (not supported by codec). `_TIFFVGetField' @ error/tiff.c/TIFFErrors/508.

gcosta
Gold Boarder
Gold Boarder
Posts: 214
Joined: Thu Dec 05, 2013 7:43 am

Re: TextExtractor

Post by gcosta »

Buenas tardes, hay alguna forma de reinstalar el convert?

Gracias.

jllort
Moderator
Moderator
Posts: 11240
Joined: Fri Dec 21, 2007 11:23 am
Location: Sineu - ( Illes Balears ) - Spain
Contact:

Re: TextExtractor

Post by jllort »

Puedes instalar el paquete manualmente ( compilando y tal, un rollo considerable, teniendo en cuenta que cuando lo compilas tienes que indicarle para que tipos de ficheros soportados etc.. ).

// Aqui tienes una primera idea de como hacerlo
http://www.imagemagick.org/script/install-source.php

Alguna veces nos hemos encontrado con que la versión de imagemagick ( por defecto ) en alguna determinada release del SO no termina de funcionar como debería y hemos tenido que acudir a esta solución ( no es agradable, otro tema es esperar un par de semanas a ver si hay un update que te lo soluciona ).

gcosta
Gold Boarder
Gold Boarder
Posts: 214
Joined: Thu Dec 05, 2013 7:43 am

Re: TextExtractor

Post by gcosta »

Buenos días, por si ha alguien le sirve pongo los pasos seguidos para solucionar el problema.

El error ha aparecido tras actualizar el SO en mi caso Debian. De todos modos la solución es valida también para Ubuntu.

Para solucionar el problema, hay que reinstalar el ImageMagick tras actualizar el SO.

Muy importante!!! no se puede instalar una versión posterior a la 6.8.7-10. No por el SO si no por el OpenKM. El problema es que el OpenKM usa el comando "rotate -90" y a partir de la versión 6.8.8-10 el ImageMagick ya no la interpreta!

Yo utilizo la versión Comnunity 6.3.1. No se si el la versión professional el problema será el mismo. Si es así hay que tener en cuenta eso para futuras versiones de OpenKM.

A Continuación los pasos ejecutados para reinstalar o actualizar el Imagemagick.

Code: Select all

$ sudo apt-get update
$ sudo apt-get install build-essential checkinstall libx11-dev libxext-dev zlib1g-dev libpng12-dev libjpeg-dev libfreetype6-dev libxml2-dev
$ sudo apt-get build-dep imagemagick
$ wget http://www.imagemagick.org/download/ImageMagick-6.8.7-9.tar.gz
$ tar -xzvf ImageMagick-6.8.7-9.tar.gz
$ cd ImageMagick-6.8.7-9
$ ./configure (or configure or sudo configure)
$ sudo checkinstall
$ ldconfig /usr/local/lib (or sudo ldconfig /usr/local/lib)
Por último, una vez todo instalado solo queda acceder al OpenKM en el apartado de configuración y modificar la ruta de ejecución del imagemagick. Por defecto la nueva ruta suele ser /usr/local/bin/convert en vez de /usr/bin/convert.

Espero que le sirve a alguien ya que a mi me a traído de cabeza.

jllort
Moderator
Moderator
Posts: 11240
Joined: Fri Dec 21, 2007 11:23 am
Location: Sineu - ( Illes Balears ) - Spain
Contact:

Re: TextExtractor

Post by jllort »

El tema del comando rotate lo tendremos en cuenta a ver si de alguna forma podemos hacer que esta parte sea mas configurable. Gracias por el dato.

Post Reply