openkm 6.3.10 tesseract y OCR

Hemos intentado hacer de OpenKM una aplicación lo más intuitiva posible, sin embargo siempre viene bien algún consejo.
Forum rules
Por favor, antes de preguntar algo consulta el wiki de documentación o utiliza la función de búsqueda del foro. Recuerda que no tenemos una bola de cristal ni poderes mentales, o sea que que para informar sobre un error es necesario que nos indiques tanto la versión de OpenKM que usas como la del navegador y sistema operativo. Para más información consulta Cómo informar de fallos de forma efectiva.
Post Reply
eaperezh
Fresh Boarder
Fresh Boarder
Posts: 4
Joined: Wed Jun 24, 2020 11:22 pm

openkm 6.3.10 tesseract y OCR

Post by eaperezh »

Estimados buenos dias.

Estoy usando OpenKM 6.3.10 community.
Esta version tiene instalada tesseract
tesseract 3.04.00
leptonica-1.72
libgif 4.1.6(?) : libjpeg 6b (libjpeg-turbo 1.2.90) : libpng 1.5.13 : libtiff 4.0.3 : zlib 1.2.7 : libwebp 0.3.0

Preguntas
1- Puedo actualizar tesseract sin que el OpenKM se dañe? o no es recomendable?
Me gustaria actualizar tesseract a la version 4 ademas de optimizarla para español

2- Con referencia al OCR. Si yo tengo un monton de PDFs, si lo subo a OpenKM hay forma de que OpenKM ejecute algo asi como:
convert -density 300 /path/a/mi/documento.pdf -depth 8 -strip -background white -alpha off archivoresultante.tiff
y despues de eso le corra tesseract?

O bien, que opciones tengo si tengo 500 PDFs que quiero subir a OpenKM y quiero hacerles OCR?

Saludos y gracias.
jllort
Moderator
Moderator
Posts: 11584
Joined: Fri Dec 21, 2007 11:23 am
Location: Sineu - ( Illes Balears ) - Spain
Contact:

Re: openkm 6.3.10 tesseract y OCR

Post by jllort »

Varias cosas:
* instalar el tesseract no puede dañar openkm
* lo suyo es montar la version 4 de tesseract aunque si no te viene directamente en los repositorio igual te insteresa mas migrar openkm a una versión mas nueva del sistema operativo ( depende , al final todo es tiempo )
* En la version 4 simplemente instalas el diccionari de español y si quieres el de ingles y en el parámetro de configuración system.ocr pondras algo así como:

Code: Select all

 /usr/bin/tesseract ${fileIn} ${fileOut} -l eng+spa
* Una vez configurado el OCR ( probarlo desde Administration > tools > check text extraction ) lo que tienes que hacer es poner todos los documentos en la cola de indexación nuevamente -> Administration > Tools > Rebuild indexes > Text extractor
Selección_020.png
Post Reply