Page 1 of 1

openkm 6.3.10 tesseract y OCR

PostPosted:Thu May 27, 2021 11:29 pm
by eaperezh
Estimados buenos dias.

Estoy usando OpenKM 6.3.10 community.
Esta version tiene instalada tesseract
tesseract 3.04.00
leptonica-1.72
libgif 4.1.6(?) : libjpeg 6b (libjpeg-turbo 1.2.90) : libpng 1.5.13 : libtiff 4.0.3 : zlib 1.2.7 : libwebp 0.3.0

Preguntas
1- Puedo actualizar tesseract sin que el OpenKM se dañe? o no es recomendable?
Me gustaria actualizar tesseract a la version 4 ademas de optimizarla para español

2- Con referencia al OCR. Si yo tengo un monton de PDFs, si lo subo a OpenKM hay forma de que OpenKM ejecute algo asi como:
convert -density 300 /path/a/mi/documento.pdf -depth 8 -strip -background white -alpha off archivoresultante.tiff
y despues de eso le corra tesseract?

O bien, que opciones tengo si tengo 500 PDFs que quiero subir a OpenKM y quiero hacerles OCR?

Saludos y gracias.

Re: openkm 6.3.10 tesseract y OCR

PostPosted:Sat May 29, 2021 9:17 am
by jllort
Varias cosas:
* instalar el tesseract no puede dañar openkm
* lo suyo es montar la version 4 de tesseract aunque si no te viene directamente en los repositorio igual te insteresa mas migrar openkm a una versión mas nueva del sistema operativo ( depende , al final todo es tiempo )
* En la version 4 simplemente instalas el diccionari de español y si quieres el de ingles y en el parámetro de configuración system.ocr pondras algo así como:
Code: Select all
 /usr/bin/tesseract ${fileIn} ${fileOut} -l eng+spa
* Una vez configurado el OCR ( probarlo desde Administration > tools > check text extraction ) lo que tienes que hacer es poner todos los documentos en la cola de indexación nuevamente -> Administration > Tools > Rebuild indexes > Text extractor
Selección_020.png
Selección_020.png (41.21 KiB) Viewed 10161 times