Open Source Document Management System | OpenKM

Extraer texto documentos

Forum rules: Por favor, antes de preguntar algo consulta el wiki de documentación o utiliza la función de búsqueda del foro. Recuerda que no tenemos una bola de cristal ni poderes mentales, o sea que que para informar sobre un error es necesario que nos indiques tanto la versión de OpenKM que usas como la del navegador y sistema operativo. Para más información consulta Cómo informar de fallos de forma efectiva.

5 posts

5 posts

Extraer texto documentos

#28499 by gcosta
Tue May 06, 2014 10:43 am

Buenos días, estoy intentando realizar busqueda por contenido de documento pero hay forma. He mirado en tabla del MySQL y veo que no extrae nada de esos documentos.

Esos documentos son importados desde el escaner en formato pdf, tiff, jpg en ninguno de esos formatos extrae texto.

Os dejo el log que aparece en una de las pruebas:
"2014-05-06 12:36:38,407 [http-bio-0.0.0.0-8080-exec-3] WARN com.openkm.dao.NodeDocumentDAO - There was a problem extracting text from '/okm:root/Tothicap/Factures/pendents/PROVA.pdf': Too few text extracted"

Estoy utilizando el OpenKM Community Edition version 6.2.5 y creo que todo esta bien configurado.

Adjunto imagen del test de configuración.

Gracias.

Attachments

check_configuration.jpg (29.17 KiB) Viewed 2541 times

Username

gcosta

Rank

Gold Boarder

Posts

214

Joined

Thu Dec 05, 2013 7:43 am

Re: Extraer texto documentos

#28517 by jllort
Thu May 08, 2014 9:14 pm

Los documentos van a una cola -> Administracion -> Stats -> text extraction queue
Los documentos extraidos OKM_NODE_DOCUMENT se marcan con la columna NDC_TEXT_EXTRACTED='T'

El problema que tienes es que has de configurar el tesseract ocr, porque mucho me temo que los pdf que subes son imagenes sin capa de texto y por lo tanto deberían ser procesados por el OCR. También hay una propiedad para forzar esto desde la administración.

Mirate estas url http://wiki.openkm.com/index.php/Third- ... ation:_OCR ( fíjate con el nombre del text extractor que lo tienes que cambiar ) y también puedes mirar esto system.pdf.force.ocr

Username

jllort

Rank

Moderator

Posts

12048

Joined

Fri Dec 21, 2007 11:23 am

Location

Sineu - ( Illes Balears ) - Spain

Contact

Re: Extraer texto documentos

#28545 by gcosta
Mon May 12, 2014 4:27 pm

Buenas tardes pavila, gracias por tu ayuda. Te comento he realizado los pasos que me has comentado y sigo igual.

Si ejecuto el tesseract desde la linea de comando si que me genera un txt con la información del doc en pdf o tif, pero desde el OpenKM no hay manera.
He consultado la base de datos y en la tabla los docs me aparecen con 'T' conforme ha ejecutado el proceso pero nada, si es tif añade "----" y si es pdf "null".

Te adjunto una imagen para que veas como lo tengo configurado a ver si ves algun problema.

He accedido al apartado "utilites/check text extractor" pero no hay maneras que funcione.

Gracias.

Attachments

config.jpg (121.73 KiB) Viewed 2525 times

Username

gcosta

Rank

Gold Boarder

Posts

214

Joined

Thu Dec 05, 2013 7:43 am

Re: Extraer texto documentos

#28552 by gcosta
Tue May 13, 2014 2:50 pm

Me respondo a mi mismo. Finalment he encontrado donde esta el error.

Aprovecho para hacer una ultima pregunta sobre este punto y poner la resolución a continuacion, hay alguna diferencia entre el OCR de la version PRO y la community aparte del OCR zonal? o las dos versione usan el mismo OCR Tesseract?

Tenia configurador tanto en el fichero "OpenKM.cfg" como en "administracion/config" el system.ocr como "/usr/bin/tesseract ${fileIn} ${fileOut} -l esp".

Lo que he echo primaremente es eliminar la linea "system.ocr = /usr/bin/tesseract${fileIn} ${fileOut} -l esp" y seguidamente en "administracion/config" clave system.ocr he quitado la parte "-l esp" dejando lo demás igual.

Al realizar eso ha funcionado todo correcto.

Gracias.

Username

gcosta

Rank

Gold Boarder

Posts

214

Joined

Thu Dec 05, 2013 7:43 am

Re: Extraer texto documentos

#28572 by jllort
Thu May 15, 2014 10:29 am

basicamente has configurado el tesseract con el parámetro del diccionario. Tanto la comunity como la profesional se basan en la misma idea. Independencia del motor de OCR, es decir tanto puedes utilizar un open source ( cuneiform o tesseract ) como una professional como ocr4linux de abby ( por poner un ejemplo ). Mientras el ocr pueda ejecutarse desde la terminal y darte como resultado un fichero de output te funcionará cualquiera.

Username

jllort

Rank

Moderator

Posts

12048

Joined

Fri Dec 21, 2007 11:23 am

Location

Sineu - ( Illes Balears ) - Spain

Contact

Page 1 of 1
5 posts

Return to “Uso”

Display:

Sort by:

Jump to: