Page 1 of 1

Text Extractor PDF

PostPosted:Fri Nov 16, 2012 5:42 pm
by thallusete
Hola, estoy usando la versión 6 Community y no consigo que me extraiga texto de los PDFs.

De los ficheros de texto por ejemplo me saca el texto y de los JPG me hace el OCR sin problemas(con mayor o menor éxito usando el Tesseract 3 pero bueno)

Pero en el caso de los PDF siempre me arroja los mismos errores.

PDF does not contains text layer

There was a problem extracting text from .... Too few text extracted

He probado con distintos ficheros PDF, tanto creados por mi con Omnipage o con LibreOffice o ficheros de teceros

Las vistas previas me funcionan todas sin problemas y me permite buscar por texto en ellas, razón por la cual se que tienen texto y no imagenes.

Alguna idea de que puede estar pasando

Gracias

Re: Text Extractor PDF

PostPosted:Sat Nov 17, 2012 12:30 pm
by thallusete
Me respondo a mi mismo, resulta que tenia activado el check : system.pdf.force.ocr y me intentaba hacer el OCR de TODOS los PDF. Lo que descartaba a priori el uso del extractor de los PDF.

El problema viene por que en el fichero PdfTextExtractor.java la comprobación que se hace es la siguiente :

if (Config.SYSTEM_PDF_FORCE_OCR || st.length() <= 1) {
log.warn("PDF does not contains text layer");

Es decir que lanza el warning de que no tiene capa de texto por las dos razones, o por que no la tiene (longitud de st) o porque el valor de Config.SYSTEM_PDF_FORCE_OCR sea true y eso me confundió.

No estaría mal un warning mas explicativo en este caso, :D

Saludos

Re: Text Extractor PDF

PostPosted:Mon Nov 19, 2012 6:08 pm
by pavila
Puede ser que sea mejor dar dos mensajes diferentes, pq dos dos casos distintos aunque producen la misma acción.

Re: Text Extractor PDF

PostPosted:Wed Dec 05, 2012 7:13 am
by thallusete
Como puedo subir esas modificaciones para el código Community?

Un saludo

Re: Text Extractor PDF

PostPosted:Fri Dec 07, 2012 4:38 pm
by pavila
Puedes crear un nuevo ticket en http://issues.openkm.com/ con la descripción del problema y adjuntando un parche (lo puedes generar desde Eclipse) con la solución. El parche que sea relativo al proyecto, no al workspace.

Una vez hecho, lo revisamos y si está todo correcto lo aplicamos al código fuente, con lo que estará disponible en la próxima versión de OpenKM.

Un saludo.