Open Source Document Management System | OpenKM

Text Extractor PDF

Forum rules: Por favor, antes de preguntar algo consulta el wiki de documentación o utiliza la función de búsqueda del foro. Recuerda que no tenemos una bola de cristal ni poderes mentales, o sea que que para informar sobre un error es necesario que nos indiques tanto la versión de OpenKM que usas como la del navegador y sistema operativo. Para más información consulta Cómo informar de fallos de forma efectiva.

5 posts

5 posts

Text Extractor PDF

#19361 by thallusete
Fri Nov 16, 2012 5:42 pm

Hola, estoy usando la versión 6 Community y no consigo que me extraiga texto de los PDFs.

De los ficheros de texto por ejemplo me saca el texto y de los JPG me hace el OCR sin problemas(con mayor o menor éxito usando el Tesseract 3 pero bueno)

Pero en el caso de los PDF siempre me arroja los mismos errores.

PDF does not contains text layer

There was a problem extracting text from .... Too few text extracted

He probado con distintos ficheros PDF, tanto creados por mi con Omnipage o con LibreOffice o ficheros de teceros

Las vistas previas me funcionan todas sin problemas y me permite buscar por texto en ellas, razón por la cual se que tienen texto y no imagenes.

Alguna idea de que puede estar pasando

Gracias

Username

thallusete

Rank

Junior Boarder

Posts

Joined

Sat Nov 20, 2010 10:13 am

Location

La Rioja

Re: Text Extractor PDF

#19379 by thallusete
Sat Nov 17, 2012 12:30 pm

Me respondo a mi mismo, resulta que tenia activado el check : system.pdf.force.ocr y me intentaba hacer el OCR de TODOS los PDF. Lo que descartaba a priori el uso del extractor de los PDF.

El problema viene por que en el fichero PdfTextExtractor.java la comprobación que se hace es la siguiente :

if (Config.SYSTEM_PDF_FORCE_OCR || st.length() <= 1) {
log.warn("PDF does not contains text layer");

Es decir que lanza el warning de que no tiene capa de texto por las dos razones, o por que no la tiene (longitud de st) o porque el valor de Config.SYSTEM_PDF_FORCE_OCR sea true y eso me confundió.

No estaría mal un warning mas explicativo en este caso,

Saludos

Username

thallusete

Rank

Junior Boarder

Posts

Joined

Sat Nov 20, 2010 10:13 am

Location

La Rioja

Re: Text Extractor PDF

#19407 by pavila
Mon Nov 19, 2012 6:08 pm

Puede ser que sea mejor dar dos mensajes diferentes, pq dos dos casos distintos aunque producen la misma acción.

Username

pavila

Rank

Moderator

Posts

3145

Joined

Tue Dec 11, 2007 6:02 pm

Location

Alicante, Spain

Contact

Re: Text Extractor PDF

#19665 by thallusete
Wed Dec 05, 2012 7:13 am

Como puedo subir esas modificaciones para el código Community?

Un saludo

Username

thallusete

Rank

Junior Boarder

Posts

Joined

Sat Nov 20, 2010 10:13 am

Location

La Rioja

Re: Text Extractor PDF

#19720 by pavila
Fri Dec 07, 2012 4:38 pm

Puedes crear un nuevo ticket en http://issues.openkm.com/ con la descripción del problema y adjuntando un parche (lo puedes generar desde Eclipse) con la solución. El parche que sea relativo al proyecto, no al workspace.

Una vez hecho, lo revisamos y si está todo correcto lo aplicamos al código fuente, con lo que estará disponible en la próxima versión de OpenKM.

Un saludo.

Username

pavila

Rank

Moderator

Posts

3145

Joined

Tue Dec 11, 2007 6:02 pm

Location

Alicante, Spain

Contact

Page 1 of 1
5 posts

Return to “Configuración”

Display:

Sort by:

Jump to: