• Text Extractor PDF

  • OpenKM tiene muchas características interesantes, pero es necesario un proceso de configuración para mostrar todo su potencial.
OpenKM tiene muchas características interesantes, pero es necesario un proceso de configuración para mostrar todo su potencial.
Forum rules: Por favor, antes de preguntar algo consulta el wiki de documentación o utiliza la función de búsqueda del foro. Recuerda que no tenemos una bola de cristal ni poderes mentales, o sea que que para informar sobre un error es necesario que nos indiques tanto la versión de OpenKM que usas como la del navegador y sistema operativo. Para más información consulta Cómo informar de fallos de forma efectiva.
 #19361  by thallusete
 
Hola, estoy usando la versión 6 Community y no consigo que me extraiga texto de los PDFs.

De los ficheros de texto por ejemplo me saca el texto y de los JPG me hace el OCR sin problemas(con mayor o menor éxito usando el Tesseract 3 pero bueno)

Pero en el caso de los PDF siempre me arroja los mismos errores.

PDF does not contains text layer

There was a problem extracting text from .... Too few text extracted

He probado con distintos ficheros PDF, tanto creados por mi con Omnipage o con LibreOffice o ficheros de teceros

Las vistas previas me funcionan todas sin problemas y me permite buscar por texto en ellas, razón por la cual se que tienen texto y no imagenes.

Alguna idea de que puede estar pasando

Gracias
 #19379  by thallusete
 
Me respondo a mi mismo, resulta que tenia activado el check : system.pdf.force.ocr y me intentaba hacer el OCR de TODOS los PDF. Lo que descartaba a priori el uso del extractor de los PDF.

El problema viene por que en el fichero PdfTextExtractor.java la comprobación que se hace es la siguiente :

if (Config.SYSTEM_PDF_FORCE_OCR || st.length() <= 1) {
log.warn("PDF does not contains text layer");

Es decir que lanza el warning de que no tiene capa de texto por las dos razones, o por que no la tiene (longitud de st) o porque el valor de Config.SYSTEM_PDF_FORCE_OCR sea true y eso me confundió.

No estaría mal un warning mas explicativo en este caso, :D

Saludos
 #19407  by pavila
 
Puede ser que sea mejor dar dos mensajes diferentes, pq dos dos casos distintos aunque producen la misma acción.
 #19665  by thallusete
 
Como puedo subir esas modificaciones para el código Community?

Un saludo
 #19720  by pavila
 
Puedes crear un nuevo ticket en http://issues.openkm.com/ con la descripción del problema y adjuntando un parche (lo puedes generar desde Eclipse) con la solución. El parche que sea relativo al proyecto, no al workspace.

Una vez hecho, lo revisamos y si está todo correcto lo aplicamos al código fuente, con lo que estará disponible en la próxima versión de OpenKM.

Un saludo.

About Us

OpenKM is part of the management software. A management software is a program that facilitates the accomplishment of administrative tasks. OpenKM is a document management system that allows you to manage business content and workflow in a more efficient way. Document managers guarantee data protection by establishing information security for business content.