Open Source Document Management System | OpenKM

PostPosted:**Fri Nov 11, 2011 4:09 am**

Buenos dias. Tengo instalado y funcionando la version 5.1.7 con ocr cuneiform (que funciona bien con imagenes Tff), y el problema es que no funciona el ocr en PDF de imagenes (que no esten indexados de por si). El error que me sale es el siguiente:

Code: Select all

at com.openkm.extractor.PdfTextExtractor.extractText(PdfTextExtractor.java:91)
	at org.apache.jackrabbit.extractor.CompositeTextExtractor.extractText(CompositeTextExtractor.java:90)
	at org.apache.jackrabbit.core.query.lucene.JackrabbitTextExtractor.extractText(JackrabbitTextExtractor.java:195)
	at org.apache.jackrabbit.core.query.lucene.TextExtractorJob$1.call(TextExtractorJob.java:93)
	at EDU.oswego.cs.dl.util.concurrent.FutureResult$1.run(Unknown Source)
	at org.apache.jackrabbit.core.query.lucene.TextExtractorJob.run(TextExtractorJob.java:172)
	at EDU.oswego.cs.dl.util.concurrent.PooledExecutor$Worker.run(Unknown Source)
	at java.lang.Thread.run(Thread.java:662)
2011-11-11 03:54:10,111 WARN  [com.openkm.util.ExecutionUtils] Abnormal program termination: 1
2011-11-11 03:54:10,111 WARN  [com.openkm.util.ExecutionUtils] STDERR: Magick: improper image header `/tmp/Img37481603046505613340.png' @ error/png.c/ReadPNGImage/3078

2011-11-11 03:54:10,575 INFO  [org.apache.jackrabbit.core.query.lucene.MultiIndex] updating index with 1 nodes from indexing queue.

Necesito ayuda, todo funciona ok menos esa parte. He cambiado de ocr a tesseact y nada.
Gracias. por anticipado. Un saludo.

javier

PostPosted:**Sat Nov 12, 2011 9:14 am**

Estas en windows o en linux.
Yo te aconsejaría subir a la última versión integration.openkm.com ( que será la próxima 5.1.8 ).
Podemos ver algun pdf de estos, para realizar algun test nosotros ?

Open Source Document Management System | OpenKM

no me indexan pdf de imagenes

no me indexan pdf de imagenes

Re: no me indexan pdf de imagenes