Buenos dias. Tengo instalado y funcionando la version 5.1.7 con ocr cuneiform (que funciona bien con imagenes Tff), y el problema es que no funciona el ocr en PDF de imagenes (que no esten indexados de por si). El error que me sale es el siguiente:
Gracias. por anticipado. Un saludo.
javier
Code: Select all
Necesito ayuda, todo funciona ok menos esa parte. He cambiado de ocr a tesseact y nada.at com.openkm.extractor.PdfTextExtractor.extractText(PdfTextExtractor.java:91)
at org.apache.jackrabbit.extractor.CompositeTextExtractor.extractText(CompositeTextExtractor.java:90)
at org.apache.jackrabbit.core.query.lucene.JackrabbitTextExtractor.extractText(JackrabbitTextExtractor.java:195)
at org.apache.jackrabbit.core.query.lucene.TextExtractorJob$1.call(TextExtractorJob.java:93)
at EDU.oswego.cs.dl.util.concurrent.FutureResult$1.run(Unknown Source)
at org.apache.jackrabbit.core.query.lucene.TextExtractorJob.run(TextExtractorJob.java:172)
at EDU.oswego.cs.dl.util.concurrent.PooledExecutor$Worker.run(Unknown Source)
at java.lang.Thread.run(Thread.java:662)
2011-11-11 03:54:10,111 WARN [com.openkm.util.ExecutionUtils] Abnormal program termination: 1
2011-11-11 03:54:10,111 WARN [com.openkm.util.ExecutionUtils] STDERR: Magick: improper image header `/tmp/Img37481603046505613340.png' @ error/png.c/ReadPNGImage/3078
2011-11-11 03:54:10,575 INFO [org.apache.jackrabbit.core.query.lucene.MultiIndex] updating index with 1 nodes from indexing queue.
Gracias. por anticipado. Un saludo.
javier