Page 1 of 1

PDF SEARCHABLE Y OCR SOBRE PDF DE IMAGEN

PostPosted:Tue Oct 01, 2013 2:23 pm
by acaballero
(32.88 KiB) Downloaded 271 times
Buenas tardes, llevo haciendo un tiempo pruebas sobre búsquedas de texto sobre los ficheros pdf y me he encontrado con lo siguiente:

Tengo un pdf searchable (con el texto pasado por un ocr antes de llegar a openkm). Lo subo y sobre él no puedo realizar ninguna búsqueda, ya que nunca encuentra el documento, cuando por abode acrobat puedo encontrar el texto.
(32.88 KiB) Downloaded 271 times
Sin embargo, si lo convierto a Tiff, y lo subo openkm si lo encuentra (pasa el tesseract y funciona bien)

Si la imagen tiff lo vuelvo a pasar a pdf resulta un pdf desde imagen sin texto (no es searchable) y al subirlo también me funciona.
(200.92 KiB) Downloaded 320 times
¿Porqué no encuentra el texto en el pdf searchable original?


Adjunto los 2 pdf de ejemplo

Gracias.

Re: PDF SEARCHABLE Y OCR SOBRE PDF DE IMAGEN

PostPosted:Wed Oct 02, 2013 9:04 pm
by jllort
1- Nos gustaría si es posible que lo pruebes en nuestra demo online demo.openkm.com
2- Que versión de openkm estas utilizando ?

Asegúrate que ha pasado por la cola de indexación -> Administración -> Stats -> indexing queue

El tema que nos indicas es curioso, porque si el texto tiene un layer de texto ( por el que ya ha pasado el ocr ) entonces, en principio, ya no pasamos el pdf por el ocr ( por esto me interesa conocer la versión de openkm que estas ejecutando, que no sea algún bug antiguo ).

Re: PDF SEARCHABLE Y OCR SOBRE PDF DE IMAGEN

PostPosted:Tue Dec 24, 2013 11:14 am
by acaballero
Hola, disculpa que no haya contestado antes. Ya me he dado cuenta que depende del pdf original. Existen algunos que sin encontrar una explicación lógica tienes capa de textos que no encuentra. La solución que he tomado para estas pruebas es de convertir el original a multi-tiff y luego pasarlo a pdf. Así nunca hay problemas. Como además dispongo de un ocr, lo paso por él y luego encuentro los ficheros. Seguiré haciendo pruebas por si alguno más me falla.

Gracias