Open Source Document Management System | OpenKM - PDF SEARCHABLE Y OCR SOBRE PDF DE IMAGEN

PDF SEARCHABLE Y OCR SOBRE PDF DE IMAGEN

Forum rules: Por favor, antes de preguntar algo consulta el wiki de documentación o utiliza la función de búsqueda del foro. Recuerda que no tenemos una bola de cristal ni poderes mentales, o sea que que para informar sobre un error es necesario que nos indiques tanto la versión de OpenKM que usas como la del navegador y sistema operativo. Para más información consulta Cómo informar de fallos de forma efectiva.

3 posts

3 posts

PDF SEARCHABLE Y OCR SOBRE PDF DE IMAGEN

#25723 by acaballero
Tue Oct 01, 2013 2:23 pm

Curso Básico Mágia Infantil - desde imagen.pdf

(32.88 KiB) Downloaded 415 times

Buenas tardes, llevo haciendo un tiempo pruebas sobre búsquedas de texto sobre los ficheros pdf y me he encontrado con lo siguiente:

Tengo un pdf searchable (con el texto pasado por un ocr antes de llegar a openkm). Lo subo y sobre él no puedo realizar ninguna búsqueda, ya que nunca encuentra el documento, cuando por abode acrobat puedo encontrar el texto.

Curso Básico Mágia Infantil - desde imagen.pdf

(32.88 KiB) Downloaded 415 times

Sin embargo, si lo convierto a Tiff, y lo subo openkm si lo encuentra (pasa el tesseract y funciona bien)

Si la imagen tiff lo vuelvo a pasar a pdf resulta un pdf desde imagen sin texto (no es searchable) y al subirlo también me funciona.

Curso Básico Mágia Infantil.pdf

(200.92 KiB) Downloaded 449 times

¿Porqué no encuentra el texto en el pdf searchable original?

Adjunto los 2 pdf de ejemplo

Gracias.

Username

acaballero

Rank

Senior Boarder

Posts

Joined

Tue Mar 22, 2011 7:30 am

Re: PDF SEARCHABLE Y OCR SOBRE PDF DE IMAGEN

#25736 by jllort
Wed Oct 02, 2013 9:04 pm

1- Nos gustaría si es posible que lo pruebes en nuestra demo online demo.openkm.com
2- Que versión de openkm estas utilizando ?

Asegúrate que ha pasado por la cola de indexación -> Administración -> Stats -> indexing queue

El tema que nos indicas es curioso, porque si el texto tiene un layer de texto ( por el que ya ha pasado el ocr ) entonces, en principio, ya no pasamos el pdf por el ocr ( por esto me interesa conocer la versión de openkm que estas ejecutando, que no sea algún bug antiguo ).

Username

jllort

Rank

Moderator

Posts

12184

Joined

Fri Dec 21, 2007 11:23 am

Location

Sineu - ( Illes Balears ) - Spain

Contact

Re: PDF SEARCHABLE Y OCR SOBRE PDF DE IMAGEN

#27521 by acaballero
Tue Dec 24, 2013 11:14 am

Hola, disculpa que no haya contestado antes. Ya me he dado cuenta que depende del pdf original. Existen algunos que sin encontrar una explicación lógica tienes capa de textos que no encuentra. La solución que he tomado para estas pruebas es de convertir el original a multi-tiff y luego pasarlo a pdf. Así nunca hay problemas. Como además dispongo de un ocr, lo paso por él y luego encuentro los ficheros. Seguiré haciendo pruebas por si alguno más me falla.

Gracias

Username

acaballero

Rank

Senior Boarder

Posts

Joined

Tue Mar 22, 2011 7:30 am

Page 1 of 1
3 posts

Return to “Configuración”

Display:

Sort by:

Jump to: