Buenas tardes, tengo el siguiente problema:
Cuando subo un documento en .pdf con o sin capa de texto en OCR no logra hacer búsqueda por contenido.
Cuando pre visualizo el documento si puedo detectar la capa de texto y seleccionar las letras, pero cuando hago un search al repositorio no me arroja ningun resultado, en cambio si subo un documento .tiff, si me hace el OCR y me indexa la capa de texto y el documento queda con searcheable por contenido.
Quisiera saber como configuro el tesseract para que me haga OCR a todos los archivos .pdf y me deje toda esa capa de texto indexada y lista para poder hacer búsqueda de contenido.
Gracias
Cuando subo un documento en .pdf con o sin capa de texto en OCR no logra hacer búsqueda por contenido.
Cuando pre visualizo el documento si puedo detectar la capa de texto y seleccionar las letras, pero cuando hago un search al repositorio no me arroja ningun resultado, en cambio si subo un documento .tiff, si me hace el OCR y me indexa la capa de texto y el documento queda con searcheable por contenido.
Quisiera saber como configuro el tesseract para que me haga OCR a todos los archivos .pdf y me deje toda esa capa de texto indexada y lista para poder hacer búsqueda de contenido.
Gracias
