Extracción texto PDF

Hemos intentado hacer de OpenKM una aplicación lo más intuitiva posible, sin embargo siempre viene bien algún consejo.
Forum rules
Por favor, antes de preguntar algo consulta el wiki de documentación o utiliza la función de búsqueda del foro. Recuerda que no tenemos una bola de cristal ni poderes mentales, o sea que que para informar sobre un error es necesario que nos indiques tanto la versión de OpenKM que usas como la del navegador y sistema operativo. Para más información consulta Cómo informar de fallos de forma efectiva.
Post Reply
gcosta
Gold Boarder
Gold Boarder
Posts: 214
Joined: Thu Dec 05, 2013 7:43 am

Extracción texto PDF

Post by gcosta »

Buenas tardes, estamos usando la versión Community 6.3.8 y hemos detectado que no extrae el texto de los archivos pdf.

Si ejecutamos el test del textextractor nos da el siguiente error:

Code: Select all

org.apache.pdfbox.pdmodel.graphics.xobject.PDXObjectForm cannot be cast to org.apache.pdfbox.pdmodel.graphics.xobject.PDXObjectImage
Que nos falta configurar?

Gracias.

jllort
Moderator
Moderator
Posts: 11193
Joined: Fri Dec 21, 2007 11:23 am
Location: Sineu - ( Illes Balears ) - Spain
Contact:

Re: Extracción texto PDF

Post by jllort »

Puedes compartirnos un fichero PDF que no funcione para realizar un test de nuestro lado ?
Y si es posible la traza completa de el error ( fichero catalina.log )

gcosta
Gold Boarder
Gold Boarder
Posts: 214
Joined: Thu Dec 05, 2013 7:43 am

Re: Extracción texto PDF

Post by gcosta »

Buenas tardes, gracias por la respuesta. A continuación te mando el registro del log al ejecutar el text extractor test.

Referente al fichero, si tienes algun sitio privado donde te lo pueda colgar por favor indicame.

Gracias.

Code: Select all

StdErr: 
2020-01-23 16:54:28,866 [http-nio-0.0.0.0-8020-exec-8] [] WARN  com.openkm.util.ReportUtils - Report '7' has no params.xml file
2020-01-23 16:54:57,812 [http-nio-0.0.0.0-8020-exec-2] [] WARN  c.openkm.extractor.PdfTextExtractor - PDF does not contains text layer
2020-01-23 16:54:57,814 [http-nio-0.0.0.0-8020-exec-2] [] WARN  c.openkm.extractor.PdfTextExtractor - Failed to extract PDF text content
java.lang.ClassCastException: org.apache.pdfbox.pdmodel.graphics.xobject.PDXObjectForm cannot be cast to org.apache.pdfbox.pdmodel.graphics.xobject.PDXObjectImage
	at com.openkm.extractor.PdfTextExtractor.extractText(PdfTextExtractor.java:145) ~[classes/:6.3.8]
	at com.openkm.extractor.RegisteredExtractors.getText(RegisteredExtractors.java:164) [classes/:6.3.8]
	at com.openkm.servlet.admin.CheckTextExtractionServlet.doPost(CheckTextExtractionServlet.java:133) [classes/:6.3.8]
	at javax.servlet.http.HttpServlet.service(HttpServlet.java:661) [servlet-api.jar:na]
	at javax.servlet.http.HttpServlet.service(HttpServlet.java:742) [servlet-api.jar:na]
	at org.apache.catalina.core.ApplicationFilterChain.internalDoFilter(ApplicationFilterChain.java:231) [catalina.jar:8.5.24]
	at org.apache.catalina.core.ApplicationFilterChain.doFilter(ApplicationFilterChain.java:166) [catalina.jar:8.5.24]
	at org.apache.tomcat.websocket.server.WsFilter.doFilter(WsFilter.java:52) [tomcat-websocket.jar:8.5.24]
	at org.apache.catalina.core.ApplicationFilterChain.internalDoFilter(ApplicationFilterChain.java:193) [catalina.jar:8.5.24]
	at org.apache.catalina.core.ApplicationFilterChain.doFilter(ApplicationFilterChain.java:166) [catalina.jar:8.5.24]
	at org.springframework.security.web.FilterChainProxy$VirtualFilterChain.doFilter(FilterChainProxy.java:330) [spring-security-web-3.2.10.RELEASE.jar:na]
	at org.springframework.security.web.access.intercept.FilterSecurityInterceptor.invoke(FilterSecurityInterceptor.java:118) [spring-security-web-3.2.10.RELEASE.jar:na]
	at org.springframework.security.web.access.intercept.FilterSecurityInterceptor.doFilter(FilterSecurityInterceptor.java:84) [spring-security-web-3.2.10.RELEASE.jar:na]
	at org.springframework.security.web.FilterChainProxy$VirtualFilterChain.doFilter(FilterChainProxy.java:342) [spring-security-web-3.2.10.RELEASE.jar:na]
	at org.springframework.security.web.access.ExceptionTranslationFilter.doFilter(ExceptionTranslationFilter.java:113) [spring-security-web-3.2.10.RELEASE.jar:na]
	at org.springframework.security.web.FilterChainProxy$VirtualFilterChain.doFilter(FilterChainProxy.java:342) [spring-security-web-3.2.10.RELEASE.jar:na]
	at org.springframework.security.web.session.SessionManagementFilter.doFilter(SessionManagementFilter.java:103) [spring-security-web-3.2.10.RELEASE.jar:na]
	at org.springframework.security.web.FilterChainProxy$VirtualFilterChain.doFilter(FilterChainProxy.java:342) [spring-security-web-3.2.10.RELEASE.jar:na]
	at org.springframework.security.web.authentication.AnonymousAuthenticationFilter.doFilter(AnonymousAuthenticationFilter.java:113) [spring-security-web-3.2.10.RELEASE.jar:na]
	at org.springframework.security.web.FilterChainProxy$VirtualFilterChain.doFilter(FilterChainProxy.java:342) [spring-security-web-3.2.10.RELEASE.jar:na]
	at org.springframework.security.web.servletapi.SecurityContextHolderAwareRequestFilter.doFilter(SecurityContextHolderAwareRequestFilter.java:154) [spring-security-web-3.2.10.RELEASE.jar:na]
	at org.springframework.security.web.FilterChainProxy$VirtualFilterChain.doFilter(FilterChainProxy.java:342) [spring-security-web-3.2.10.RELEASE.jar:na]
	at org.springframework.security.web.savedrequest.RequestCacheAwareFilter.doFilter(RequestCacheAwareFilter.java:45) [spring-security-web-3.2.10.RELEASE.jar:na]
	at org.springframework.security.web.FilterChainProxy$VirtualFilterChain.doFilter(FilterChainProxy.java:342) [spring-security-web-3.2.10.RELEASE.jar:na]
	at org.springframework.security.web.authentication.AbstractAuthenticationProcessingFilter.doFilter(AbstractAuthenticationProcessingFilter.java:199) [spring-security-web-3.2.10.RELEASE.jar:na]
	at org.springframework.security.web.FilterChainProxy$VirtualFilterChain.doFilter(FilterChainProxy.java:342) [spring-security-web-3.2.10.RELEASE.jar:na]
	at org.springframework.security.web.context.request.async.WebAsyncManagerIntegrationFilter.doFilterInternal(WebAsyncManagerIntegrationFilter.java:50) [spring-security-web-3.2.10.RELEASE.jar:na]
	at org.springframework.web.filter.OncePerRequestFilter.doFilter(OncePerRequestFilter.java:106) [spring-web-3.2.18.RELEASE.jar:3.2.18.RELEASE]
	at org.springframework.security.web.FilterChainProxy$VirtualFilterChain.doFilter(FilterChainProxy.java:342) [spring-security-web-3.2.10.RELEASE.jar:na]
	at org.springframework.security.web.context.SecurityContextPersistenceFilter.doFilter(SecurityContextPersistenceFilter.java:87) [spring-security-web-3.2.10.RELEASE.jar:na]
	at org.springframework.security.web.FilterChainProxy$VirtualFilterChain.doFilter(FilterChainProxy.java:342) [spring-security-web-3.2.10.RELEASE.jar:na]
	at org.springframework.security.web.FilterChainProxy.doFilterInternal(FilterChainProxy.java:192) [spring-security-web-3.2.10.RELEASE.jar:na]
	at org.springframework.security.web.FilterChainProxy.doFilter(FilterChainProxy.java:160) [spring-security-web-3.2.10.RELEASE.jar:na]
	at org.springframework.web.filter.DelegatingFilterProxy.invokeDelegate(DelegatingFilterProxy.java:343) [spring-web-3.2.18.RELEASE.jar:3.2.18.RELEASE]
	at org.springframework.web.filter.DelegatingFilterProxy.doFilter(DelegatingFilterProxy.java:260) [spring-web-3.2.18.RELEASE.jar:3.2.18.RELEASE]
	at org.apache.catalina.core.ApplicationFilterChain.internalDoFilter(ApplicationFilterChain.java:193) [catalina.jar:8.5.24]
	at org.apache.catalina.core.ApplicationFilterChain.doFilter(ApplicationFilterChain.java:166) [catalina.jar:8.5.24]
	at org.apache.catalina.core.StandardWrapperValve.invoke(StandardWrapperValve.java:198) [catalina.jar:8.5.24]
	at org.apache.catalina.core.StandardContextValve.invoke(StandardContextValve.java:96) [catalina.jar:8.5.24]
	at org.apache.catalina.authenticator.AuthenticatorBase.invoke(AuthenticatorBase.java:504) [catalina.jar:8.5.24]
	at org.apache.catalina.core.StandardHostValve.invoke(StandardHostValve.java:140) [catalina.jar:8.5.24]
	at org.apache.catalina.valves.ErrorReportValve.invoke(ErrorReportValve.java:81) [catalina.jar:8.5.24]
	at org.apache.catalina.valves.AbstractAccessLogValve.invoke(AbstractAccessLogValve.java:650) [catalina.jar:8.5.24]
	at org.apache.catalina.core.StandardEngineValve.invoke(StandardEngineValve.java:87) [catalina.jar:8.5.24]
	at org.apache.catalina.connector.CoyoteAdapter.service(CoyoteAdapter.java:342) [catalina.jar:8.5.24]
	at org.apache.coyote.http11.Http11Processor.service(Http11Processor.java:803) [tomcat-coyote.jar:8.5.24]
	at org.apache.coyote.AbstractProcessorLight.process(AbstractProcessorLight.java:66) [tomcat-coyote.jar:8.5.24]
	at org.apache.coyote.AbstractProtocol$ConnectionHandler.process(AbstractProtocol.java:790) [tomcat-coyote.jar:8.5.24]
	at org.apache.tomcat.util.net.NioEndpoint$SocketProcessor.doRun(NioEndpoint.java:1459) [tomcat-coyote.jar:8.5.24]
	at org.apache.tomcat.util.net.SocketProcessorBase.run(SocketProcessorBase.java:49) [tomcat-coyote.jar:8.5.24]
	at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142) [na:1.8.0_71]
	at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617) [na:1.8.0_71]
	at org.apache.tomcat.util.threads.TaskThread$WrappingRunnable.run(TaskThread.java:61) [tomcat-util.jar:8.5.24]
	at java.lang.Thread.run(Thread.java:745) [na:1.8.0_71]
2020-01-23 16:55:00,060 [Thread-11759] [] WARN  com.openkm.core.Cron - Crontab task mail address is empty: Return: null
<hr/>
StdOut: 
<hr/>
StdErr: 
2020-01-23 16:55:00,079 [Thread-11760] [] WARN  com.openkm.core.Cron - Crontab task mail address is empty: Return: null
<hr/>
StdOut: 
<hr/>
StdErr: 
2020-01-23 16:55:03,083 [Thread-11758] [] WARN  com.openkm.core.Cron - Crontab task mail address is empty: Return: null
<hr/>
StdOut: 
<hr/>
StdErr: 

jllort
Moderator
Moderator
Posts: 11193
Joined: Fri Dec 21, 2007 11:23 am
Location: Sineu - ( Illes Balears ) - Spain
Contact:

Re: Extracción texto PDF

Post by jllort »

Contacta con nostros a través de el formulario de contacto indicando la url de el foro ( pero sin el http: de delante o no te dejará enviar la consulta ) y ya nos pondremos en contacto contigo
https://www.openkm.com/es/contacto.html

gcosta
Gold Boarder
Gold Boarder
Posts: 214
Joined: Thu Dec 05, 2013 7:43 am

Re: Extracción texto PDF

Post by gcosta »

Ok, enviado.

Gracias.

jllort
Moderator
Moderator
Posts: 11193
Joined: Fri Dec 21, 2007 11:23 am
Location: Sineu - ( Illes Balears ) - Spain
Contact:

Re: Extracción texto PDF

Post by jllort »

Si con lo que te hemos respondido directamente por email no termina de funcionarte, indícame que sistema operativo estas utilizando.

jllort
Moderator
Moderator
Posts: 11193
Joined: Fri Dec 21, 2007 11:23 am
Location: Sineu - ( Illes Balears ) - Spain
Contact:

Re: Extracción texto PDF

Post by jllort »

Te sugiero actualizar a la ultima versión ( que saldrá la próxima semana ) y adicionalmente que version de jdk estas utilizando ?

gcosta
Gold Boarder
Gold Boarder
Posts: 214
Joined: Thu Dec 05, 2013 7:43 am

Re: Extracción texto PDF

Post by gcosta »

ok, la semana próxima actualizo.

Referente a la versión java 1.8.0_71. Actualizada no hace mucho.

Gracias.

jllort
Moderator
Moderator
Posts: 11193
Joined: Fri Dec 21, 2007 11:23 am
Location: Sineu - ( Illes Balears ) - Spain
Contact:

Re: Extracción texto PDF

Post by jllort »

Pues esta versión es de el año de la castaña :) debe tener más de 1-2 años seguro. Te aconsejo que te instales el openjdk ( en Linux ), nosotros después de el cambio de licenciamiento de Oracle con el JDK nos hemos movido a openjdk en todos los entornos ( de hecho en previsión de este cambio ya hace más de un año que empezamos con el cambio ).

Post Reply