Page 1 of 1
Problemas con el OCR
PostPosted:Tue Aug 27, 2013 7:30 am
by cvargasj
Estimados,
Tengo instalado el OpenKM en un Centos y he tenido problemas con el OCR.
1. Cargo el archivo y el OCR cuando lo sacaba me ponia como resultado "------------------------------------------------"
2. el estatus NDC_TEXT_EXTRACTED ahora se ponia en True.
3. hice unas configuraciones y ahora los documentos en el Stats--> "text queue extract", ahi se quedan colgados en procesando y esperando a ser procesado.
4. el estatus NDC_TEXT_EXTRACTED ahora se queda en F.
Ya he ervisado la parametrizacion del Tesseract y no consigo que me capture el OCR.
Actualmente solo he probado el OCR con Archivos TIFF
Re: Problemas con el OCR
PostPosted:Tue Aug 27, 2013 7:31 am
by cvargasj
La version del OpenKM es la 6.2 Community
El Browser es el IExplorer
Sistema Operativo CentOS.
Re: Problemas con el OCR
PostPosted:Wed Aug 28, 2013 8:26 am
by jllort
Has ejecutado el tesseract desde el SO con algun fichero de estos para ver lo que te saca. Piensa que son motores de OCR Open Source y que segun la resolucion no te funcionará el invento ( el tesseract segun la version no admite solo TIFF, míratelo bien ). Llegado el caso tendras que montar un OCR como Abby para Linux que ese a resoluciones muy bajas 100ppp funciona.
Re: Problemas con el OCR
PostPosted:Mon Sep 16, 2013 4:31 am
by cvargasj
Si lo he ejecutado el TESSERACT por linea de comando y si me ejecuta bien, incluso asi como adjunto las pantallas en la carpeta temporal se ejecuta el OCR pero en el procesamiento del openKM no se cambia el estado.
Cabe recalcar que estoy ejecutando el OpenKM en una maquina virtual que se esta ejecutando en mi propia maquina simulando una LAN p(la maquina virtual tiene solo 1GB en RAM)
Re: Problemas con el OCR
PostPosted:Tue Sep 17, 2013 6:08 pm
by jllort
1Gb de ram no es ninguna maravilla, un poco justo cuando sumas SO, aplicacion, openoffice y tesseract. Podría ser que diese algún error de memoria o vete a saber, te aconsejo que mires el log. Reinicia la aplicacion y mira el log. Un detalle al cambiar el tesseract tambien cambiaste la clase del textextractor en la administración -> configuración ? ( sino cambialo y reinicia la aplicación )
Re: Problemas con el OCR
PostPosted:Wed Sep 18, 2013 2:23 am
by cvargasj
Muchas Gracias por tu pronta respuesta.
Procedi a subir la memoria a 3GB (es lo maximo que le da mi hipervisor a las maquinas virtuales).
Reinicie el Servidor donde esta el Open (Centos 64bits, con MySQL).
He revisado el log y la verdad no veo ningun error (adjunto el zip del log)
Pregunta, No entendi cuando me indicas que " al cambiar el tesseract tambien cambiaste la clase del textextractor en la administración -> configuración ? ( sino cambialo y reinicia la aplicación )", a que te refieres, desde el inicio utilice el tesseract porque era parte de los pasos de instalacion, y si en la parte ed configuracion tengo los siguientes parametros:
Code: Select allmanaged.text.extraction = Active
managed.text.extraction.batch = 100
registered.text.extractors =
org.apache.jackrabbit.extractor.PlainTextExtractor
org.apache.jackrabbit.extractor.MsWordTextExtractor
org.apache.jackrabbit.extractor.MsExcelTextExtractor
org.apache.jackrabbit.extractor.MsPowerPointTextExtractor
org.apache.jackrabbit.extractor.OpenOfficeTextExtractor
org.apache.jackrabbit.extractor.RTFTextExtractor
org.apache.jackrabbit.extractor.HTMLTextExtractor
org.apache.jackrabbit.extractor.XMLTextExtractor
org.apache.jackrabbit.extractor.PngTextExtractor
org.apache.jackrabbit.extractor.MsOutlookTextExtractor
com.openkm.extractor.PdfTextExtractor
com.openkm.extractor.AudioTextExtractor
com.openkm.extractor.ExifTextExtractor
com.openkm.extractor.SourceCodeTextExtractor
com.openkm.extractor.MsOffice2007TextExtractor
com.openkm.extractor.Tesseract3TextExtractor
Re: Problemas con el OCR
PostPosted:Wed Sep 18, 2013 3:21 am
by cvargasj
Adicionalmente, me paso lo siguiente, la pantalla de las Estadisticas (stats) se mantenia como se indica en la imagen adjunta, pero sin embargo volvi a ejecutar en la opcion de "Utilities" --> "Check Extraction" al expediente "02_SGE-01-0093.TIF" que sigue con estado de pendiente, y ahi me aparecio el siguiente error de manera completa se lo ve en el adjunto "catalina.out":
Code: Select all[CheckTextExtractionServlet] in context with path [/OpenKM] threw exception
java.lang.NullPointerException
at com.openkm.dao.NodeDocumentVersionDAO.getCurrentContentByParent(NodeDocumentVersionDAO.java:177)
at com.openkm.module.db.base.BaseDocumentModule.getContent(BaseDocumentModule.java:276)
at com.openkm.module.db.DbDocumentModule.getContent(DbDocumentModule.java:475)
at com.openkm.module.db.DbDocumentModule.getContent(DbDocumentModule.java:448)
at com.openkm.api.OKMDocument.getContent(OKMDocument.java:114)
at com.openkm.servlet.admin.CheckTextExtractionServlet.doPost(CheckTextExtractionServlet.java:126)
at javax.servlet.http.HttpServlet.service(HttpServlet.java:641)
at javax.servlet.http.HttpServlet.service(HttpServlet.java:722)
at org.apache.catalina.core.ApplicationFilterChain.internalDoFilter(ApplicationFilterChain.java:305)
at org.apache.catalina.core.ApplicationFilterChain.doFilter(ApplicationFilterChain.java:210)
at org.springframework.security.web.FilterChainProxy$VirtualFilterChain.doFilter(FilterChainProxy.java:311)
at org.springframework.security.web.access.intercept.FilterSecurityInterceptor.invoke(FilterSecurityInterceptor.java:116)
at org.springframework.security.web.access.intercept.FilterSecurityInterceptor.doFilter(FilterSecurityInterceptor.java:83)
at org.springframework.security.web.FilterChainProxy$VirtualFilterChain.doFilter(FilterChainProxy.java:323)
at org.springframework.security.web.access.ExceptionTranslationFilter.doFilter(ExceptionTranslationFilter.java:113)
at org.springframework.security.web.FilterChainProxy$VirtualFilterChain.doFilter(FilterChainProxy.java:323)
at org.springframework.security.web.session.SessionManagementFilter.doFilter(SessionManagementFilter.java:101)
at org.springframework.security.web.FilterChainProxy$VirtualFilterChain.doFilter(FilterChainProxy.java:323)
at org.springframework.security.web.authentication.AnonymousAuthenticationFilter.doFilter(AnonymousAuthenticationFilter.java:113)
at org.springframework.security.web.FilterChainProxy$VirtualFilterChain.doFilter(FilterChainProxy.java:323)
at org.springframework.security.web.servletapi.SecurityContextHolderAwareRequestFilter.doFilter(SecurityContextHolderAwareRequestFilter.java:54)
at org.springframework.security.web.FilterChainProxy$VirtualFilterChain.doFilter(FilterChainProxy.java:323)
at org.springframework.security.web.savedrequest.RequestCacheAwareFilter.doFilter(RequestCacheAwareFilter.java:45)
at org.springframework.security.web.FilterChainProxy$VirtualFilterChain.doFilter(FilterChainProxy.java:323)
at org.springframework.security.web.authentication.AbstractAuthenticationProcessingFilter.doFilter(AbstractAuthenticationProcessingFilter.java:182)
at org.springframework.security.web.FilterChainProxy$VirtualFilterChain.doFilter(FilterChainProxy.java:323)
at org.springframework.security.web.context.SecurityContextPersistenceFilter.doFilter(SecurityContextPersistenceFilter.java:87)
at org.springframework.security.web.FilterChainProxy$VirtualFilterChain.doFilter(FilterChainProxy.java:323)
at org.springframework.security.web.FilterChainProxy.doFilter(FilterChainProxy.java:173)
at org.springframework.web.filter.DelegatingFilterProxy.invokeDelegate(DelegatingFilterProxy.java:346)
at org.springframework.web.filter.DelegatingFilterProxy.doFilter(DelegatingFilterProxy.java:259)
at org.apache.catalina.core.ApplicationFilterChain.internalDoFilter(ApplicationFilterChain.java:243)
at org.apache.catalina.core.ApplicationFilterChain.doFilter(ApplicationFilterChain.java:210)
at org.apache.catalina.core.StandardWrapperValve.invoke(StandardWrapperValve.java:225)
at org.apache.catalina.core.StandardContextValve.invoke(StandardContextValve.java:169)
at org.apache.catalina.authenticator.AuthenticatorBase.invoke(AuthenticatorBase.java:472)
at org.apache.catalina.core.StandardHostValve.invoke(StandardHostValve.java:168)
at org.apache.catalina.valves.ErrorReportValve.invoke(ErrorReportValve.java:98)
at org.apache.catalina.valves.AccessLogValve.invoke(AccessLogValve.java:927)
at org.apache.catalina.core.StandardEngineValve.invoke(StandardEngineValve.java:118)
at org.apache.catalina.connector.CoyoteAdapter.service(CoyoteAdapter.java:407)
at org.apache.coyote.http11.AbstractHttp11Processor.process(AbstractHttp11Processor.java:999)
at org.apache.coyote.AbstractProtocol$AbstractConnectionHandler.process(AbstractProtocol.java:565)
at org.apache.tomcat.util.net.JIoEndpoint$SocketProcessor.run(JIoEndpoint.java:309)
at java.util.concurrent.ThreadPoolExecutor$Worker.runTask(ThreadPoolExecutor.java:886)
at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:908)
at java.lang.Thread.run(Thread.java:662)
2013-09-17 20:13:20,377 [http-bio-0.0.0.0-8080-exec-12] INFO com.openkm.util.DocumentUtils
Re: Problemas con el OCR
PostPosted:Thu Sep 19, 2013 11:01 am
by jllort
configuration parameters seems right.
Can you execute repository checker -> Administration -> Utilities (check version )