• Problemas con el OCR

  • OpenKM tiene muchas características interesantes, pero es necesario un proceso de configuración para mostrar todo su potencial.
OpenKM tiene muchas características interesantes, pero es necesario un proceso de configuración para mostrar todo su potencial.
Forum rules: Por favor, antes de preguntar algo consulta el wiki de documentación o utiliza la función de búsqueda del foro. Recuerda que no tenemos una bola de cristal ni poderes mentales, o sea que que para informar sobre un error es necesario que nos indiques tanto la versión de OpenKM que usas como la del navegador y sistema operativo. Para más información consulta Cómo informar de fallos de forma efectiva.
 #24866  by cvargasj
 
Estimados,

Tengo instalado el OpenKM en un Centos y he tenido problemas con el OCR.

1. Cargo el archivo y el OCR cuando lo sacaba me ponia como resultado "------------------------------------------------"
2. el estatus NDC_TEXT_EXTRACTED ahora se ponia en True.
3. hice unas configuraciones y ahora los documentos en el Stats--> "text queue extract", ahi se quedan colgados en procesando y esperando a ser procesado.
4. el estatus NDC_TEXT_EXTRACTED ahora se queda en F.


Ya he ervisado la parametrizacion del Tesseract y no consigo que me capture el OCR.

Actualmente solo he probado el OCR con Archivos TIFF
 #24867  by cvargasj
 
La version del OpenKM es la 6.2 Community
El Browser es el IExplorer
Sistema Operativo CentOS.
 #24956  by jllort
 
Has ejecutado el tesseract desde el SO con algun fichero de estos para ver lo que te saca. Piensa que son motores de OCR Open Source y que segun la resolucion no te funcionará el invento ( el tesseract segun la version no admite solo TIFF, míratelo bien ). Llegado el caso tendras que montar un OCR como Abby para Linux que ese a resoluciones muy bajas 100ppp funciona.
 #25452  by cvargasj
 
Si lo he ejecutado el TESSERACT por linea de comando y si me ejecuta bien, incluso asi como adjunto las pantallas en la carpeta temporal se ejecuta el OCR pero en el procesamiento del openKM no se cambia el estado.

Cabe recalcar que estoy ejecutando el OpenKM en una maquina virtual que se esta ejecutando en mi propia maquina simulando una LAN p(la maquina virtual tiene solo 1GB en RAM)
Attachments
ASI SE QUEDA EN ESE ESTATUS YA HAN PASADO MAS DE 24 HORAS Y ESOS 2 ARCHIVOS NO SE PROCESAN EN EL OCR
ASI SE QUEDA EN ESE ESTATUS YA HAN PASADO MAS DE 24 HORAS Y ESOS 2 ARCHIVOS NO SE PROCESAN EN EL OCR
SE-QUEDA-DE-LARGO-Y-NO-SE-ACTUALIZA-LA-TABLA-DOCUMENT-NI-SE-COMPLETA-EL-OCR.jpg (180.16 KiB) Viewed 4256 times
sE PUEDE VISUALIZAR LA CARPETA TEMPORAL DONDE SE EJECUTA CORRECTAMENTE EL OCR CON TESSERACT PERO SIN EMBARGO NO SE REFELJA EN EL OPENKM
sE PUEDE VISUALIZAR LA CARPETA TEMPORAL DONDE SE EJECUTA CORRECTAMENTE EL OCR CON TESSERACT PERO SIN EMBARGO NO SE REFELJA EN EL OPENKM
Carpeta-Temporal-SI-SE-EJECUTA-EL-OCR.jpg (58.01 KiB) Viewed 4256 times
 #25482  by jllort
 
1Gb de ram no es ninguna maravilla, un poco justo cuando sumas SO, aplicacion, openoffice y tesseract. Podría ser que diese algún error de memoria o vete a saber, te aconsejo que mires el log. Reinicia la aplicacion y mira el log. Un detalle al cambiar el tesseract tambien cambiaste la clase del textextractor en la administración -> configuración ? ( sino cambialo y reinicia la aplicación )
 #25486  by cvargasj
 
Muchas Gracias por tu pronta respuesta.

Procedi a subir la memoria a 3GB (es lo maximo que le da mi hipervisor a las maquinas virtuales).
Reinicie el Servidor donde esta el Open (Centos 64bits, con MySQL).
He revisado el log y la verdad no veo ningun error (adjunto el zip del log)

Pregunta, No entendi cuando me indicas que " al cambiar el tesseract tambien cambiaste la clase del textextractor en la administración -> configuración ? ( sino cambialo y reinicia la aplicación )", a que te refieres, desde el inicio utilice el tesseract porque era parte de los pasos de instalacion, y si en la parte ed configuracion tengo los siguientes parametros:
Code: Select all
managed.text.extraction =     Active
managed.text.extraction.batch = 100 
registered.text.extractors =
org.apache.jackrabbit.extractor.PlainTextExtractor 
org.apache.jackrabbit.extractor.MsWordTextExtractor 
org.apache.jackrabbit.extractor.MsExcelTextExtractor 
org.apache.jackrabbit.extractor.MsPowerPointTextExtractor 
org.apache.jackrabbit.extractor.OpenOfficeTextExtractor 
org.apache.jackrabbit.extractor.RTFTextExtractor 
org.apache.jackrabbit.extractor.HTMLTextExtractor 
org.apache.jackrabbit.extractor.XMLTextExtractor 
org.apache.jackrabbit.extractor.PngTextExtractor 
org.apache.jackrabbit.extractor.MsOutlookTextExtractor 
com.openkm.extractor.PdfTextExtractor 
com.openkm.extractor.AudioTextExtractor 
com.openkm.extractor.ExifTextExtractor 
com.openkm.extractor.SourceCodeTextExtractor 
com.openkm.extractor.MsOffice2007TextExtractor 
com.openkm.extractor.Tesseract3TextExtractor
 #25487  by cvargasj
 
Adicionalmente, me paso lo siguiente, la pantalla de las Estadisticas (stats) se mantenia como se indica en la imagen adjunta, pero sin embargo volvi a ejecutar en la opcion de "Utilities" --> "Check Extraction" al expediente "02_SGE-01-0093.TIF" que sigue con estado de pendiente, y ahi me aparecio el siguiente error de manera completa se lo ve en el adjunto "catalina.out":
Code: Select all
[CheckTextExtractionServlet] in context with path [/OpenKM] threw exception
java.lang.NullPointerException
	at com.openkm.dao.NodeDocumentVersionDAO.getCurrentContentByParent(NodeDocumentVersionDAO.java:177)
	at com.openkm.module.db.base.BaseDocumentModule.getContent(BaseDocumentModule.java:276)
	at com.openkm.module.db.DbDocumentModule.getContent(DbDocumentModule.java:475)
	at com.openkm.module.db.DbDocumentModule.getContent(DbDocumentModule.java:448)
	at com.openkm.api.OKMDocument.getContent(OKMDocument.java:114)
	at com.openkm.servlet.admin.CheckTextExtractionServlet.doPost(CheckTextExtractionServlet.java:126)
	at javax.servlet.http.HttpServlet.service(HttpServlet.java:641)
	at javax.servlet.http.HttpServlet.service(HttpServlet.java:722)
	at org.apache.catalina.core.ApplicationFilterChain.internalDoFilter(ApplicationFilterChain.java:305)
	at org.apache.catalina.core.ApplicationFilterChain.doFilter(ApplicationFilterChain.java:210)
	at org.springframework.security.web.FilterChainProxy$VirtualFilterChain.doFilter(FilterChainProxy.java:311)
	at org.springframework.security.web.access.intercept.FilterSecurityInterceptor.invoke(FilterSecurityInterceptor.java:116)
	at org.springframework.security.web.access.intercept.FilterSecurityInterceptor.doFilter(FilterSecurityInterceptor.java:83)
	at org.springframework.security.web.FilterChainProxy$VirtualFilterChain.doFilter(FilterChainProxy.java:323)
	at org.springframework.security.web.access.ExceptionTranslationFilter.doFilter(ExceptionTranslationFilter.java:113)
	at org.springframework.security.web.FilterChainProxy$VirtualFilterChain.doFilter(FilterChainProxy.java:323)
	at org.springframework.security.web.session.SessionManagementFilter.doFilter(SessionManagementFilter.java:101)
	at org.springframework.security.web.FilterChainProxy$VirtualFilterChain.doFilter(FilterChainProxy.java:323)
	at org.springframework.security.web.authentication.AnonymousAuthenticationFilter.doFilter(AnonymousAuthenticationFilter.java:113)
	at org.springframework.security.web.FilterChainProxy$VirtualFilterChain.doFilter(FilterChainProxy.java:323)
	at org.springframework.security.web.servletapi.SecurityContextHolderAwareRequestFilter.doFilter(SecurityContextHolderAwareRequestFilter.java:54)
	at org.springframework.security.web.FilterChainProxy$VirtualFilterChain.doFilter(FilterChainProxy.java:323)
	at org.springframework.security.web.savedrequest.RequestCacheAwareFilter.doFilter(RequestCacheAwareFilter.java:45)
	at org.springframework.security.web.FilterChainProxy$VirtualFilterChain.doFilter(FilterChainProxy.java:323)
	at org.springframework.security.web.authentication.AbstractAuthenticationProcessingFilter.doFilter(AbstractAuthenticationProcessingFilter.java:182)
	at org.springframework.security.web.FilterChainProxy$VirtualFilterChain.doFilter(FilterChainProxy.java:323)
	at org.springframework.security.web.context.SecurityContextPersistenceFilter.doFilter(SecurityContextPersistenceFilter.java:87)
	at org.springframework.security.web.FilterChainProxy$VirtualFilterChain.doFilter(FilterChainProxy.java:323)
	at org.springframework.security.web.FilterChainProxy.doFilter(FilterChainProxy.java:173)
	at org.springframework.web.filter.DelegatingFilterProxy.invokeDelegate(DelegatingFilterProxy.java:346)
	at org.springframework.web.filter.DelegatingFilterProxy.doFilter(DelegatingFilterProxy.java:259)
	at org.apache.catalina.core.ApplicationFilterChain.internalDoFilter(ApplicationFilterChain.java:243)
	at org.apache.catalina.core.ApplicationFilterChain.doFilter(ApplicationFilterChain.java:210)
	at org.apache.catalina.core.StandardWrapperValve.invoke(StandardWrapperValve.java:225)
	at org.apache.catalina.core.StandardContextValve.invoke(StandardContextValve.java:169)
	at org.apache.catalina.authenticator.AuthenticatorBase.invoke(AuthenticatorBase.java:472)
	at org.apache.catalina.core.StandardHostValve.invoke(StandardHostValve.java:168)
	at org.apache.catalina.valves.ErrorReportValve.invoke(ErrorReportValve.java:98)
	at org.apache.catalina.valves.AccessLogValve.invoke(AccessLogValve.java:927)
	at org.apache.catalina.core.StandardEngineValve.invoke(StandardEngineValve.java:118)
	at org.apache.catalina.connector.CoyoteAdapter.service(CoyoteAdapter.java:407)
	at org.apache.coyote.http11.AbstractHttp11Processor.process(AbstractHttp11Processor.java:999)
	at org.apache.coyote.AbstractProtocol$AbstractConnectionHandler.process(AbstractProtocol.java:565)
	at org.apache.tomcat.util.net.JIoEndpoint$SocketProcessor.run(JIoEndpoint.java:309)
	at java.util.concurrent.ThreadPoolExecutor$Worker.runTask(ThreadPoolExecutor.java:886)
	at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:908)
	at java.lang.Thread.run(Thread.java:662)
2013-09-17 20:13:20,377 [http-bio-0.0.0.0-8080-exec-12] INFO  com.openkm.util.DocumentUtils
Attachments
(841.21 KiB) Downloaded 561 times
SE-QUEDA-DE-LARGO-Y-NO-SE-ACTUALIZA-LA-TABLA-DOCUMENT-NI-SE-COMPLETA-EL-OCR.jpg
SE-QUEDA-DE-LARGO-Y-NO-SE-ACTUALIZA-LA-TABLA-DOCUMENT-NI-SE-COMPLETA-EL-OCR.jpg (180.16 KiB) Viewed 4244 times
 #25512  by jllort
 
configuration parameters seems right.

Can you execute repository checker -> Administration -> Utilities (check version )

About Us

OpenKM is part of the management software. A management software is a program that facilitates the accomplishment of administrative tasks. OpenKM is a document management system that allows you to manage business content and workflow in a more efficient way. Document managers guarantee data protection by establishing information security for business content.