• CPU continuamente a 50% de sus recursos

  • OpenKM tiene muchas características interesantes, pero es necesario un proceso de configuración para mostrar todo su potencial.
OpenKM tiene muchas características interesantes, pero es necesario un proceso de configuración para mostrar todo su potencial.
Forum rules: Por favor, antes de preguntar algo consulta el wiki de documentación o utiliza la función de búsqueda del foro. Recuerda que no tenemos una bola de cristal ni poderes mentales, o sea que que para informar sobre un error es necesario que nos indiques tanto la versión de OpenKM que usas como la del navegador y sistema operativo. Para más información consulta Cómo informar de fallos de forma efectiva.
 #40177  by bieli
 
Hola,

después del arranque de OpenKM va todo bien, hasta que entra en proceso el OCR con Tesseract. Tesseract mismo arranca bien y acaba bien, pero a partir de este momento, el proceso de Java que antes era en max. 5% de uso de la CPU, ahora sube a 50 % (en 4 de 8 cores) y ahí permanece para siempre. Utilizo Java JRE 1.8.0_51 y la versión de OpenKM Community.

¿Que puede ser el problema? ¿Como lo puedo rastrear?

O no puede terminar threads o proceso y tiene que ver algo con eso:
OpenKM 2015-07-28 20-28-45.png
OpenKM 2015-07-28 20-28-45.png (58.94 KiB) Viewed 5074 times
Gracias y saludo,
Bieli
 #40185  by jllort
 
Varias cosas:
Version de openkm ?
El valor de los parametros de configuracion ?
Code: Select all
managed.text.extraction
managed.text.extraction.batch
managed.text.extraction.concurrent
managed.text.extraction.pool.size
managed.text.extraction.pool.threads
managed.text.extraction.pool.timeout
Si va a la administracion -> stats tienes documentos pendientes en la cola de extracción ? van disminuyendo al cabo de unos cuantos minutos ?
 #40189  by bieli
 
Utilizo versión 6.3.1 Community con HSQL. Tengo metidos unos 450 documentos con 250 MB en total.
Valores de los parámetros de configuración:
OpenKM 2015-07-29 18-15-20.png
OpenKM 2015-07-29 18-15-20.png (5.48 KiB) Viewed 5070 times
En "Text extraction queue" tengo arriba 8 documentos en "Extractions In Progress (Running)" y no se disminuyen, ni rearrancando OpenKM, los nombres quedan iguales. En la parte de abajo "Pending Extractions" tengo 219 documentos esperando y tampoco disminuyen.

Y en el log tengo:
Code: Select all
...
2015-07-29 18:10:00,062 [Thread-19] INFO  com.openkm.extractor.TextExtractorWorker- processConcurrent(null, 32)
2015-07-29 18:10:00,078 [Thread-19] INFO  com.openkm.extractor.TextExtractorWorker- Begin pool 1 of 4
2015-07-29 18:10:00,078 [Thread-19] INFO  com.openkm.extractor.TextExtractorWorker- processConcurrent.added 0 documents
2015-07-29 18:10:00,078 [Thread-19] INFO  com.openkm.extractor.TextExtractorWorker- processConcurrent.added 1 documents
2015-07-29 18:10:00,093 [Thread-19] INFO  com.openkm.extractor.TextExtractorWorker- processConcurrent.added 2 documents
2015-07-29 18:10:00,093 [Thread-19] INFO  com.openkm.extractor.TextExtractorWorker- processConcurrent.added 3 documents
2015-07-29 18:10:00,093 [Thread-19] INFO  com.openkm.extractor.TextExtractorWorker- processConcurrent.added 4 documents
2015-07-29 18:10:00,093 [Thread-19] INFO  com.openkm.extractor.TextExtractorWorker- processConcurrent.added 5 documents
2015-07-29 18:10:00,093 [Thread-19] INFO  com.openkm.extractor.TextExtractorWorker- processConcurrent.added 6 documents
2015-07-29 18:10:00,093 [Thread-19] INFO  com.openkm.extractor.TextExtractorWorker- processConcurrent.added 7 documents
2015-07-29 18:10:00,093 [Thread-19] INFO  com.openkm.extractor.TextExtractorWorker- End pool 1 of 4
2015-07-29 18:10:00,093 [Thread-19] INFO  com.openkm.extractor.TextExtractorWorker- ### All threads shutdown requested ###
2015-07-29 18:10:00,187 [pool-1-thread-4] DEBUG com.openkm.extractor.PdfTextExtractor- TextStripped: ''
2015-07-29 18:10:00,187 [pool-1-thread-1] DEBUG com.openkm.extractor.PdfTextExtractor- TextStripped: ''
2015-07-29 18:10:00,187 [pool-1-thread-1] WARN  com.openkm.extractor.PdfTextExtractor- PDF does not contains text layer
2015-07-29 18:10:00,187 [pool-1-thread-3] DEBUG com.openkm.extractor.PdfTextExtractor- TextStripped: ''
2015-07-29 18:10:00,187 [pool-1-thread-4] WARN  com.openkm.extractor.PdfTextExtractor- PDF does not contains text layer
2015-07-29 18:10:00,187 [pool-1-thread-3] WARN  com.openkm.extractor.PdfTextExtractor- PDF does not contains text layer
2015-07-29 18:10:00,187 [pool-1-thread-2] DEBUG com.openkm.extractor.PdfTextExtractor- TextStripped: ''
2015-07-29 18:10:00,187 [pool-1-thread-2] WARN  com.openkm.extractor.PdfTextExtractor- PDF does not contains text layer
2015-07-29 18:10:00,187 [pool-1-thread-2] DEBUG com.openkm.extractor.PdfTextExtractor- Writing image: D:\openkm\tomcat\temp\img-JI56a-7334302568600819590.png
2015-07-29 18:10:00,187 [pool-1-thread-4] DEBUG com.openkm.extractor.PdfTextExtractor- Writing image: D:\openkm\tomcat\temp\img-JI66a-1960791417271858363.png
2015-07-29 18:10:00,187 [pool-1-thread-3] DEBUG com.openkm.extractor.PdfTextExtractor- Writing image: D:\openkm\tomcat\temp\img-JI2a-4480403081160316500.png
2015-07-29 18:10:00,187 [pool-1-thread-1] DEBUG com.openkm.extractor.PdfTextExtractor- Writing image: D:\openkm\tomcat\temp\img-x2-2887790943154844648.png
2015-07-29 18:10:04,024 [pool-1-thread-2] INFO  com.openkm.util.DocumentUtils- Using OpenOffice dictionary: D:/openkm/es_es.oxt
2015-07-29 18:10:07,784 [pool-1-thread-3] INFO  com.openkm.util.DocumentUtils- Using OpenOffice dictionary: D:/openkm/es_es.oxt
2015-07-29 18:10:08,938 [pool-1-thread-4] INFO  com.openkm.util.DocumentUtils- Using OpenOffice dictionary: D:/openkm/es_es.oxt
2015-07-29 18:10:12,979 [pool-1-thread-1] INFO  com.openkm.util.DocumentUtils- Using OpenOffice dictionary: D:/openkm/es_es.oxt
2015-07-29 18:10:18,533 [pool-1-thread-1] DEBUG com.openkm.extractor.PdfTextExtractor- OCR Extracted: <mucho texto, pq tengo activado el debug del OCR para ver que esta pasando>
2015-07-29 18:10:18,533 [pool-1-thread-1] DEBUG com.openkm.extractor.PdfTextExtractor- Writing image: D:\openkm\tomcat\temp\img-x5-4411873586116794554.png
2015-07-29 18:10:41,917 [pool-1-thread-1] INFO  com.openkm.util.DocumentUtils- Using OpenOffice dictionary: D:/openkm/es_es.oxt
2015-07-29 18:11:00,107 [Thread-19] INFO  com.openkm.extractor.TextExtractorWorker- ### Awaiting for pool tasks termination... (0) ###
2015-07-29 18:12:00,120 [Thread-19] INFO  com.openkm.extractor.TextExtractorWorker- ### Awaiting for pool tasks termination... (1) ###
2015-07-29 18:13:00,133 [Thread-19] INFO  com.openkm.extractor.TextExtractorWorker- ### Awaiting for pool tasks termination... (2) ###
2015-07-29 18:13:44,765 [Update Info] INFO  com.openkm.core.UpdateInfo- *** UpdateInfo activated ***
2015-07-29 18:13:45,061 [Update Info] INFO  com.openkm.util.Update- checkVersion: 
2015-07-29 18:14:00,147 [Thread-19] INFO  com.openkm.extractor.TextExtractorWorker- ### Awaiting for pool tasks termination... (3) ###
2015-07-29 18:15:00,004 [Thread-29] WARN  com.openkm.extractor.TextExtractorWorker- *** Text extraction already running ***
2015-07-29 18:15:00,160 [Thread-19] INFO  com.openkm.extractor.TextExtractorWorker- ### Awaiting for pool tasks termination... (4) ###
2015-07-29 18:16:00,162 [Thread-19] INFO  com.openkm.extractor.TextExtractorWorker- ### Awaiting for pool tasks termination... (5) ###
2015-07-29 18:17:00,163 [Thread-19] INFO  com.openkm.extractor.TextExtractorWorker- ### Awaiting for pool tasks termination... (6) ###
2015-07-29 18:18:00,164 [Thread-19] INFO  com.openkm.extractor.TextExtractorWorker- ### Awaiting for pool tasks termination... (7) ###
2015-07-29 18:19:00,166 [Thread-19] INFO  com.openkm.extractor.TextExtractorWorker- ### Awaiting for pool tasks termination... (8) ###
2015-07-29 18:20:00,013 [Thread-32] WARN  com.openkm.extractor.TextExtractorWorker- *** Text extraction already running ***
2015-07-29 18:20:00,167 [Thread-19] INFO  com.openkm.extractor.TextExtractorWorker- ### Awaiting for pool tasks termination... (9) ###
2015-07-29 18:21:00,169 [Thread-19] INFO  com.openkm.extractor.TextExtractorWorker- ### Awaiting for pool tasks termination... (10) ###
...
 #40198  by jllort
 
Pon el valor del pool.size y threads igual ( si tienes 4 cpu's los dos a 4 ).

Si te vas a los stats siempre tienes los 4-8 primeros ficheros que se estan intentando indexar, pero que nunca terminan ( puedes comprobarlo hechandole un vistazo cada 5 minutos 2-3 veces para estar seguros que este es el caso ? ). En caso afirmativo de que tipo de ficheros estamos hablando ? tamaño etc...
 #40201  by bieli
 
He cambiado el valor de threads también a 4, pero no cambia nada (por cierto tengo 4 core CPU con Hyperthreading, yo pondría 8 en threads).
En los stats ahora solo ha cogido los primeros 4 documentos de los 219 que están esperando. Siempre son los mismos. Ya he arrancado OpenKM 10 veces y lo he dejado correr por los menos cada vez media hora, en algunos casos 2 horas o mas, pero nada.

De los 8 documentos 6 son PDF y 2 son XLSX. Uno de los PDFs tiene 4 MB y 7 paginas, el resto 1 MB o menos y con 1 a 4 paginas. Casi todos los PDFs son escaneados. Los XLSX son de una pagina y llevan texto.

Con ningún documento tengo problemas en el "preview" del OpenKM. Todo puedo ver perfectamente. Todos los proceso de "tesseract" acaban bien y cuando han acabado sube la CPU de la JVM a 50% y poco a poco sube también la memoria. 1 MB por minuto.
cpu.png
cpu.png (18.69 KiB) Viewed 5061 times
 #40220  by jllort
 
Es posible que el problema este en los xls. Has una cosa, coge los uuid de estos primero 8 documentos.

Vete a la administracion, database query y entonces marca los documentos como si ya estuviesen indexados:
Code: Select all
update OKM_DOCUMENT set NDC_TEXT_EXTRACTED='T' WHERE NBS_UUID='el uuid del documento';
Confirmame si al marcar estos xls como ya indexados el problema se arregla.
 #40224  by bieli
 
He borrado los XLSX de la cola de espera, pero nada. Luego arranco el "Text Extractor Worker" a mano y desaparecen estos ficheros y el mete 2 nuevos mas en la cola, pero otra vez sube la CPU del proceso JAVA y los ficheros permanecen en la cola. Luego he borrado también unos de los PDF, pero igual que antes. Aquí el output de Java:
Code: Select all
2015-08-02 12:03:27,326 [http-bio-0.0.0.0-8080-exec-8] INFO  com.openkm.extractor.TextExtractorWorker- processConcurrent(null, 32)
2015-08-02 12:03:27,354 [http-bio-0.0.0.0-8080-exec-8] INFO  com.openkm.extractor.TextExtractorWorker- Begin pool 1 of 4
2015-08-02 12:03:27,355 [http-bio-0.0.0.0-8080-exec-8] INFO  com.openkm.extractor.TextExtractorWorker- processConcurrent.added 0 documents
2015-08-02 12:03:27,358 [http-bio-0.0.0.0-8080-exec-8] INFO  com.openkm.extractor.TextExtractorWorker- processConcurrent.added 1 documents
2015-08-02 12:03:27,359 [http-bio-0.0.0.0-8080-exec-8] INFO  com.openkm.extractor.TextExtractorWorker- processConcurrent.added 2 documents
2015-08-02 12:03:27,360 [http-bio-0.0.0.0-8080-exec-8] INFO  com.openkm.extractor.TextExtractorWorker- processConcurrent.added 3 documents
2015-08-02 12:03:27,360 [http-bio-0.0.0.0-8080-exec-8] INFO  com.openkm.extractor.TextExtractorWorker- processConcurrent.added 4 documents
2015-08-02 12:03:27,361 [http-bio-0.0.0.0-8080-exec-8] INFO  com.openkm.extractor.TextExtractorWorker- processConcurrent.added 5 documents
2015-08-02 12:03:27,361 [http-bio-0.0.0.0-8080-exec-8] INFO  com.openkm.extractor.TextExtractorWorker- processConcurrent.added 6 documents
2015-08-02 12:03:27,364 [http-bio-0.0.0.0-8080-exec-8] INFO  com.openkm.extractor.TextExtractorWorker- processConcurrent.added 7 documents
2015-08-02 12:03:27,364 [http-bio-0.0.0.0-8080-exec-8] INFO  com.openkm.extractor.TextExtractorWorker- End pool 1 of 4
2015-08-02 12:03:27,364 [http-bio-0.0.0.0-8080-exec-8] INFO  com.openkm.extractor.TextExtractorWorker- ### All threads shutdown requested ###
2015-08-02 12:03:27,456 [pool-1-thread-2] DEBUG com.openkm.extractor.PdfTextExtractor- TextStripped: ''
2015-08-02 12:03:27,456 [pool-1-thread-3] DEBUG com.openkm.extractor.PdfTextExtractor- TextStripped: ''
2015-08-02 12:03:27,456 [pool-1-thread-3] WARN  com.openkm.extractor.PdfTextExtractor- PDF does not contains text layer
2015-08-02 12:03:27,456 [pool-1-thread-1] DEBUG com.openkm.extractor.PdfTextExtractor- TextStripped: ''
2015-08-02 12:03:27,456 [pool-1-thread-2] WARN  com.openkm.extractor.PdfTextExtractor- PDF does not contains text layer
2015-08-02 12:03:27,457 [pool-1-thread-1] WARN  com.openkm.extractor.PdfTextExtractor- PDF does not contains text layer
2015-08-02 12:03:27,457 [pool-1-thread-3] DEBUG com.openkm.extractor.PdfTextExtractor- Writing image: D:\openkm\tomcat\temp\img-JI66a-7616736562706631943.png
2015-08-02 12:03:27,457 [pool-1-thread-1] DEBUG com.openkm.extractor.PdfTextExtractor- Writing image: D:\openkm\tomcat\temp\img-JI56a-3219091947509216692.png
2015-08-02 12:03:27,457 [pool-1-thread-2] DEBUG com.openkm.extractor.PdfTextExtractor- Writing image: D:\openkm\tomcat\temp\img-JI2a-6471948669572159643.png
2015-08-02 12:03:27,528 [pool-1-thread-4] DEBUG com.openkm.extractor.PdfTextExtractor- TextStripped: ''
2015-08-02 12:03:27,535 [pool-1-thread-4] WARN  com.openkm.extractor.PdfTextExtractor- PDF does not contains text layer
2015-08-02 12:03:27,537 [pool-1-thread-4] DEBUG com.openkm.extractor.PdfTextExtractor- Writing image: D:\openkm\tomcat\temp\img-JI45a-5759755088852842960.png
2015-08-02 12:03:30,708 [pool-1-thread-4] INFO  com.openkm.util.DocumentUtils- Using OpenOffice dictionary: D:/openkm/es_es.oxt
2015-08-02 12:03:31,510 [pool-1-thread-1] INFO  com.openkm.util.DocumentUtils- Using OpenOffice dictionary: D:/openkm/es_es.oxt
2015-08-02 12:03:34,887 [pool-1-thread-2] INFO  com.openkm.util.DocumentUtils- Using OpenOffice dictionary: D:/openkm/es_es.oxt
2015-08-02 12:03:36,153 [pool-1-thread-3] INFO  com.openkm.util.DocumentUtils- Using OpenOffice dictionary: D:/openkm/es_es.oxt
2015-08-02 12:04:27,368 [http-bio-0.0.0.0-8080-exec-8] INFO  com.openkm.extractor.TextExtractorWorker- ### Awaiting for pool tasks termination... (0) ###
2015-08-02 12:05:00,016 [Thread-23] WARN  com.openkm.extractor.TextExtractorWorker- *** Text extraction already running ***
2015-08-02 12:05:27,369 [http-bio-0.0.0.0-8080-exec-8] INFO  com.openkm.extractor.TextExtractorWorker- ### Awaiting for pool tasks termination... (1) ###
¿Mas ideas?
 #40225  by bieli
 
Parece que de vez en cuando esta con el "Text Extractor" revisando los ficheros y extrae texto, pero no sigue con el proceso pq los ficheros siguen en la cola de espera y sin desparecer:
Code: Select all
2015-08-02 12:29:00,863 [http-bio-0.0.0.0-8080-exec-8] INFO  com.openkm.extractor.TextExtractorWorker- ### Awaiting for pool tasks termination... (24) ###
2015-08-02 12:29:23,134 [pool-1-thread-4] DEBUG com.openkm.extractor.PdfTextExtractor- OCR Extracted: Condiciones Particulares Seguro -ZURICH HOGAR...
2015-08-02 12:29:23,136 [pool-1-thread-4] DEBUG com.openkm.extractor.PdfTextExtractor- Writing image: D:\openkm\tomcat\temp\img-Im3-4655373720787825484.png
2015-08-02 12:29:31,580 [pool-1-thread-4] INFO  com.openkm.util.DocumentUtils- Using OpenOffice dictionary: D:/openkm/es_es.oxt
 #40226  by jllort
 
Los procesos que consumen CPU cuales son ? el proceso de JAVA o hay algun que otro proceso que esta comiendo cpu a saco ?
Tienes algún antivirus en este servidor ?
Veo que también estas utilizando el diccionario de openoffice ( prueba temporalmente a deshabilitarlo ).

Nos puedes proporcionar alguno de estos ficheros pdf para probarlos con 2-3 nos bastaría ( si me los tienes que enviar en un privado, ya te doy mi dirección de mail ).
 #40227  by bieli
 
Solucionado!!! He quitado el diccionario español y ya va como un tiro! jeje
Ahora esta trabajando todos los fichero y quitandolos poco a poco :D

¿Que pasa el diccionario esta roto o no lo puedo utilizar así? ¿Entonces, para que sirve si no funciona bien?

Muchísimas gracias por vuestra ayuda, pq por ahí nunca hubiera buscado!

Saludos,
Bieli
 #40237  by jllort
 
Cuando extraes palabras de un documento ( text extractor ) se le pasa el diccionario, para que únicamente se indexen palabras del diccionario. Es raro porque eso si que te tiene que funcionar, que parametro de configuracion tenías para el diccionario ?
 #40243  by bieli
 
Parámetro de configuración era:

system.openoffice.dictionary D:/openkm/es_es.oxt

y lo ha cargado bien como hemos visto aquí:
Code: Select all
2015-08-02 12:03:30,708 [pool-1-thread-4] INFO  com.openkm.util.DocumentUtils- Using OpenOffice dictionary: D:/openkm/es_es.oxt
2015-08-02 12:03:31,510 [pool-1-thread-1] INFO  com.openkm.util.DocumentUtils- Using OpenOffice dictionary: D:/openkm/es_es.oxt
2015-08-02 12:03:34,887 [pool-1-thread-2] INFO  com.openkm.util.DocumentUtils- Using OpenOffice dictionary: D:/openkm/es_es.oxt
2015-08-02 12:03:36,153 [pool-1-thread-3] INFO  com.openkm.util.DocumentUtils- Using OpenOffice dictionary: D:/openkm/es_es.oxt
Pero aparentemente no ha funcionado bien.

About Us

OpenKM is part of the management software. A management software is a program that facilitates the accomplishment of administrative tasks. OpenKM is a document management system that allows you to manage business content and workflow in a more efficient way. Document managers guarantee data protection by establishing information security for business content.