Page 1 of 1

CPU continuamente a 50% de sus recursos

PostPosted:Tue Jul 28, 2015 6:06 am
by bieli
Hola,

después del arranque de OpenKM va todo bien, hasta que entra en proceso el OCR con Tesseract. Tesseract mismo arranca bien y acaba bien, pero a partir de este momento, el proceso de Java que antes era en max. 5% de uso de la CPU, ahora sube a 50 % (en 4 de 8 cores) y ahí permanece para siempre. Utilizo Java JRE 1.8.0_51 y la versión de OpenKM Community.

¿Que puede ser el problema? ¿Como lo puedo rastrear?

O no puede terminar threads o proceso y tiene que ver algo con eso:
OpenKM 2015-07-28 20-28-45.png
OpenKM 2015-07-28 20-28-45.png (58.94 KiB) Viewed 9797 times
Gracias y saludo,
Bieli

Re: CPU continuamente a 50% de sus recursos

PostPosted:Wed Jul 29, 2015 1:59 pm
by jllort
Varias cosas:
Version de openkm ?
El valor de los parametros de configuracion ?
Code: Select all
managed.text.extraction
managed.text.extraction.batch
managed.text.extraction.concurrent
managed.text.extraction.pool.size
managed.text.extraction.pool.threads
managed.text.extraction.pool.timeout
Si va a la administracion -> stats tienes documentos pendientes en la cola de extracción ? van disminuyendo al cabo de unos cuantos minutos ?

Re: CPU continuamente a 50% de sus recursos

PostPosted:Wed Jul 29, 2015 4:25 pm
by bieli
Utilizo versión 6.3.1 Community con HSQL. Tengo metidos unos 450 documentos con 250 MB en total.
Valores de los parámetros de configuración:
OpenKM 2015-07-29 18-15-20.png
OpenKM 2015-07-29 18-15-20.png (5.48 KiB) Viewed 9793 times
En "Text extraction queue" tengo arriba 8 documentos en "Extractions In Progress (Running)" y no se disminuyen, ni rearrancando OpenKM, los nombres quedan iguales. En la parte de abajo "Pending Extractions" tengo 219 documentos esperando y tampoco disminuyen.

Y en el log tengo:
Code: Select all
...
2015-07-29 18:10:00,062 [Thread-19] INFO  com.openkm.extractor.TextExtractorWorker- processConcurrent(null, 32)
2015-07-29 18:10:00,078 [Thread-19] INFO  com.openkm.extractor.TextExtractorWorker- Begin pool 1 of 4
2015-07-29 18:10:00,078 [Thread-19] INFO  com.openkm.extractor.TextExtractorWorker- processConcurrent.added 0 documents
2015-07-29 18:10:00,078 [Thread-19] INFO  com.openkm.extractor.TextExtractorWorker- processConcurrent.added 1 documents
2015-07-29 18:10:00,093 [Thread-19] INFO  com.openkm.extractor.TextExtractorWorker- processConcurrent.added 2 documents
2015-07-29 18:10:00,093 [Thread-19] INFO  com.openkm.extractor.TextExtractorWorker- processConcurrent.added 3 documents
2015-07-29 18:10:00,093 [Thread-19] INFO  com.openkm.extractor.TextExtractorWorker- processConcurrent.added 4 documents
2015-07-29 18:10:00,093 [Thread-19] INFO  com.openkm.extractor.TextExtractorWorker- processConcurrent.added 5 documents
2015-07-29 18:10:00,093 [Thread-19] INFO  com.openkm.extractor.TextExtractorWorker- processConcurrent.added 6 documents
2015-07-29 18:10:00,093 [Thread-19] INFO  com.openkm.extractor.TextExtractorWorker- processConcurrent.added 7 documents
2015-07-29 18:10:00,093 [Thread-19] INFO  com.openkm.extractor.TextExtractorWorker- End pool 1 of 4
2015-07-29 18:10:00,093 [Thread-19] INFO  com.openkm.extractor.TextExtractorWorker- ### All threads shutdown requested ###
2015-07-29 18:10:00,187 [pool-1-thread-4] DEBUG com.openkm.extractor.PdfTextExtractor- TextStripped: ''
2015-07-29 18:10:00,187 [pool-1-thread-1] DEBUG com.openkm.extractor.PdfTextExtractor- TextStripped: ''
2015-07-29 18:10:00,187 [pool-1-thread-1] WARN  com.openkm.extractor.PdfTextExtractor- PDF does not contains text layer
2015-07-29 18:10:00,187 [pool-1-thread-3] DEBUG com.openkm.extractor.PdfTextExtractor- TextStripped: ''
2015-07-29 18:10:00,187 [pool-1-thread-4] WARN  com.openkm.extractor.PdfTextExtractor- PDF does not contains text layer
2015-07-29 18:10:00,187 [pool-1-thread-3] WARN  com.openkm.extractor.PdfTextExtractor- PDF does not contains text layer
2015-07-29 18:10:00,187 [pool-1-thread-2] DEBUG com.openkm.extractor.PdfTextExtractor- TextStripped: ''
2015-07-29 18:10:00,187 [pool-1-thread-2] WARN  com.openkm.extractor.PdfTextExtractor- PDF does not contains text layer
2015-07-29 18:10:00,187 [pool-1-thread-2] DEBUG com.openkm.extractor.PdfTextExtractor- Writing image: D:\openkm\tomcat\temp\img-JI56a-7334302568600819590.png
2015-07-29 18:10:00,187 [pool-1-thread-4] DEBUG com.openkm.extractor.PdfTextExtractor- Writing image: D:\openkm\tomcat\temp\img-JI66a-1960791417271858363.png
2015-07-29 18:10:00,187 [pool-1-thread-3] DEBUG com.openkm.extractor.PdfTextExtractor- Writing image: D:\openkm\tomcat\temp\img-JI2a-4480403081160316500.png
2015-07-29 18:10:00,187 [pool-1-thread-1] DEBUG com.openkm.extractor.PdfTextExtractor- Writing image: D:\openkm\tomcat\temp\img-x2-2887790943154844648.png
2015-07-29 18:10:04,024 [pool-1-thread-2] INFO  com.openkm.util.DocumentUtils- Using OpenOffice dictionary: D:/openkm/es_es.oxt
2015-07-29 18:10:07,784 [pool-1-thread-3] INFO  com.openkm.util.DocumentUtils- Using OpenOffice dictionary: D:/openkm/es_es.oxt
2015-07-29 18:10:08,938 [pool-1-thread-4] INFO  com.openkm.util.DocumentUtils- Using OpenOffice dictionary: D:/openkm/es_es.oxt
2015-07-29 18:10:12,979 [pool-1-thread-1] INFO  com.openkm.util.DocumentUtils- Using OpenOffice dictionary: D:/openkm/es_es.oxt
2015-07-29 18:10:18,533 [pool-1-thread-1] DEBUG com.openkm.extractor.PdfTextExtractor- OCR Extracted: <mucho texto, pq tengo activado el debug del OCR para ver que esta pasando>
2015-07-29 18:10:18,533 [pool-1-thread-1] DEBUG com.openkm.extractor.PdfTextExtractor- Writing image: D:\openkm\tomcat\temp\img-x5-4411873586116794554.png
2015-07-29 18:10:41,917 [pool-1-thread-1] INFO  com.openkm.util.DocumentUtils- Using OpenOffice dictionary: D:/openkm/es_es.oxt
2015-07-29 18:11:00,107 [Thread-19] INFO  com.openkm.extractor.TextExtractorWorker- ### Awaiting for pool tasks termination... (0) ###
2015-07-29 18:12:00,120 [Thread-19] INFO  com.openkm.extractor.TextExtractorWorker- ### Awaiting for pool tasks termination... (1) ###
2015-07-29 18:13:00,133 [Thread-19] INFO  com.openkm.extractor.TextExtractorWorker- ### Awaiting for pool tasks termination... (2) ###
2015-07-29 18:13:44,765 [Update Info] INFO  com.openkm.core.UpdateInfo- *** UpdateInfo activated ***
2015-07-29 18:13:45,061 [Update Info] INFO  com.openkm.util.Update- checkVersion: 
2015-07-29 18:14:00,147 [Thread-19] INFO  com.openkm.extractor.TextExtractorWorker- ### Awaiting for pool tasks termination... (3) ###
2015-07-29 18:15:00,004 [Thread-29] WARN  com.openkm.extractor.TextExtractorWorker- *** Text extraction already running ***
2015-07-29 18:15:00,160 [Thread-19] INFO  com.openkm.extractor.TextExtractorWorker- ### Awaiting for pool tasks termination... (4) ###
2015-07-29 18:16:00,162 [Thread-19] INFO  com.openkm.extractor.TextExtractorWorker- ### Awaiting for pool tasks termination... (5) ###
2015-07-29 18:17:00,163 [Thread-19] INFO  com.openkm.extractor.TextExtractorWorker- ### Awaiting for pool tasks termination... (6) ###
2015-07-29 18:18:00,164 [Thread-19] INFO  com.openkm.extractor.TextExtractorWorker- ### Awaiting for pool tasks termination... (7) ###
2015-07-29 18:19:00,166 [Thread-19] INFO  com.openkm.extractor.TextExtractorWorker- ### Awaiting for pool tasks termination... (8) ###
2015-07-29 18:20:00,013 [Thread-32] WARN  com.openkm.extractor.TextExtractorWorker- *** Text extraction already running ***
2015-07-29 18:20:00,167 [Thread-19] INFO  com.openkm.extractor.TextExtractorWorker- ### Awaiting for pool tasks termination... (9) ###
2015-07-29 18:21:00,169 [Thread-19] INFO  com.openkm.extractor.TextExtractorWorker- ### Awaiting for pool tasks termination... (10) ###
...

Re: CPU continuamente a 50% de sus recursos

PostPosted:Thu Jul 30, 2015 10:51 am
by jllort
Pon el valor del pool.size y threads igual ( si tienes 4 cpu's los dos a 4 ).

Si te vas a los stats siempre tienes los 4-8 primeros ficheros que se estan intentando indexar, pero que nunca terminan ( puedes comprobarlo hechandole un vistazo cada 5 minutos 2-3 veces para estar seguros que este es el caso ? ). En caso afirmativo de que tipo de ficheros estamos hablando ? tamaño etc...

Re: CPU continuamente a 50% de sus recursos

PostPosted:Thu Jul 30, 2015 5:08 pm
by bieli
He cambiado el valor de threads también a 4, pero no cambia nada (por cierto tengo 4 core CPU con Hyperthreading, yo pondría 8 en threads).
En los stats ahora solo ha cogido los primeros 4 documentos de los 219 que están esperando. Siempre son los mismos. Ya he arrancado OpenKM 10 veces y lo he dejado correr por los menos cada vez media hora, en algunos casos 2 horas o mas, pero nada.

De los 8 documentos 6 son PDF y 2 son XLSX. Uno de los PDFs tiene 4 MB y 7 paginas, el resto 1 MB o menos y con 1 a 4 paginas. Casi todos los PDFs son escaneados. Los XLSX son de una pagina y llevan texto.

Con ningún documento tengo problemas en el "preview" del OpenKM. Todo puedo ver perfectamente. Todos los proceso de "tesseract" acaban bien y cuando han acabado sube la CPU de la JVM a 50% y poco a poco sube también la memoria. 1 MB por minuto.
cpu.png
cpu.png (18.69 KiB) Viewed 9784 times

Re: CPU continuamente a 50% de sus recursos

PostPosted:Sun Aug 02, 2015 8:27 am
by jllort
Es posible que el problema este en los xls. Has una cosa, coge los uuid de estos primero 8 documentos.

Vete a la administracion, database query y entonces marca los documentos como si ya estuviesen indexados:
Code: Select all
update OKM_DOCUMENT set NDC_TEXT_EXTRACTED='T' WHERE NBS_UUID='el uuid del documento';
Confirmame si al marcar estos xls como ya indexados el problema se arregla.

Re: CPU continuamente a 50% de sus recursos

PostPosted:Sun Aug 02, 2015 10:21 am
by bieli
He borrado los XLSX de la cola de espera, pero nada. Luego arranco el "Text Extractor Worker" a mano y desaparecen estos ficheros y el mete 2 nuevos mas en la cola, pero otra vez sube la CPU del proceso JAVA y los ficheros permanecen en la cola. Luego he borrado también unos de los PDF, pero igual que antes. Aquí el output de Java:
Code: Select all
2015-08-02 12:03:27,326 [http-bio-0.0.0.0-8080-exec-8] INFO  com.openkm.extractor.TextExtractorWorker- processConcurrent(null, 32)
2015-08-02 12:03:27,354 [http-bio-0.0.0.0-8080-exec-8] INFO  com.openkm.extractor.TextExtractorWorker- Begin pool 1 of 4
2015-08-02 12:03:27,355 [http-bio-0.0.0.0-8080-exec-8] INFO  com.openkm.extractor.TextExtractorWorker- processConcurrent.added 0 documents
2015-08-02 12:03:27,358 [http-bio-0.0.0.0-8080-exec-8] INFO  com.openkm.extractor.TextExtractorWorker- processConcurrent.added 1 documents
2015-08-02 12:03:27,359 [http-bio-0.0.0.0-8080-exec-8] INFO  com.openkm.extractor.TextExtractorWorker- processConcurrent.added 2 documents
2015-08-02 12:03:27,360 [http-bio-0.0.0.0-8080-exec-8] INFO  com.openkm.extractor.TextExtractorWorker- processConcurrent.added 3 documents
2015-08-02 12:03:27,360 [http-bio-0.0.0.0-8080-exec-8] INFO  com.openkm.extractor.TextExtractorWorker- processConcurrent.added 4 documents
2015-08-02 12:03:27,361 [http-bio-0.0.0.0-8080-exec-8] INFO  com.openkm.extractor.TextExtractorWorker- processConcurrent.added 5 documents
2015-08-02 12:03:27,361 [http-bio-0.0.0.0-8080-exec-8] INFO  com.openkm.extractor.TextExtractorWorker- processConcurrent.added 6 documents
2015-08-02 12:03:27,364 [http-bio-0.0.0.0-8080-exec-8] INFO  com.openkm.extractor.TextExtractorWorker- processConcurrent.added 7 documents
2015-08-02 12:03:27,364 [http-bio-0.0.0.0-8080-exec-8] INFO  com.openkm.extractor.TextExtractorWorker- End pool 1 of 4
2015-08-02 12:03:27,364 [http-bio-0.0.0.0-8080-exec-8] INFO  com.openkm.extractor.TextExtractorWorker- ### All threads shutdown requested ###
2015-08-02 12:03:27,456 [pool-1-thread-2] DEBUG com.openkm.extractor.PdfTextExtractor- TextStripped: ''
2015-08-02 12:03:27,456 [pool-1-thread-3] DEBUG com.openkm.extractor.PdfTextExtractor- TextStripped: ''
2015-08-02 12:03:27,456 [pool-1-thread-3] WARN  com.openkm.extractor.PdfTextExtractor- PDF does not contains text layer
2015-08-02 12:03:27,456 [pool-1-thread-1] DEBUG com.openkm.extractor.PdfTextExtractor- TextStripped: ''
2015-08-02 12:03:27,456 [pool-1-thread-2] WARN  com.openkm.extractor.PdfTextExtractor- PDF does not contains text layer
2015-08-02 12:03:27,457 [pool-1-thread-1] WARN  com.openkm.extractor.PdfTextExtractor- PDF does not contains text layer
2015-08-02 12:03:27,457 [pool-1-thread-3] DEBUG com.openkm.extractor.PdfTextExtractor- Writing image: D:\openkm\tomcat\temp\img-JI66a-7616736562706631943.png
2015-08-02 12:03:27,457 [pool-1-thread-1] DEBUG com.openkm.extractor.PdfTextExtractor- Writing image: D:\openkm\tomcat\temp\img-JI56a-3219091947509216692.png
2015-08-02 12:03:27,457 [pool-1-thread-2] DEBUG com.openkm.extractor.PdfTextExtractor- Writing image: D:\openkm\tomcat\temp\img-JI2a-6471948669572159643.png
2015-08-02 12:03:27,528 [pool-1-thread-4] DEBUG com.openkm.extractor.PdfTextExtractor- TextStripped: ''
2015-08-02 12:03:27,535 [pool-1-thread-4] WARN  com.openkm.extractor.PdfTextExtractor- PDF does not contains text layer
2015-08-02 12:03:27,537 [pool-1-thread-4] DEBUG com.openkm.extractor.PdfTextExtractor- Writing image: D:\openkm\tomcat\temp\img-JI45a-5759755088852842960.png
2015-08-02 12:03:30,708 [pool-1-thread-4] INFO  com.openkm.util.DocumentUtils- Using OpenOffice dictionary: D:/openkm/es_es.oxt
2015-08-02 12:03:31,510 [pool-1-thread-1] INFO  com.openkm.util.DocumentUtils- Using OpenOffice dictionary: D:/openkm/es_es.oxt
2015-08-02 12:03:34,887 [pool-1-thread-2] INFO  com.openkm.util.DocumentUtils- Using OpenOffice dictionary: D:/openkm/es_es.oxt
2015-08-02 12:03:36,153 [pool-1-thread-3] INFO  com.openkm.util.DocumentUtils- Using OpenOffice dictionary: D:/openkm/es_es.oxt
2015-08-02 12:04:27,368 [http-bio-0.0.0.0-8080-exec-8] INFO  com.openkm.extractor.TextExtractorWorker- ### Awaiting for pool tasks termination... (0) ###
2015-08-02 12:05:00,016 [Thread-23] WARN  com.openkm.extractor.TextExtractorWorker- *** Text extraction already running ***
2015-08-02 12:05:27,369 [http-bio-0.0.0.0-8080-exec-8] INFO  com.openkm.extractor.TextExtractorWorker- ### Awaiting for pool tasks termination... (1) ###
¿Mas ideas?

Re: CPU continuamente a 50% de sus recursos

PostPosted:Sun Aug 02, 2015 10:36 am
by bieli
Parece que de vez en cuando esta con el "Text Extractor" revisando los ficheros y extrae texto, pero no sigue con el proceso pq los ficheros siguen en la cola de espera y sin desparecer:
Code: Select all
2015-08-02 12:29:00,863 [http-bio-0.0.0.0-8080-exec-8] INFO  com.openkm.extractor.TextExtractorWorker- ### Awaiting for pool tasks termination... (24) ###
2015-08-02 12:29:23,134 [pool-1-thread-4] DEBUG com.openkm.extractor.PdfTextExtractor- OCR Extracted: Condiciones Particulares Seguro -ZURICH HOGAR...
2015-08-02 12:29:23,136 [pool-1-thread-4] DEBUG com.openkm.extractor.PdfTextExtractor- Writing image: D:\openkm\tomcat\temp\img-Im3-4655373720787825484.png
2015-08-02 12:29:31,580 [pool-1-thread-4] INFO  com.openkm.util.DocumentUtils- Using OpenOffice dictionary: D:/openkm/es_es.oxt

Re: CPU continuamente a 50% de sus recursos

PostPosted:Sun Aug 02, 2015 10:36 am
by jllort
Los procesos que consumen CPU cuales son ? el proceso de JAVA o hay algun que otro proceso que esta comiendo cpu a saco ?
Tienes algún antivirus en este servidor ?
Veo que también estas utilizando el diccionario de openoffice ( prueba temporalmente a deshabilitarlo ).

Nos puedes proporcionar alguno de estos ficheros pdf para probarlos con 2-3 nos bastaría ( si me los tienes que enviar en un privado, ya te doy mi dirección de mail ).

Re: CPU continuamente a 50% de sus recursos

PostPosted:Sun Aug 02, 2015 4:46 pm
by bieli
Solucionado!!! He quitado el diccionario español y ya va como un tiro! jeje
Ahora esta trabajando todos los fichero y quitandolos poco a poco :D

¿Que pasa el diccionario esta roto o no lo puedo utilizar así? ¿Entonces, para que sirve si no funciona bien?

Muchísimas gracias por vuestra ayuda, pq por ahí nunca hubiera buscado!

Saludos,
Bieli

Re: CPU continuamente a 50% de sus recursos

PostPosted:Tue Aug 04, 2015 9:46 am
by jllort
Cuando extraes palabras de un documento ( text extractor ) se le pasa el diccionario, para que únicamente se indexen palabras del diccionario. Es raro porque eso si que te tiene que funcionar, que parametro de configuracion tenías para el diccionario ?

Re: CPU continuamente a 50% de sus recursos

PostPosted:Tue Aug 04, 2015 10:25 am
by bieli
Parámetro de configuración era:

system.openoffice.dictionary D:/openkm/es_es.oxt

y lo ha cargado bien como hemos visto aquí:
Code: Select all
2015-08-02 12:03:30,708 [pool-1-thread-4] INFO  com.openkm.util.DocumentUtils- Using OpenOffice dictionary: D:/openkm/es_es.oxt
2015-08-02 12:03:31,510 [pool-1-thread-1] INFO  com.openkm.util.DocumentUtils- Using OpenOffice dictionary: D:/openkm/es_es.oxt
2015-08-02 12:03:34,887 [pool-1-thread-2] INFO  com.openkm.util.DocumentUtils- Using OpenOffice dictionary: D:/openkm/es_es.oxt
2015-08-02 12:03:36,153 [pool-1-thread-3] INFO  com.openkm.util.DocumentUtils- Using OpenOffice dictionary: D:/openkm/es_es.oxt
Pero aparentemente no ha funcionado bien.

Re: CPU continuamente a 50% de sus recursos

PostPosted:Wed Aug 05, 2015 4:26 pm
by jllort
En vez del oxt prueba con el .zip a ver si funciona mejor ( normalmente es el que nosotros utilizamos )

http://download.services.openoffice.org ... tionaries/