CPU continuamente a 50% de sus recursos

OpenKM tiene muchas características interesantes, pero es necesario un proceso de configuración para mostrar todo su potencial.
Forum rules
Por favor, antes de preguntar algo consulta el wiki de documentación o utiliza la función de búsqueda del foro. Recuerda que no tenemos una bola de cristal ni poderes mentales, o sea que que para informar sobre un error es necesario que nos indiques tanto la versión de OpenKM que usas como la del navegador y sistema operativo. Para más información consulta Cómo informar de fallos de forma efectiva.
Post Reply
bieli
Senior Boarder
Senior Boarder
Posts: 42
Joined: Thu Jan 22, 2015 9:03 am
Location: Zaragoza, Spain

CPU continuamente a 50% de sus recursos

Post by bieli »

Hola,

después del arranque de OpenKM va todo bien, hasta que entra en proceso el OCR con Tesseract. Tesseract mismo arranca bien y acaba bien, pero a partir de este momento, el proceso de Java que antes era en max. 5% de uso de la CPU, ahora sube a 50 % (en 4 de 8 cores) y ahí permanece para siempre. Utilizo Java JRE 1.8.0_51 y la versión de OpenKM Community.

¿Que puede ser el problema? ¿Como lo puedo rastrear?

O no puede terminar threads o proceso y tiene que ver algo con eso:
OpenKM 2015-07-28 20-28-45.png
Gracias y saludo,
Bieli

jllort
Moderator
Moderator
Posts: 11240
Joined: Fri Dec 21, 2007 11:23 am
Location: Sineu - ( Illes Balears ) - Spain
Contact:

Re: CPU continuamente a 50% de sus recursos

Post by jllort »

Varias cosas:
Version de openkm ?
El valor de los parametros de configuracion ?

Code: Select all

managed.text.extraction
managed.text.extraction.batch
managed.text.extraction.concurrent
managed.text.extraction.pool.size
managed.text.extraction.pool.threads
managed.text.extraction.pool.timeout
Si va a la administracion -> stats tienes documentos pendientes en la cola de extracción ? van disminuyendo al cabo de unos cuantos minutos ?

bieli
Senior Boarder
Senior Boarder
Posts: 42
Joined: Thu Jan 22, 2015 9:03 am
Location: Zaragoza, Spain

Re: CPU continuamente a 50% de sus recursos

Post by bieli »

Utilizo versión 6.3.1 Community con HSQL. Tengo metidos unos 450 documentos con 250 MB en total.
Valores de los parámetros de configuración:
OpenKM 2015-07-29 18-15-20.png
OpenKM 2015-07-29 18-15-20.png (5.48 KiB) Viewed 3172 times
En "Text extraction queue" tengo arriba 8 documentos en "Extractions In Progress (Running)" y no se disminuyen, ni rearrancando OpenKM, los nombres quedan iguales. En la parte de abajo "Pending Extractions" tengo 219 documentos esperando y tampoco disminuyen.

Y en el log tengo:

Code: Select all

...
2015-07-29 18:10:00,062 [Thread-19] INFO  com.openkm.extractor.TextExtractorWorker- processConcurrent(null, 32)
2015-07-29 18:10:00,078 [Thread-19] INFO  com.openkm.extractor.TextExtractorWorker- Begin pool 1 of 4
2015-07-29 18:10:00,078 [Thread-19] INFO  com.openkm.extractor.TextExtractorWorker- processConcurrent.added 0 documents
2015-07-29 18:10:00,078 [Thread-19] INFO  com.openkm.extractor.TextExtractorWorker- processConcurrent.added 1 documents
2015-07-29 18:10:00,093 [Thread-19] INFO  com.openkm.extractor.TextExtractorWorker- processConcurrent.added 2 documents
2015-07-29 18:10:00,093 [Thread-19] INFO  com.openkm.extractor.TextExtractorWorker- processConcurrent.added 3 documents
2015-07-29 18:10:00,093 [Thread-19] INFO  com.openkm.extractor.TextExtractorWorker- processConcurrent.added 4 documents
2015-07-29 18:10:00,093 [Thread-19] INFO  com.openkm.extractor.TextExtractorWorker- processConcurrent.added 5 documents
2015-07-29 18:10:00,093 [Thread-19] INFO  com.openkm.extractor.TextExtractorWorker- processConcurrent.added 6 documents
2015-07-29 18:10:00,093 [Thread-19] INFO  com.openkm.extractor.TextExtractorWorker- processConcurrent.added 7 documents
2015-07-29 18:10:00,093 [Thread-19] INFO  com.openkm.extractor.TextExtractorWorker- End pool 1 of 4
2015-07-29 18:10:00,093 [Thread-19] INFO  com.openkm.extractor.TextExtractorWorker- ### All threads shutdown requested ###
2015-07-29 18:10:00,187 [pool-1-thread-4] DEBUG com.openkm.extractor.PdfTextExtractor- TextStripped: ''
2015-07-29 18:10:00,187 [pool-1-thread-1] DEBUG com.openkm.extractor.PdfTextExtractor- TextStripped: ''
2015-07-29 18:10:00,187 [pool-1-thread-1] WARN  com.openkm.extractor.PdfTextExtractor- PDF does not contains text layer
2015-07-29 18:10:00,187 [pool-1-thread-3] DEBUG com.openkm.extractor.PdfTextExtractor- TextStripped: ''
2015-07-29 18:10:00,187 [pool-1-thread-4] WARN  com.openkm.extractor.PdfTextExtractor- PDF does not contains text layer
2015-07-29 18:10:00,187 [pool-1-thread-3] WARN  com.openkm.extractor.PdfTextExtractor- PDF does not contains text layer
2015-07-29 18:10:00,187 [pool-1-thread-2] DEBUG com.openkm.extractor.PdfTextExtractor- TextStripped: ''
2015-07-29 18:10:00,187 [pool-1-thread-2] WARN  com.openkm.extractor.PdfTextExtractor- PDF does not contains text layer
2015-07-29 18:10:00,187 [pool-1-thread-2] DEBUG com.openkm.extractor.PdfTextExtractor- Writing image: D:\openkm\tomcat\temp\img-JI56a-7334302568600819590.png
2015-07-29 18:10:00,187 [pool-1-thread-4] DEBUG com.openkm.extractor.PdfTextExtractor- Writing image: D:\openkm\tomcat\temp\img-JI66a-1960791417271858363.png
2015-07-29 18:10:00,187 [pool-1-thread-3] DEBUG com.openkm.extractor.PdfTextExtractor- Writing image: D:\openkm\tomcat\temp\img-JI2a-4480403081160316500.png
2015-07-29 18:10:00,187 [pool-1-thread-1] DEBUG com.openkm.extractor.PdfTextExtractor- Writing image: D:\openkm\tomcat\temp\img-x2-2887790943154844648.png
2015-07-29 18:10:04,024 [pool-1-thread-2] INFO  com.openkm.util.DocumentUtils- Using OpenOffice dictionary: D:/openkm/es_es.oxt
2015-07-29 18:10:07,784 [pool-1-thread-3] INFO  com.openkm.util.DocumentUtils- Using OpenOffice dictionary: D:/openkm/es_es.oxt
2015-07-29 18:10:08,938 [pool-1-thread-4] INFO  com.openkm.util.DocumentUtils- Using OpenOffice dictionary: D:/openkm/es_es.oxt
2015-07-29 18:10:12,979 [pool-1-thread-1] INFO  com.openkm.util.DocumentUtils- Using OpenOffice dictionary: D:/openkm/es_es.oxt
2015-07-29 18:10:18,533 [pool-1-thread-1] DEBUG com.openkm.extractor.PdfTextExtractor- OCR Extracted: <mucho texto, pq tengo activado el debug del OCR para ver que esta pasando>
2015-07-29 18:10:18,533 [pool-1-thread-1] DEBUG com.openkm.extractor.PdfTextExtractor- Writing image: D:\openkm\tomcat\temp\img-x5-4411873586116794554.png
2015-07-29 18:10:41,917 [pool-1-thread-1] INFO  com.openkm.util.DocumentUtils- Using OpenOffice dictionary: D:/openkm/es_es.oxt
2015-07-29 18:11:00,107 [Thread-19] INFO  com.openkm.extractor.TextExtractorWorker- ### Awaiting for pool tasks termination... (0) ###
2015-07-29 18:12:00,120 [Thread-19] INFO  com.openkm.extractor.TextExtractorWorker- ### Awaiting for pool tasks termination... (1) ###
2015-07-29 18:13:00,133 [Thread-19] INFO  com.openkm.extractor.TextExtractorWorker- ### Awaiting for pool tasks termination... (2) ###
2015-07-29 18:13:44,765 [Update Info] INFO  com.openkm.core.UpdateInfo- *** UpdateInfo activated ***
2015-07-29 18:13:45,061 [Update Info] INFO  com.openkm.util.Update- checkVersion: 
2015-07-29 18:14:00,147 [Thread-19] INFO  com.openkm.extractor.TextExtractorWorker- ### Awaiting for pool tasks termination... (3) ###
2015-07-29 18:15:00,004 [Thread-29] WARN  com.openkm.extractor.TextExtractorWorker- *** Text extraction already running ***
2015-07-29 18:15:00,160 [Thread-19] INFO  com.openkm.extractor.TextExtractorWorker- ### Awaiting for pool tasks termination... (4) ###
2015-07-29 18:16:00,162 [Thread-19] INFO  com.openkm.extractor.TextExtractorWorker- ### Awaiting for pool tasks termination... (5) ###
2015-07-29 18:17:00,163 [Thread-19] INFO  com.openkm.extractor.TextExtractorWorker- ### Awaiting for pool tasks termination... (6) ###
2015-07-29 18:18:00,164 [Thread-19] INFO  com.openkm.extractor.TextExtractorWorker- ### Awaiting for pool tasks termination... (7) ###
2015-07-29 18:19:00,166 [Thread-19] INFO  com.openkm.extractor.TextExtractorWorker- ### Awaiting for pool tasks termination... (8) ###
2015-07-29 18:20:00,013 [Thread-32] WARN  com.openkm.extractor.TextExtractorWorker- *** Text extraction already running ***
2015-07-29 18:20:00,167 [Thread-19] INFO  com.openkm.extractor.TextExtractorWorker- ### Awaiting for pool tasks termination... (9) ###
2015-07-29 18:21:00,169 [Thread-19] INFO  com.openkm.extractor.TextExtractorWorker- ### Awaiting for pool tasks termination... (10) ###
...

jllort
Moderator
Moderator
Posts: 11240
Joined: Fri Dec 21, 2007 11:23 am
Location: Sineu - ( Illes Balears ) - Spain
Contact:

Re: CPU continuamente a 50% de sus recursos

Post by jllort »

Pon el valor del pool.size y threads igual ( si tienes 4 cpu's los dos a 4 ).

Si te vas a los stats siempre tienes los 4-8 primeros ficheros que se estan intentando indexar, pero que nunca terminan ( puedes comprobarlo hechandole un vistazo cada 5 minutos 2-3 veces para estar seguros que este es el caso ? ). En caso afirmativo de que tipo de ficheros estamos hablando ? tamaño etc...

bieli
Senior Boarder
Senior Boarder
Posts: 42
Joined: Thu Jan 22, 2015 9:03 am
Location: Zaragoza, Spain

Re: CPU continuamente a 50% de sus recursos

Post by bieli »

He cambiado el valor de threads también a 4, pero no cambia nada (por cierto tengo 4 core CPU con Hyperthreading, yo pondría 8 en threads).
En los stats ahora solo ha cogido los primeros 4 documentos de los 219 que están esperando. Siempre son los mismos. Ya he arrancado OpenKM 10 veces y lo he dejado correr por los menos cada vez media hora, en algunos casos 2 horas o mas, pero nada.

De los 8 documentos 6 son PDF y 2 son XLSX. Uno de los PDFs tiene 4 MB y 7 paginas, el resto 1 MB o menos y con 1 a 4 paginas. Casi todos los PDFs son escaneados. Los XLSX son de una pagina y llevan texto.

Con ningún documento tengo problemas en el "preview" del OpenKM. Todo puedo ver perfectamente. Todos los proceso de "tesseract" acaban bien y cuando han acabado sube la CPU de la JVM a 50% y poco a poco sube también la memoria. 1 MB por minuto.
cpu.png

jllort
Moderator
Moderator
Posts: 11240
Joined: Fri Dec 21, 2007 11:23 am
Location: Sineu - ( Illes Balears ) - Spain
Contact:

Re: CPU continuamente a 50% de sus recursos

Post by jllort »

Es posible que el problema este en los xls. Has una cosa, coge los uuid de estos primero 8 documentos.

Vete a la administracion, database query y entonces marca los documentos como si ya estuviesen indexados:

Code: Select all

update OKM_DOCUMENT set NDC_TEXT_EXTRACTED='T' WHERE NBS_UUID='el uuid del documento';
Confirmame si al marcar estos xls como ya indexados el problema se arregla.

bieli
Senior Boarder
Senior Boarder
Posts: 42
Joined: Thu Jan 22, 2015 9:03 am
Location: Zaragoza, Spain

Re: CPU continuamente a 50% de sus recursos

Post by bieli »

He borrado los XLSX de la cola de espera, pero nada. Luego arranco el "Text Extractor Worker" a mano y desaparecen estos ficheros y el mete 2 nuevos mas en la cola, pero otra vez sube la CPU del proceso JAVA y los ficheros permanecen en la cola. Luego he borrado también unos de los PDF, pero igual que antes. Aquí el output de Java:

Code: Select all

2015-08-02 12:03:27,326 [http-bio-0.0.0.0-8080-exec-8] INFO  com.openkm.extractor.TextExtractorWorker- processConcurrent(null, 32)
2015-08-02 12:03:27,354 [http-bio-0.0.0.0-8080-exec-8] INFO  com.openkm.extractor.TextExtractorWorker- Begin pool 1 of 4
2015-08-02 12:03:27,355 [http-bio-0.0.0.0-8080-exec-8] INFO  com.openkm.extractor.TextExtractorWorker- processConcurrent.added 0 documents
2015-08-02 12:03:27,358 [http-bio-0.0.0.0-8080-exec-8] INFO  com.openkm.extractor.TextExtractorWorker- processConcurrent.added 1 documents
2015-08-02 12:03:27,359 [http-bio-0.0.0.0-8080-exec-8] INFO  com.openkm.extractor.TextExtractorWorker- processConcurrent.added 2 documents
2015-08-02 12:03:27,360 [http-bio-0.0.0.0-8080-exec-8] INFO  com.openkm.extractor.TextExtractorWorker- processConcurrent.added 3 documents
2015-08-02 12:03:27,360 [http-bio-0.0.0.0-8080-exec-8] INFO  com.openkm.extractor.TextExtractorWorker- processConcurrent.added 4 documents
2015-08-02 12:03:27,361 [http-bio-0.0.0.0-8080-exec-8] INFO  com.openkm.extractor.TextExtractorWorker- processConcurrent.added 5 documents
2015-08-02 12:03:27,361 [http-bio-0.0.0.0-8080-exec-8] INFO  com.openkm.extractor.TextExtractorWorker- processConcurrent.added 6 documents
2015-08-02 12:03:27,364 [http-bio-0.0.0.0-8080-exec-8] INFO  com.openkm.extractor.TextExtractorWorker- processConcurrent.added 7 documents
2015-08-02 12:03:27,364 [http-bio-0.0.0.0-8080-exec-8] INFO  com.openkm.extractor.TextExtractorWorker- End pool 1 of 4
2015-08-02 12:03:27,364 [http-bio-0.0.0.0-8080-exec-8] INFO  com.openkm.extractor.TextExtractorWorker- ### All threads shutdown requested ###
2015-08-02 12:03:27,456 [pool-1-thread-2] DEBUG com.openkm.extractor.PdfTextExtractor- TextStripped: ''
2015-08-02 12:03:27,456 [pool-1-thread-3] DEBUG com.openkm.extractor.PdfTextExtractor- TextStripped: ''
2015-08-02 12:03:27,456 [pool-1-thread-3] WARN  com.openkm.extractor.PdfTextExtractor- PDF does not contains text layer
2015-08-02 12:03:27,456 [pool-1-thread-1] DEBUG com.openkm.extractor.PdfTextExtractor- TextStripped: ''
2015-08-02 12:03:27,456 [pool-1-thread-2] WARN  com.openkm.extractor.PdfTextExtractor- PDF does not contains text layer
2015-08-02 12:03:27,457 [pool-1-thread-1] WARN  com.openkm.extractor.PdfTextExtractor- PDF does not contains text layer
2015-08-02 12:03:27,457 [pool-1-thread-3] DEBUG com.openkm.extractor.PdfTextExtractor- Writing image: D:\openkm\tomcat\temp\img-JI66a-7616736562706631943.png
2015-08-02 12:03:27,457 [pool-1-thread-1] DEBUG com.openkm.extractor.PdfTextExtractor- Writing image: D:\openkm\tomcat\temp\img-JI56a-3219091947509216692.png
2015-08-02 12:03:27,457 [pool-1-thread-2] DEBUG com.openkm.extractor.PdfTextExtractor- Writing image: D:\openkm\tomcat\temp\img-JI2a-6471948669572159643.png
2015-08-02 12:03:27,528 [pool-1-thread-4] DEBUG com.openkm.extractor.PdfTextExtractor- TextStripped: ''
2015-08-02 12:03:27,535 [pool-1-thread-4] WARN  com.openkm.extractor.PdfTextExtractor- PDF does not contains text layer
2015-08-02 12:03:27,537 [pool-1-thread-4] DEBUG com.openkm.extractor.PdfTextExtractor- Writing image: D:\openkm\tomcat\temp\img-JI45a-5759755088852842960.png
2015-08-02 12:03:30,708 [pool-1-thread-4] INFO  com.openkm.util.DocumentUtils- Using OpenOffice dictionary: D:/openkm/es_es.oxt
2015-08-02 12:03:31,510 [pool-1-thread-1] INFO  com.openkm.util.DocumentUtils- Using OpenOffice dictionary: D:/openkm/es_es.oxt
2015-08-02 12:03:34,887 [pool-1-thread-2] INFO  com.openkm.util.DocumentUtils- Using OpenOffice dictionary: D:/openkm/es_es.oxt
2015-08-02 12:03:36,153 [pool-1-thread-3] INFO  com.openkm.util.DocumentUtils- Using OpenOffice dictionary: D:/openkm/es_es.oxt
2015-08-02 12:04:27,368 [http-bio-0.0.0.0-8080-exec-8] INFO  com.openkm.extractor.TextExtractorWorker- ### Awaiting for pool tasks termination... (0) ###
2015-08-02 12:05:00,016 [Thread-23] WARN  com.openkm.extractor.TextExtractorWorker- *** Text extraction already running ***
2015-08-02 12:05:27,369 [http-bio-0.0.0.0-8080-exec-8] INFO  com.openkm.extractor.TextExtractorWorker- ### Awaiting for pool tasks termination... (1) ###
¿Mas ideas?

bieli
Senior Boarder
Senior Boarder
Posts: 42
Joined: Thu Jan 22, 2015 9:03 am
Location: Zaragoza, Spain

Re: CPU continuamente a 50% de sus recursos

Post by bieli »

Parece que de vez en cuando esta con el "Text Extractor" revisando los ficheros y extrae texto, pero no sigue con el proceso pq los ficheros siguen en la cola de espera y sin desparecer:

Code: Select all

2015-08-02 12:29:00,863 [http-bio-0.0.0.0-8080-exec-8] INFO  com.openkm.extractor.TextExtractorWorker- ### Awaiting for pool tasks termination... (24) ###
2015-08-02 12:29:23,134 [pool-1-thread-4] DEBUG com.openkm.extractor.PdfTextExtractor- OCR Extracted: Condiciones Particulares Seguro -ZURICH HOGAR...
2015-08-02 12:29:23,136 [pool-1-thread-4] DEBUG com.openkm.extractor.PdfTextExtractor- Writing image: D:\openkm\tomcat\temp\img-Im3-4655373720787825484.png
2015-08-02 12:29:31,580 [pool-1-thread-4] INFO  com.openkm.util.DocumentUtils- Using OpenOffice dictionary: D:/openkm/es_es.oxt

jllort
Moderator
Moderator
Posts: 11240
Joined: Fri Dec 21, 2007 11:23 am
Location: Sineu - ( Illes Balears ) - Spain
Contact:

Re: CPU continuamente a 50% de sus recursos

Post by jllort »

Los procesos que consumen CPU cuales son ? el proceso de JAVA o hay algun que otro proceso que esta comiendo cpu a saco ?
Tienes algún antivirus en este servidor ?
Veo que también estas utilizando el diccionario de openoffice ( prueba temporalmente a deshabilitarlo ).

Nos puedes proporcionar alguno de estos ficheros pdf para probarlos con 2-3 nos bastaría ( si me los tienes que enviar en un privado, ya te doy mi dirección de mail ).

bieli
Senior Boarder
Senior Boarder
Posts: 42
Joined: Thu Jan 22, 2015 9:03 am
Location: Zaragoza, Spain

Re: CPU continuamente a 50% de sus recursos

Post by bieli »

Solucionado!!! He quitado el diccionario español y ya va como un tiro! jeje
Ahora esta trabajando todos los fichero y quitandolos poco a poco :D

¿Que pasa el diccionario esta roto o no lo puedo utilizar así? ¿Entonces, para que sirve si no funciona bien?

Muchísimas gracias por vuestra ayuda, pq por ahí nunca hubiera buscado!

Saludos,
Bieli

jllort
Moderator
Moderator
Posts: 11240
Joined: Fri Dec 21, 2007 11:23 am
Location: Sineu - ( Illes Balears ) - Spain
Contact:

Re: CPU continuamente a 50% de sus recursos

Post by jllort »

Cuando extraes palabras de un documento ( text extractor ) se le pasa el diccionario, para que únicamente se indexen palabras del diccionario. Es raro porque eso si que te tiene que funcionar, que parametro de configuracion tenías para el diccionario ?

bieli
Senior Boarder
Senior Boarder
Posts: 42
Joined: Thu Jan 22, 2015 9:03 am
Location: Zaragoza, Spain

Re: CPU continuamente a 50% de sus recursos

Post by bieli »

Parámetro de configuración era:

system.openoffice.dictionary D:/openkm/es_es.oxt

y lo ha cargado bien como hemos visto aquí:

Code: Select all

2015-08-02 12:03:30,708 [pool-1-thread-4] INFO  com.openkm.util.DocumentUtils- Using OpenOffice dictionary: D:/openkm/es_es.oxt
2015-08-02 12:03:31,510 [pool-1-thread-1] INFO  com.openkm.util.DocumentUtils- Using OpenOffice dictionary: D:/openkm/es_es.oxt
2015-08-02 12:03:34,887 [pool-1-thread-2] INFO  com.openkm.util.DocumentUtils- Using OpenOffice dictionary: D:/openkm/es_es.oxt
2015-08-02 12:03:36,153 [pool-1-thread-3] INFO  com.openkm.util.DocumentUtils- Using OpenOffice dictionary: D:/openkm/es_es.oxt
Pero aparentemente no ha funcionado bien.

jllort
Moderator
Moderator
Posts: 11240
Joined: Fri Dec 21, 2007 11:23 am
Location: Sineu - ( Illes Balears ) - Spain
Contact:

Re: CPU continuamente a 50% de sus recursos

Post by jllort »

En vez del oxt prueba con el .zip a ver si funciona mejor ( normalmente es el que nosotros utilizamos )

http://download.services.openoffice.org ... tionaries/

Post Reply