Open Source Document Management System | OpenKM

PostPosted:**Thu May 26, 2011 3:01 pm**

Buenas tardes, tengo dos dudas:

1 - He instalado el cuneiform en la versiñon 5.1.5, he activado en la administración el ocr en la ruta "c:\cuneiform" para que no contenga espacios, pero me da error al intentar pasar el ocr. Adjunto el log. El mensaje es:

Code: Select all

2011-05-26 16:50:45,647 WARN  [com.openkm.extractor.RegisteredExtractors] There was a problem extracting text from '/okm:root/SCRIPT MYSQL.TXT.tif'
2011-05-26 16:50:46,302 ERROR [org.apache.jackrabbit.webdav.simple.DavResourceImpl] Error while importing resource: java.io.IOException: okm:author
2011-05-26 16:50:46,411 WARN  [com.openkm.extractor.CuneiformTextExtractor] IO exception executing command: C:\CuneiForm C:\Users\u92142y\AppData\Local\Temp\okm698982797972058791.tif -o C:\Users\u92142y\AppData\Local\Temp\okm2362957977035704294.txt
java.io.IOException: Cannot run program "C:\CuneiForm": CreateProcess error=5, Acceso denegado
	at java.lang.ProcessBuilder.start(Unknown Source)

2 - En la versión 5.0.3 sin instalar un ocr, y cargando un pdf con texto este texto podía buscarlo directamente ebn el buscador, pero en la 5.1.5 no puedo buscarlo. Estoy seguro que alguna chorradita estoy haciendo mal, ¿podeis echarme un calbe?

Muchas gracias.

PostPosted:**Sun May 29, 2011 6:04 pm**

Si es un pdf que tiene el texto en background, esto se indexa directamente - debería - sin mayores problemas.
El problema parece que es de seguridad, con que usuario estas ejecutando la aplicación y mira a ver si con este mismo usuario desde la consola ( terminal ) puedes disparar el cuneiform contra un tif ... parece que tiene algun problema de privilegios ( igual para generar el fichero temporal o para ejecutar el cuneiform ).

PostPosted:**Mon May 30, 2011 10:16 am**

Buenos días, efectivamente el pdf que tiene texto se indexa y se busca sin problemas, pero me he dado cuenta que si en la configuración activaba system.pdf.force.ocr el sistema no me reconocía el texto de los pdf.¿Esto es así o es un error?

Por otro lado, en windows el ocr cuneiform o tesseract siempre realiza los procesos con rutas del Documents and Settings y esto pues da problemas como tu bien me dices por políticas de permisos. ¿Como se puede cambiar que realice los procesos en otra carpeta, por ejemplo C:\Temporales? Entiendo que es configuración en el Openkm, ¿verdad?

Gracias de antemano.

P.D.: Por cierto he realizado una traducción del idioma al español con los caracteres correctos y los acentos corregidos. Por si interesa a alguien.

Un saludo

PostPosted:**Mon May 30, 2011 10:26 am**

Además, me acabo de dar cuenta probando otros software de terceros que el antivirus no funciona tampoco por permisos.

La pregunta es, en openkm.cfg las líneas que he puesto son:

system.ocr=D:\CuneiForm
system.antivir=D:\ClamWin

¿Es correcto o es que hay que apuntar en concreto el ejecutable de cada aplicación?, es decir:

system.antivir=D:\ClamWin\bin\clamscan.exe

PostPosted:**Tue May 31, 2011 7:15 am**

1- Hay que apuntar el ejecutable.
2- Sobre donde se crean los temporales esto es una configuración del sistema operativo igual que el problema de que el usuario con el que estas ejecutando la aplicación no tenga privilegios para crear allí ficheros ( cosa que por defecto dudo mucho que fuese así cuando instalaste el SO ).
3- Sobre las mejoras en las traducciones en español si nos exportas el fichero lo intentaremos incluir en la siguiente release. Los idiomas estan todos disponibles en la wiki.openkm.com ( language packs )

PostPosted:**Thu Jun 02, 2011 8:48 am**

Buenos días, no consigo que tesseract ni cuneiform extraigan texto de un fichero tiff, siempre me sale el error:

Code: Select all

2011-06-02 10:01:23,984 WARN  [org.apache.jackrabbit.core.query.lucene.JackrabbitTextExtractor] Extractor class not found: com.openkm.extractor.TiffTextExtractor
java.lang.ClassNotFoundException: com.openkm.extractor.TiffTextExtractor

2011-06-02 10:03:28,812 WARN  [com.openkm.extractor.RegisteredExtractors] There was a problem extracting text from '/okm:root/Documentos Internos/200.tif'

¿Que estoy haciendo mal?

Por cierto, con Tesseract se apuntar al ejecutable, pero con cuneiform, ¿podeis decirmel el ejecutable cual es de los que existen?

Gracias

PostPosted:**Sun Jun 05, 2011 8:22 am**

En linux es /usr/bin/cuneiform directamente

Repecto a la classes tiff extractor parece que hay algun error, vamos por pasos ... has hecho alguna actualización en OpenKM ? o sea, has subido de versión ?
Si este es el caso indícame a que versión has subido, por que creo que vas a tener que tocar dos xml de la instalación, donde esta clase esta definida y probablemente este deprecada por otra.

PostPosted:**Sun Jun 05, 2011 8:13 pm**

Buenas noches, no he realizado ninguna actualización, simplemente he probado la última versión (5.1.5) y he modificado los ficheros necesarios para que funcione con mysql.

Puede que haya tocado erroneamente openkm-ds.xml o repository.xml?

PostPosted:**Thu Jun 09, 2011 9:28 am**

Buenos días, acabo de realizar una instalación totalmente nueva, configurándolo para mysql, formateando el ordenador incluso y me sigue dando el problema de extracción de datos de un tiff.

EN EL LOG DICE:

Code: Select all

2011-06-09 11:21:36,242 WARN  [org.apache.jackrabbit.core.query.lucene.JackrabbitTextExtractor] Extractor class not found: com.openkm.extractor.TiffTextExtractor
java.lang.ClassNotFoundException: com.openkm.extractor.TiffTextExtractor

2011-06-09 11:23:13,468 WARN  [com.openkm.extractor.RegisteredExtractors] There was a problem extracting text from '/okm:root/200.tif'

PostPosted:**Sun Jun 12, 2011 8:20 am**

El problema viene del repository.xml que el tiffextractor creo que es una clase deprecada en la 5.1.x ( si no recuerdo mal ), yo miraria el repository.xml que venia por defecto y si hay que hacer un cambio lo tienes que hacer en dos sitios ( con el jboss parado )

Code: Select all

repository.xml
repository/workspaces/default/workspace.xml

Open Source Document Management System | OpenKM

CUNEIFORM OCR & SEARCH

CUNEIFORM OCR & SEARCH

Re: CUNEIFORM OCR & SEARCH

Re: CUNEIFORM OCR & SEARCH

Re: CUNEIFORM OCR & SEARCH

Re: CUNEIFORM OCR & SEARCH

Re: CUNEIFORM OCR & SEARCH

Re: CUNEIFORM OCR & SEARCH

Re: CUNEIFORM OCR & SEARCH

Re: CUNEIFORM OCR & SEARCH

Re: CUNEIFORM OCR & SEARCH