Page 1 of 1
CUNEIFORM OCR & SEARCH
PostPosted:Thu May 26, 2011 3:01 pm
by acaballero
Buenas tardes, tengo dos dudas:
1 - He instalado el cuneiform en la versiñon 5.1.5, he activado en la administración el ocr en la ruta "c:\cuneiform" para que no contenga espacios, pero me da error al intentar pasar el ocr. Adjunto el log. El mensaje es:
Code: Select all2011-05-26 16:50:45,647 WARN [com.openkm.extractor.RegisteredExtractors] There was a problem extracting text from '/okm:root/SCRIPT MYSQL.TXT.tif'
2011-05-26 16:50:46,302 ERROR [org.apache.jackrabbit.webdav.simple.DavResourceImpl] Error while importing resource: java.io.IOException: okm:author
2011-05-26 16:50:46,411 WARN [com.openkm.extractor.CuneiformTextExtractor] IO exception executing command: C:\CuneiForm C:\Users\u92142y\AppData\Local\Temp\okm698982797972058791.tif -o C:\Users\u92142y\AppData\Local\Temp\okm2362957977035704294.txt
java.io.IOException: Cannot run program "C:\CuneiForm": CreateProcess error=5, Acceso denegado
at java.lang.ProcessBuilder.start(Unknown Source)
2 - En la versión 5.0.3 sin instalar un ocr, y cargando un pdf con texto este texto podía buscarlo directamente ebn el buscador, pero en la 5.1.5 no puedo buscarlo. Estoy seguro que alguna chorradita estoy haciendo mal, ¿podeis echarme un calbe?
Muchas gracias.
Re: CUNEIFORM OCR & SEARCH
PostPosted:Sun May 29, 2011 6:04 pm
by jllort
Si es un pdf que tiene el texto en background, esto se indexa directamente - debería - sin mayores problemas.
El problema parece que es de seguridad, con que usuario estas ejecutando la aplicación y mira a ver si con este mismo usuario desde la consola ( terminal ) puedes disparar el cuneiform contra un tif ... parece que tiene algun problema de privilegios ( igual para generar el fichero temporal o para ejecutar el cuneiform ).
Re: CUNEIFORM OCR & SEARCH
PostPosted:Mon May 30, 2011 10:16 am
by acaballero
Buenos días, efectivamente el pdf que tiene texto se indexa y se busca sin problemas, pero me he dado cuenta que si en la configuración activaba system.pdf.force.ocr el sistema no me reconocía el texto de los pdf.¿Esto es así o es un error?
Por otro lado, en windows el ocr cuneiform o tesseract siempre realiza los procesos con rutas del Documents and Settings y esto pues da problemas como tu bien me dices por políticas de permisos. ¿Como se puede cambiar que realice los procesos en otra carpeta, por ejemplo C:\Temporales? Entiendo que es configuración en el Openkm, ¿verdad?
Gracias de antemano.
P.D.: Por cierto he realizado una traducción del idioma al español con los caracteres correctos y los acentos corregidos. Por si interesa a alguien.
Un saludo
Re: CUNEIFORM OCR & SEARCH
PostPosted:Mon May 30, 2011 10:26 am
by acaballero
Además, me acabo de dar cuenta probando otros software de terceros que el antivirus no funciona tampoco por permisos.
La pregunta es, en openkm.cfg las líneas que he puesto son:
system.ocr=D:\CuneiForm
system.antivir=D:\ClamWin
¿Es correcto o es que hay que apuntar en concreto el ejecutable de cada aplicación?, es decir:
system.antivir=D:\ClamWin\bin\clamscan.exe
Re: CUNEIFORM OCR & SEARCH
PostPosted:Tue May 31, 2011 7:15 am
by jllort
1- Hay que apuntar el ejecutable.
2- Sobre donde se crean los temporales esto es una configuración del sistema operativo igual que el problema de que el usuario con el que estas ejecutando la aplicación no tenga privilegios para crear allí ficheros ( cosa que por defecto dudo mucho que fuese así cuando instalaste el SO ).
3- Sobre las mejoras en las traducciones en español si nos exportas el fichero lo intentaremos incluir en la siguiente release. Los idiomas estan todos disponibles en la wiki.openkm.com ( language packs )
Re: CUNEIFORM OCR & SEARCH
PostPosted:Thu Jun 02, 2011 8:48 am
by acaballero
Buenos días, no consigo que tesseract ni cuneiform extraigan texto de un fichero tiff, siempre me sale el error:
Code: Select all2011-06-02 10:01:23,984 WARN [org.apache.jackrabbit.core.query.lucene.JackrabbitTextExtractor] Extractor class not found: com.openkm.extractor.TiffTextExtractor
java.lang.ClassNotFoundException: com.openkm.extractor.TiffTextExtractor
2011-06-02 10:03:28,812 WARN [com.openkm.extractor.RegisteredExtractors] There was a problem extracting text from '/okm:root/Documentos Internos/200.tif'
¿Que estoy haciendo mal?
Por cierto, con Tesseract se apuntar al ejecutable, pero con cuneiform, ¿podeis decirmel el ejecutable cual es de los que existen?
Gracias
Re: CUNEIFORM OCR & SEARCH
PostPosted:Sun Jun 05, 2011 8:22 am
by jllort
En linux es /usr/bin/cuneiform directamente
Repecto a la classes tiff extractor parece que hay algun error, vamos por pasos ... has hecho alguna actualización en OpenKM ? o sea, has subido de versión ?
Si este es el caso indícame a que versión has subido, por que creo que vas a tener que tocar dos xml de la instalación, donde esta clase esta definida y probablemente este deprecada por otra.
Re: CUNEIFORM OCR & SEARCH
PostPosted:Sun Jun 05, 2011 8:13 pm
by acaballero
Buenas noches, no he realizado ninguna actualización, simplemente he probado la última versión (5.1.5) y he modificado los ficheros necesarios para que funcione con mysql.
Puede que haya tocado erroneamente openkm-ds.xml o repository.xml?
Re: CUNEIFORM OCR & SEARCH
PostPosted:Thu Jun 09, 2011 9:28 am
by acaballero
Buenos días, acabo de realizar una instalación totalmente nueva, configurándolo para mysql, formateando el ordenador incluso y me sigue dando el problema de extracción de datos de un tiff.
EN EL LOG DICE:
Code: Select all2011-06-09 11:21:36,242 WARN [org.apache.jackrabbit.core.query.lucene.JackrabbitTextExtractor] Extractor class not found: com.openkm.extractor.TiffTextExtractor
java.lang.ClassNotFoundException: com.openkm.extractor.TiffTextExtractor
2011-06-09 11:23:13,468 WARN [com.openkm.extractor.RegisteredExtractors] There was a problem extracting text from '/okm:root/200.tif'
Re: CUNEIFORM OCR & SEARCH
PostPosted:Sun Jun 12, 2011 8:20 am
by jllort
El problema viene del repository.xml que el tiffextractor creo que es una clase deprecada en la 5.1.x ( si no recuerdo mal ), yo miraria el repository.xml que venia por defecto y si hay que hacer un cambio lo tienes que hacer en dos sitios ( con el jboss parado )
Code: Select allrepository.xml
repository/workspaces/default/workspace.xml