• CUNEIFORM OCR & SEARCH

  • OpenKM tiene muchas características interesantes, pero es necesario un proceso de configuración para mostrar todo su potencial.
OpenKM tiene muchas características interesantes, pero es necesario un proceso de configuración para mostrar todo su potencial.
Forum rules: Por favor, antes de preguntar algo consulta el wiki de documentación o utiliza la función de búsqueda del foro. Recuerda que no tenemos una bola de cristal ni poderes mentales, o sea que que para informar sobre un error es necesario que nos indiques tanto la versión de OpenKM que usas como la del navegador y sistema operativo. Para más información consulta Cómo informar de fallos de forma efectiva.
 #11135  by acaballero
 
Buenas tardes, tengo dos dudas:

1 - He instalado el cuneiform en la versiñon 5.1.5, he activado en la administración el ocr en la ruta "c:\cuneiform" para que no contenga espacios, pero me da error al intentar pasar el ocr. Adjunto el log. El mensaje es:
Code: Select all
2011-05-26 16:50:45,647 WARN  [com.openkm.extractor.RegisteredExtractors] There was a problem extracting text from '/okm:root/SCRIPT MYSQL.TXT.tif'
2011-05-26 16:50:46,302 ERROR [org.apache.jackrabbit.webdav.simple.DavResourceImpl] Error while importing resource: java.io.IOException: okm:author
2011-05-26 16:50:46,411 WARN  [com.openkm.extractor.CuneiformTextExtractor] IO exception executing command: C:\CuneiForm C:\Users\u92142y\AppData\Local\Temp\okm698982797972058791.tif -o C:\Users\u92142y\AppData\Local\Temp\okm2362957977035704294.txt
java.io.IOException: Cannot run program "C:\CuneiForm": CreateProcess error=5, Acceso denegado
	at java.lang.ProcessBuilder.start(Unknown Source)
2 - En la versión 5.0.3 sin instalar un ocr, y cargando un pdf con texto este texto podía buscarlo directamente ebn el buscador, pero en la 5.1.5 no puedo buscarlo. Estoy seguro que alguna chorradita estoy haciendo mal, ¿podeis echarme un calbe?

Muchas gracias.
Attachments
(79.32 KiB) Downloaded 512 times
 #11155  by jllort
 
Si es un pdf que tiene el texto en background, esto se indexa directamente - debería - sin mayores problemas.
El problema parece que es de seguridad, con que usuario estas ejecutando la aplicación y mira a ver si con este mismo usuario desde la consola ( terminal ) puedes disparar el cuneiform contra un tif ... parece que tiene algun problema de privilegios ( igual para generar el fichero temporal o para ejecutar el cuneiform ).
 #11162  by acaballero
 
Buenos días, efectivamente el pdf que tiene texto se indexa y se busca sin problemas, pero me he dado cuenta que si en la configuración activaba system.pdf.force.ocr el sistema no me reconocía el texto de los pdf.¿Esto es así o es un error?

Por otro lado, en windows el ocr cuneiform o tesseract siempre realiza los procesos con rutas del Documents and Settings y esto pues da problemas como tu bien me dices por políticas de permisos. ¿Como se puede cambiar que realice los procesos en otra carpeta, por ejemplo C:\Temporales? Entiendo que es configuración en el Openkm, ¿verdad?

Gracias de antemano.

P.D.: Por cierto he realizado una traducción del idioma al español con los caracteres correctos y los acentos corregidos. Por si interesa a alguien.

Un saludo
 #11164  by acaballero
 
Además, me acabo de dar cuenta probando otros software de terceros que el antivirus no funciona tampoco por permisos.

La pregunta es, en openkm.cfg las líneas que he puesto son:

system.ocr=D:\CuneiForm
system.antivir=D:\ClamWin

¿Es correcto o es que hay que apuntar en concreto el ejecutable de cada aplicación?, es decir:

system.antivir=D:\ClamWin\bin\clamscan.exe
 #11180  by jllort
 
1- Hay que apuntar el ejecutable.
2- Sobre donde se crean los temporales esto es una configuración del sistema operativo igual que el problema de que el usuario con el que estas ejecutando la aplicación no tenga privilegios para crear allí ficheros ( cosa que por defecto dudo mucho que fuese así cuando instalaste el SO ).
3- Sobre las mejoras en las traducciones en español si nos exportas el fichero lo intentaremos incluir en la siguiente release. Los idiomas estan todos disponibles en la wiki.openkm.com ( language packs )
 #11190  by acaballero
 
Buenos días, no consigo que tesseract ni cuneiform extraigan texto de un fichero tiff, siempre me sale el error:
Code: Select all
2011-06-02 10:01:23,984 WARN  [org.apache.jackrabbit.core.query.lucene.JackrabbitTextExtractor] Extractor class not found: com.openkm.extractor.TiffTextExtractor
java.lang.ClassNotFoundException: com.openkm.extractor.TiffTextExtractor

2011-06-02 10:03:28,812 WARN  [com.openkm.extractor.RegisteredExtractors] There was a problem extracting text from '/okm:root/Documentos Internos/200.tif'
¿Que estoy haciendo mal?

Por cierto, con Tesseract se apuntar al ejecutable, pero con cuneiform, ¿podeis decirmel el ejecutable cual es de los que existen?

Gracias
 #11210  by jllort
 
En linux es /usr/bin/cuneiform directamente

Repecto a la classes tiff extractor parece que hay algun error, vamos por pasos ... has hecho alguna actualización en OpenKM ? o sea, has subido de versión ?
Si este es el caso indícame a que versión has subido, por que creo que vas a tener que tocar dos xml de la instalación, donde esta clase esta definida y probablemente este deprecada por otra.
 #11220  by acaballero
 
Buenas noches, no he realizado ninguna actualización, simplemente he probado la última versión (5.1.5) y he modificado los ficheros necesarios para que funcione con mysql.

Puede que haya tocado erroneamente openkm-ds.xml o repository.xml?
 #11252  by acaballero
 
Buenos días, acabo de realizar una instalación totalmente nueva, configurándolo para mysql, formateando el ordenador incluso y me sigue dando el problema de extracción de datos de un tiff.

EN EL LOG DICE:
Code: Select all
2011-06-09 11:21:36,242 WARN  [org.apache.jackrabbit.core.query.lucene.JackrabbitTextExtractor] Extractor class not found: com.openkm.extractor.TiffTextExtractor
java.lang.ClassNotFoundException: com.openkm.extractor.TiffTextExtractor

2011-06-09 11:23:13,468 WARN  [com.openkm.extractor.RegisteredExtractors] There was a problem extracting text from '/okm:root/200.tif'
 #11287  by jllort
 
El problema viene del repository.xml que el tiffextractor creo que es una clase deprecada en la 5.1.x ( si no recuerdo mal ), yo miraria el repository.xml que venia por defecto y si hay que hacer un cambio lo tienes que hacer en dos sitios ( con el jboss parado )
Code: Select all
repository.xml
repository/workspaces/default/workspace.xml

About Us

OpenKM is part of the management software. A management software is a program that facilitates the accomplishment of administrative tasks. OpenKM is a document management system that allows you to manage business content and workflow in a more efficient way. Document managers guarantee data protection by establishing information security for business content.