Open Source Document Management System | OpenKM

CUNEIFORM OCR & SEARCH

Forum rules: Por favor, antes de preguntar algo consulta el wiki de documentación o utiliza la función de búsqueda del foro. Recuerda que no tenemos una bola de cristal ni poderes mentales, o sea que que para informar sobre un error es necesario que nos indiques tanto la versión de OpenKM que usas como la del navegador y sistema operativo. Para más información consulta Cómo informar de fallos de forma efectiva.

10 posts

10 posts

CUNEIFORM OCR & SEARCH

#11135 by acaballero
Thu May 26, 2011 3:01 pm

Buenas tardes, tengo dos dudas:

1 - He instalado el cuneiform en la versiñon 5.1.5, he activado en la administración el ocr en la ruta "c:\cuneiform" para que no contenga espacios, pero me da error al intentar pasar el ocr. Adjunto el log. El mensaje es:

Code: Select all

2011-05-26 16:50:45,647 WARN  [com.openkm.extractor.RegisteredExtractors] There was a problem extracting text from '/okm:root/SCRIPT MYSQL.TXT.tif'
2011-05-26 16:50:46,302 ERROR [org.apache.jackrabbit.webdav.simple.DavResourceImpl] Error while importing resource: java.io.IOException: okm:author
2011-05-26 16:50:46,411 WARN  [com.openkm.extractor.CuneiformTextExtractor] IO exception executing command: C:\CuneiForm C:\Users\u92142y\AppData\Local\Temp\okm698982797972058791.tif -o C:\Users\u92142y\AppData\Local\Temp\okm2362957977035704294.txt
java.io.IOException: Cannot run program "C:\CuneiForm": CreateProcess error=5, Acceso denegado
	at java.lang.ProcessBuilder.start(Unknown Source)

2 - En la versión 5.0.3 sin instalar un ocr, y cargando un pdf con texto este texto podía buscarlo directamente ebn el buscador, pero en la 5.1.5 no puedo buscarlo. Estoy seguro que alguna chorradita estoy haciendo mal, ¿podeis echarme un calbe?

Muchas gracias.

Attachments

server.rar

(79.32 KiB) Downloaded 611 times

Username

acaballero

Rank

Senior Boarder

Posts

Joined

Tue Mar 22, 2011 7:30 am

Re: CUNEIFORM OCR & SEARCH

#11155 by jllort
Sun May 29, 2011 6:04 pm

Si es un pdf que tiene el texto en background, esto se indexa directamente - debería - sin mayores problemas.
El problema parece que es de seguridad, con que usuario estas ejecutando la aplicación y mira a ver si con este mismo usuario desde la consola ( terminal ) puedes disparar el cuneiform contra un tif ... parece que tiene algun problema de privilegios ( igual para generar el fichero temporal o para ejecutar el cuneiform ).

Username

jllort

Rank

Moderator

Posts

12184

Joined

Fri Dec 21, 2007 11:23 am

Location

Sineu - ( Illes Balears ) - Spain

Contact

Re: CUNEIFORM OCR & SEARCH

#11162 by acaballero
Mon May 30, 2011 10:16 am

Buenos días, efectivamente el pdf que tiene texto se indexa y se busca sin problemas, pero me he dado cuenta que si en la configuración activaba system.pdf.force.ocr el sistema no me reconocía el texto de los pdf.¿Esto es así o es un error?

Por otro lado, en windows el ocr cuneiform o tesseract siempre realiza los procesos con rutas del Documents and Settings y esto pues da problemas como tu bien me dices por políticas de permisos. ¿Como se puede cambiar que realice los procesos en otra carpeta, por ejemplo C:\Temporales? Entiendo que es configuración en el Openkm, ¿verdad?

Gracias de antemano.

P.D.: Por cierto he realizado una traducción del idioma al español con los caracteres correctos y los acentos corregidos. Por si interesa a alguien.

Un saludo

Username

acaballero

Rank

Senior Boarder

Posts

Joined

Tue Mar 22, 2011 7:30 am

Re: CUNEIFORM OCR & SEARCH

#11164 by acaballero
Mon May 30, 2011 10:26 am

Además, me acabo de dar cuenta probando otros software de terceros que el antivirus no funciona tampoco por permisos.

La pregunta es, en openkm.cfg las líneas que he puesto son:

system.ocr=D:\CuneiForm
system.antivir=D:\ClamWin

¿Es correcto o es que hay que apuntar en concreto el ejecutable de cada aplicación?, es decir:

system.antivir=D:\ClamWin\bin\clamscan.exe

Username

acaballero

Rank

Senior Boarder

Posts

Joined

Tue Mar 22, 2011 7:30 am

Re: CUNEIFORM OCR & SEARCH

#11180 by jllort
Tue May 31, 2011 7:15 am

1- Hay que apuntar el ejecutable.
2- Sobre donde se crean los temporales esto es una configuración del sistema operativo igual que el problema de que el usuario con el que estas ejecutando la aplicación no tenga privilegios para crear allí ficheros ( cosa que por defecto dudo mucho que fuese así cuando instalaste el SO ).
3- Sobre las mejoras en las traducciones en español si nos exportas el fichero lo intentaremos incluir en la siguiente release. Los idiomas estan todos disponibles en la wiki.openkm.com ( language packs )

Username

jllort

Rank

Moderator

Posts

12184

Joined

Fri Dec 21, 2007 11:23 am

Location

Sineu - ( Illes Balears ) - Spain

Contact

Re: CUNEIFORM OCR & SEARCH

#11190 by acaballero
Thu Jun 02, 2011 8:48 am

Buenos días, no consigo que tesseract ni cuneiform extraigan texto de un fichero tiff, siempre me sale el error:

Code: Select all

2011-06-02 10:01:23,984 WARN  [org.apache.jackrabbit.core.query.lucene.JackrabbitTextExtractor] Extractor class not found: com.openkm.extractor.TiffTextExtractor
java.lang.ClassNotFoundException: com.openkm.extractor.TiffTextExtractor

2011-06-02 10:03:28,812 WARN  [com.openkm.extractor.RegisteredExtractors] There was a problem extracting text from '/okm:root/Documentos Internos/200.tif'

¿Que estoy haciendo mal?

Por cierto, con Tesseract se apuntar al ejecutable, pero con cuneiform, ¿podeis decirmel el ejecutable cual es de los que existen?

Gracias

Username

acaballero

Rank

Senior Boarder

Posts

Joined

Tue Mar 22, 2011 7:30 am

Re: CUNEIFORM OCR & SEARCH

#11210 by jllort
Sun Jun 05, 2011 8:22 am

En linux es /usr/bin/cuneiform directamente

Repecto a la classes tiff extractor parece que hay algun error, vamos por pasos ... has hecho alguna actualización en OpenKM ? o sea, has subido de versión ?
Si este es el caso indícame a que versión has subido, por que creo que vas a tener que tocar dos xml de la instalación, donde esta clase esta definida y probablemente este deprecada por otra.

Username

jllort

Rank

Moderator

Posts

12184

Joined

Fri Dec 21, 2007 11:23 am

Location

Sineu - ( Illes Balears ) - Spain

Contact

Re: CUNEIFORM OCR & SEARCH

#11220 by acaballero
Sun Jun 05, 2011 8:13 pm

Buenas noches, no he realizado ninguna actualización, simplemente he probado la última versión (5.1.5) y he modificado los ficheros necesarios para que funcione con mysql.

Puede que haya tocado erroneamente openkm-ds.xml o repository.xml?

Username

acaballero

Rank

Senior Boarder

Posts

Joined

Tue Mar 22, 2011 7:30 am

Re: CUNEIFORM OCR & SEARCH

#11252 by acaballero
Thu Jun 09, 2011 9:28 am

Buenos días, acabo de realizar una instalación totalmente nueva, configurándolo para mysql, formateando el ordenador incluso y me sigue dando el problema de extracción de datos de un tiff.

EN EL LOG DICE:

Code: Select all

2011-06-09 11:21:36,242 WARN  [org.apache.jackrabbit.core.query.lucene.JackrabbitTextExtractor] Extractor class not found: com.openkm.extractor.TiffTextExtractor
java.lang.ClassNotFoundException: com.openkm.extractor.TiffTextExtractor

2011-06-09 11:23:13,468 WARN  [com.openkm.extractor.RegisteredExtractors] There was a problem extracting text from '/okm:root/200.tif'

Username

acaballero

Rank

Senior Boarder

Posts

Joined

Tue Mar 22, 2011 7:30 am

Re: CUNEIFORM OCR & SEARCH

#11287 by jllort
Sun Jun 12, 2011 8:20 am

El problema viene del repository.xml que el tiffextractor creo que es una clase deprecada en la 5.1.x ( si no recuerdo mal ), yo miraria el repository.xml que venia por defecto y si hay que hacer un cambio lo tienes que hacer en dos sitios ( con el jboss parado )

Code: Select all

repository.xml
repository/workspaces/default/workspace.xml

Username

jllort

Rank

Moderator

Posts

12184

Joined

Fri Dec 21, 2007 11:23 am

Location

Sineu - ( Illes Balears ) - Spain

Contact

Page 1 of 1
10 posts

Return to “Configuración”

Display:

Sort by:

Jump to: