Open Source Document Management System

Cuneiform OCR

Forum rules: Por favor, antes de preguntar algo consulta el wiki de documentación o utiliza la función de búsqueda del foro. Recuerda que no tenemos una bola de cristal ni poderes mentales, o sea que que para informar sobre un error es necesario que nos indiques tanto la versión de OpenKM que usas como la del navegador y sistema operativo. Para más información consulta Cómo informar de fallos de forma efectiva.

11 posts

11 posts

Cuneiform OCR

#19875 by muyprax
Mon Dec 17, 2012 3:54 pm

Hola que tal , me he descargado la versión 3.0.2 de cuneiform; he instalado la aplicación en la ruta C:\CuneiForm\ y le he dado el siguiente value en admin->config:

Code: Select all

system.ocr	String	 C:\CuneiForm\ ${fileIn} -o ${fileOut}

bueno y ahora...la verdad es que no tengo ni idea de como hacer funcionar este sistema, vi un video en la web oficial que trabajaba con abby y esta aplicación(que me parece q es pagada) generaba otra pestaña a la derecha de previsualización dónde se tenía la información de la imágen...¿podría alguien explicarme porfavor cómo hacer funcionar este interesantísimo sistema?

de antemano muchísimas gracias y disculpen las molestias.-

Username

muyprax

Rank

Junior Boarder

Posts

Joined

Thu Dec 13, 2012 8:44 pm

Re: Cuneiform OCR

#19878 by muyprax
Mon Dec 17, 2012 8:29 pm

Además según wiki , dice que tengo que configurar el archivo repository.xml para agregar :

Code: Select all

com.openkm.extractor.CuneiformTextExtractor

en el parámetro SearchIndex y no se si llevo tanto tiempo mirando la pantalla o me estoy volviendo loco pero simplemente no encuentro ese archivo repository.xml!!! :/

PD: Mi versión de OpenKM es 6.2.1 Comunnity

Username

muyprax

Rank

Junior Boarder

Posts

Joined

Thu Dec 13, 2012 8:44 pm

Re: Cuneiform OCR

#19888 by muyprax
Tue Dec 18, 2012 2:57 pm

Code: Select all

2012-12-18 11:02:36,193 [Text Extractor Worker] INFO  com.openkm.extractor.TextExtractorWorker - processSerial.Working on {docUuid=24c4c02f-b41e-4a4f-a640-1c0d2e2dd083, docPath=/okm:root/test/bbbbb.pdf, docVerUuid=9092b07d-8bc0-4a92-957b-d6c8de543263, date=Tue Dec 18 11:02:26 CLST 2012}
2012-12-18 11:02:36,303 [Text Extractor Worker] WARN  com.openkm.extractor.PdfTextExtractor - PDF does not contains text layer
2012-12-18 11:02:36,422 [Text Extractor Worker] WARN  com.openkm.extractor.CuneiformTextExtractor - IO exception executing command: C:\CuneiForm\ C:\openkm\tomcat\temp\image01256404896672461846.jpg -o C:\openkm\tomcat\temp\okm7055619376108720070.txt
java.io.IOException: Cannot run program "C:\CuneiForm\": CreateProcess error=5, Acceso denegado

adjunto la parte del error en catalina.log...claramente no puede crear el proceso y estoy como administrador , sencillamente no tengo ni idea de porqué.-

Ayuda porfavorr

Username

muyprax

Rank

Junior Boarder

Posts

Joined

Thu Dec 13, 2012 8:44 pm

Re: Cuneiform OCR

#19934 by jllort
Wed Dec 19, 2012 6:33 pm

El cuneiform yo no he conseguido hacerlo funcionar en windows, te recomiendo que utilices el tesseract. El repository.xml hace referencia a las version 5.1.x y anteriores a partir de la version 6.x y superiores solo es necesario modificar el parametro de configuración en la administración ( segunda pestaña por la izquierda ). Después del cambio reinicia el tomcat ( este es de los pocos parámetros que si no recuerdo mal necesitan necesita que se reinicie la aplicación porque se carga en el startup ).

Username

jllort

Rank

Moderator

Posts

12184

Joined

Fri Dec 21, 2007 11:23 am

Location

Sineu - ( Illes Balears ) - Spain

Contact

Re: Cuneiform OCR

#19942 by pavila
Wed Dec 19, 2012 7:22 pm

Sin duda estás mirando una página que contiene información obsoleta y debería ser actualizada. Me puedes indicar qué página del wiki estás mirando?

Username

pavila

Rank

Moderator

Posts

3145

Joined

Tue Dec 11, 2007 6:02 pm

Location

Alicante, Spain

Contact

Re: Cuneiform OCR

#19948 by muyprax
Wed Dec 19, 2012 8:46 pm

Gracias por contestar;
la página que estaba viendo era http://wiki.openkm.com/index.php/Third- ... ation:_OCR .

Entonces me bajo el Tesseract 3.x y le doy como parametro

Code: Select all

system.ocr = .../tesseract.exe ${fileIn} ${fileOut}   ??

y cuándo esto esté configurado como puedo probarlo? se desbloquea alguna opción o algo asi??

Muchas gracias por la ayuda

PD: ya tengo configurado el diccionario de OpenOffice!

Username

muyprax

Rank

Junior Boarder

Posts

Joined

Thu Dec 13, 2012 8:44 pm

Re: Cuneiform OCR

#19969 by jllort
Fri Dec 21, 2012 8:52 am

Cuando este configurado, simplemente sube una imagen para que te haga el ocr ( el tesseract trae alguna de ejemplo ) -> para comprobarlo realiza una búsqueda ( piensa que el proceso de indexación de pende de lo larga que sea tu cola de indexación ( administracion -> estadisticas -> cola de indexación ). Hasta que el fichero no haya pasado por la cola no se va a indexar.

Username

jllort

Rank

Moderator

Posts

12184

Joined

Fri Dec 21, 2007 11:23 am

Location

Sineu - ( Illes Balears ) - Spain

Contact

Re: Cuneiform OCR

#20035 by muyprax
Thu Dec 27, 2012 7:24 pm

Me aparece en la cola de indexación como "pendiente" , luego desaparece(al actualizar) y nunca aparece como "extracción en progreso"...y cuándo hago una búsqueda en alguna imágen no me toma absolutamente nada :/

Username

muyprax

Rank

Junior Boarder

Posts

Joined

Thu Dec 13, 2012 8:44 pm

Re: Cuneiform OCR

#20050 by jllort
Sat Dec 29, 2012 11:27 am

podrías probar la imagen desde el terminal ( ver que te extrae el tesseract, ejecutar el comando desde el terminal ) porque el problema igual es que la resolución etc... no le va bien.

Username

jllort

Rank

Moderator

Posts

12184

Joined

Fri Dec 21, 2007 11:23 am

Location

Sineu - ( Illes Balears ) - Spain

Contact

Re: Cuneiform OCR

#20079 by muyprax
Mon Dec 31, 2012 12:29 pm

La verdad es que ya había probado desde el terminal y funciona perfecto, pero desde el servidor si le hago búsqueda desde la pestaña "Previsualización" no reconoce absolutamente nada y desde la pestaña "Búsqueda", por texto libre, tampoco lo hace :/

Username

muyprax

Rank

Junior Boarder

Posts

Joined

Thu Dec 13, 2012 8:44 pm

Re: Cuneiform OCR

#20551 by jllort
Tue Jan 01, 2013 6:10 pm

Ve a Administracion / Database query -> jdbc y ejecuta la select

Code: Select all

SELECT * FROM OKM_NODE_DOCUMENT;

fíjate que hay un campo NDC_TEXT donde está el texto extraído.

Otra cosa que me gustaría que mirases es en administración -> stats -> text extraction queue (para comprobar que se ha intentado extraer todo el testo )

Para hacer un test lo ideal seria asegurarse que la cola esta vacía, subir el fichero y mirar en el server.log a ver si aparece algún error.

Por lo que entiendo en los registered.text.extractors tienes com.openkm.extractor.CuneiformTextExtractor no ?

Username

jllort

Rank

Moderator

Posts

12184

Joined

Fri Dec 21, 2007 11:23 am

Location

Sineu - ( Illes Balears ) - Spain

Contact

Page 1 of 1
11 posts

Return to “Configuración”

Display:

Sort by:

Jump to: