Page 1 of 1

Cuneiform OCR

PostPosted:Mon Dec 17, 2012 3:54 pm
by muyprax
Hola que tal , me he descargado la versión 3.0.2 de cuneiform; he instalado la aplicación en la ruta C:\CuneiForm\ y le he dado el siguiente value en admin->config:
Code: Select all
system.ocr	String	 C:\CuneiForm\ ${fileIn} -o ${fileOut}
bueno y ahora...la verdad es que no tengo ni idea de como hacer funcionar este sistema, vi un video en la web oficial que trabajaba con abby y esta aplicación(que me parece q es pagada) generaba otra pestaña a la derecha de previsualización dónde se tenía la información de la imágen...¿podría alguien explicarme porfavor cómo hacer funcionar este interesantísimo sistema? :)

de antemano muchísimas gracias y disculpen las molestias.-

Re: Cuneiform OCR

PostPosted:Mon Dec 17, 2012 8:29 pm
by muyprax
Además según wiki , dice que tengo que configurar el archivo repository.xml para agregar :
Code: Select all
com.openkm.extractor.CuneiformTextExtractor
en el parámetro SearchIndex y no se si llevo tanto tiempo mirando la pantalla o me estoy volviendo loco pero simplemente no encuentro ese archivo repository.xml!!! :/

PD: Mi versión de OpenKM es 6.2.1 Comunnity

Re: Cuneiform OCR

PostPosted:Tue Dec 18, 2012 2:57 pm
by muyprax
Code: Select all
2012-12-18 11:02:36,193 [Text Extractor Worker] INFO  com.openkm.extractor.TextExtractorWorker - processSerial.Working on {docUuid=24c4c02f-b41e-4a4f-a640-1c0d2e2dd083, docPath=/okm:root/test/bbbbb.pdf, docVerUuid=9092b07d-8bc0-4a92-957b-d6c8de543263, date=Tue Dec 18 11:02:26 CLST 2012}
2012-12-18 11:02:36,303 [Text Extractor Worker] WARN  com.openkm.extractor.PdfTextExtractor - PDF does not contains text layer
2012-12-18 11:02:36,422 [Text Extractor Worker] WARN  com.openkm.extractor.CuneiformTextExtractor - IO exception executing command: C:\CuneiForm\ C:\openkm\tomcat\temp\image01256404896672461846.jpg -o C:\openkm\tomcat\temp\okm7055619376108720070.txt
java.io.IOException: Cannot run program "C:\CuneiForm\": CreateProcess error=5, Acceso denegado
adjunto la parte del error en catalina.log...claramente no puede crear el proceso y estoy como administrador , sencillamente no tengo ni idea de porqué.-

Ayuda porfavorr :(

Re: Cuneiform OCR

PostPosted:Wed Dec 19, 2012 6:33 pm
by jllort
El cuneiform yo no he conseguido hacerlo funcionar en windows, te recomiendo que utilices el tesseract. El repository.xml hace referencia a las version 5.1.x y anteriores a partir de la version 6.x y superiores solo es necesario modificar el parametro de configuración en la administración ( segunda pestaña por la izquierda ). Después del cambio reinicia el tomcat ( este es de los pocos parámetros que si no recuerdo mal necesitan necesita que se reinicie la aplicación porque se carga en el startup ).

Re: Cuneiform OCR

PostPosted:Wed Dec 19, 2012 7:22 pm
by pavila
Sin duda estás mirando una página que contiene información obsoleta y debería ser actualizada. Me puedes indicar qué página del wiki estás mirando?

Re: Cuneiform OCR

PostPosted:Wed Dec 19, 2012 8:46 pm
by muyprax
Gracias por contestar;
la página que estaba viendo era http://wiki.openkm.com/index.php/Third- ... ation:_OCR .

Entonces me bajo el Tesseract 3.x y le doy como parametro
Code: Select all
system.ocr = .../tesseract.exe ${fileIn} ${fileOut}   ??
y cuándo esto esté configurado como puedo probarlo? se desbloquea alguna opción o algo asi??

Muchas gracias por la ayuda :D

PD: ya tengo configurado el diccionario de OpenOffice!

Re: Cuneiform OCR

PostPosted:Fri Dec 21, 2012 8:52 am
by jllort
Cuando este configurado, simplemente sube una imagen para que te haga el ocr ( el tesseract trae alguna de ejemplo ) -> para comprobarlo realiza una búsqueda ( piensa que el proceso de indexación de pende de lo larga que sea tu cola de indexación ( administracion -> estadisticas -> cola de indexación ). Hasta que el fichero no haya pasado por la cola no se va a indexar.

Re: Cuneiform OCR

PostPosted:Thu Dec 27, 2012 7:24 pm
by muyprax
Me aparece en la cola de indexación como "pendiente" , luego desaparece(al actualizar) y nunca aparece como "extracción en progreso"...y cuándo hago una búsqueda en alguna imágen no me toma absolutamente nada :/

Re: Cuneiform OCR

PostPosted:Sat Dec 29, 2012 11:27 am
by jllort
podrías probar la imagen desde el terminal ( ver que te extrae el tesseract, ejecutar el comando desde el terminal ) porque el problema igual es que la resolución etc... no le va bien.

Re: Cuneiform OCR

PostPosted:Mon Dec 31, 2012 12:29 pm
by muyprax
La verdad es que ya había probado desde el terminal y funciona perfecto, pero desde el servidor si le hago búsqueda desde la pestaña "Previsualización" no reconoce absolutamente nada y desde la pestaña "Búsqueda", por texto libre, tampoco lo hace :/

Re: Cuneiform OCR

PostPosted:Tue Jan 01, 2013 6:10 pm
by jllort
Ve a Administracion / Database query -> jdbc y ejecuta la select
Code: Select all
SELECT * FROM OKM_NODE_DOCUMENT;
fíjate que hay un campo NDC_TEXT donde está el texto extraído.

Otra cosa que me gustaría que mirases es en administración -> stats -> text extraction queue (para comprobar que se ha intentado extraer todo el testo )

Para hacer un test lo ideal seria asegurarse que la cola esta vacía, subir el fichero y mirar en el server.log a ver si aparece algún error.

Por lo que entiendo en los registered.text.extractors tienes com.openkm.extractor.CuneiformTextExtractor no ?