• Cuneiform OCR

  • OpenKM tiene muchas características interesantes, pero es necesario un proceso de configuración para mostrar todo su potencial.
OpenKM tiene muchas características interesantes, pero es necesario un proceso de configuración para mostrar todo su potencial.
Forum rules: Por favor, antes de preguntar algo consulta el wiki de documentación o utiliza la función de búsqueda del foro. Recuerda que no tenemos una bola de cristal ni poderes mentales, o sea que que para informar sobre un error es necesario que nos indiques tanto la versión de OpenKM que usas como la del navegador y sistema operativo. Para más información consulta Cómo informar de fallos de forma efectiva.
 #19875  by muyprax
 
Hola que tal , me he descargado la versión 3.0.2 de cuneiform; he instalado la aplicación en la ruta C:\CuneiForm\ y le he dado el siguiente value en admin->config:
Code: Select all
system.ocr	String	 C:\CuneiForm\ ${fileIn} -o ${fileOut}
bueno y ahora...la verdad es que no tengo ni idea de como hacer funcionar este sistema, vi un video en la web oficial que trabajaba con abby y esta aplicación(que me parece q es pagada) generaba otra pestaña a la derecha de previsualización dónde se tenía la información de la imágen...¿podría alguien explicarme porfavor cómo hacer funcionar este interesantísimo sistema? :)

de antemano muchísimas gracias y disculpen las molestias.-
 #19878  by muyprax
 
Además según wiki , dice que tengo que configurar el archivo repository.xml para agregar :
Code: Select all
com.openkm.extractor.CuneiformTextExtractor
en el parámetro SearchIndex y no se si llevo tanto tiempo mirando la pantalla o me estoy volviendo loco pero simplemente no encuentro ese archivo repository.xml!!! :/

PD: Mi versión de OpenKM es 6.2.1 Comunnity
 #19888  by muyprax
 
Code: Select all
2012-12-18 11:02:36,193 [Text Extractor Worker] INFO  com.openkm.extractor.TextExtractorWorker - processSerial.Working on {docUuid=24c4c02f-b41e-4a4f-a640-1c0d2e2dd083, docPath=/okm:root/test/bbbbb.pdf, docVerUuid=9092b07d-8bc0-4a92-957b-d6c8de543263, date=Tue Dec 18 11:02:26 CLST 2012}
2012-12-18 11:02:36,303 [Text Extractor Worker] WARN  com.openkm.extractor.PdfTextExtractor - PDF does not contains text layer
2012-12-18 11:02:36,422 [Text Extractor Worker] WARN  com.openkm.extractor.CuneiformTextExtractor - IO exception executing command: C:\CuneiForm\ C:\openkm\tomcat\temp\image01256404896672461846.jpg -o C:\openkm\tomcat\temp\okm7055619376108720070.txt
java.io.IOException: Cannot run program "C:\CuneiForm\": CreateProcess error=5, Acceso denegado
adjunto la parte del error en catalina.log...claramente no puede crear el proceso y estoy como administrador , sencillamente no tengo ni idea de porqué.-

Ayuda porfavorr :(
 #19934  by jllort
 
El cuneiform yo no he conseguido hacerlo funcionar en windows, te recomiendo que utilices el tesseract. El repository.xml hace referencia a las version 5.1.x y anteriores a partir de la version 6.x y superiores solo es necesario modificar el parametro de configuración en la administración ( segunda pestaña por la izquierda ). Después del cambio reinicia el tomcat ( este es de los pocos parámetros que si no recuerdo mal necesitan necesita que se reinicie la aplicación porque se carga en el startup ).
 #19942  by pavila
 
Sin duda estás mirando una página que contiene información obsoleta y debería ser actualizada. Me puedes indicar qué página del wiki estás mirando?
 #19948  by muyprax
 
Gracias por contestar;
la página que estaba viendo era http://wiki.openkm.com/index.php/Third- ... ation:_OCR .

Entonces me bajo el Tesseract 3.x y le doy como parametro
Code: Select all
system.ocr = .../tesseract.exe ${fileIn} ${fileOut}   ??
y cuándo esto esté configurado como puedo probarlo? se desbloquea alguna opción o algo asi??

Muchas gracias por la ayuda :D

PD: ya tengo configurado el diccionario de OpenOffice!
 #19969  by jllort
 
Cuando este configurado, simplemente sube una imagen para que te haga el ocr ( el tesseract trae alguna de ejemplo ) -> para comprobarlo realiza una búsqueda ( piensa que el proceso de indexación de pende de lo larga que sea tu cola de indexación ( administracion -> estadisticas -> cola de indexación ). Hasta que el fichero no haya pasado por la cola no se va a indexar.
 #20035  by muyprax
 
Me aparece en la cola de indexación como "pendiente" , luego desaparece(al actualizar) y nunca aparece como "extracción en progreso"...y cuándo hago una búsqueda en alguna imágen no me toma absolutamente nada :/
 #20050  by jllort
 
podrías probar la imagen desde el terminal ( ver que te extrae el tesseract, ejecutar el comando desde el terminal ) porque el problema igual es que la resolución etc... no le va bien.
 #20079  by muyprax
 
La verdad es que ya había probado desde el terminal y funciona perfecto, pero desde el servidor si le hago búsqueda desde la pestaña "Previsualización" no reconoce absolutamente nada y desde la pestaña "Búsqueda", por texto libre, tampoco lo hace :/
 #20551  by jllort
 
Ve a Administracion / Database query -> jdbc y ejecuta la select
Code: Select all
SELECT * FROM OKM_NODE_DOCUMENT;
fíjate que hay un campo NDC_TEXT donde está el texto extraído.

Otra cosa que me gustaría que mirases es en administración -> stats -> text extraction queue (para comprobar que se ha intentado extraer todo el testo )

Para hacer un test lo ideal seria asegurarse que la cola esta vacía, subir el fichero y mirar en el server.log a ver si aparece algún error.

Por lo que entiendo en los registered.text.extractors tienes com.openkm.extractor.CuneiformTextExtractor no ?

About Us

OpenKM is part of the management software. A management software is a program that facilitates the accomplishment of administrative tasks. OpenKM is a document management system that allows you to manage business content and workflow in a more efficient way. Document managers guarantee data protection by establishing information security for business content.