Page 1 of 1
Importar documentos por lotes
PostPosted:Fri Oct 28, 2011 9:10 pm
by diegospano
Hola.
Tengo que digitalizar 4 millones de páginas distribuidas entre más de 100 mil legajos. Mi proveedor me entregará CDs conteniendo archivos pdf con las imágenes dentro y un archivo .csv por cada CD indicando para cada pdf, cuales son los indices o metadatos asignados.
Mis preguntas son las siguientes:
1- Cual es la mejor forma de importar esto en OpenKM?
Yo podria copiar todo en una carpeta y hacer que OpenKM me importe el repositorio, pero los metadatos como los asigna?. Si un csv no fuera lo correcto, que formato debo pedirle a mi proveedor para que sea compatible con Openkm?
2- Dado que son más de 100 mil documentos, en Taxonomia debería definir subcarpetas para agrupar, por ejemplo, cada mil docs. Es correcto?
3- Si OpenKM necesita un formato en particular para importar lotes, cual es?. Dado que aun no se ha comenzado con la digitalización puedo pedirle a mi proveedor que me entregue enla forma que OpenKM necesite.
Gracias!
Diego
Re: Importar documentos por lotes
PostPosted:Sat Oct 29, 2011 2:44 pm
by jllort
Pues si, hay una forma de que se incluyan estos metadatos y se le indique la ruta de importación.
En la wiki, ahora mismo no tenemos comentado el formato, pero puedes hacer algo muy simple ( te recomiendo que utilices la ultima version integration.openkm.com que será prácticamente la nueva 5.1.8, no creo que hagamos mas cambios y en esta el tema de la importación soluciona algunos problemas presentes en la 5.1.7). Ve a la administración y exporta con metadatos ( un directorio , con un par de documentos que tengan metadatos ), a partir de esto veras la estructura que tiene el fichero de exportación y que te permite, cuando importas un documento, regenerarlo en openkm ( indicarle la ruta destino, los metadatos, la seguridad, etc... ). Obviamente tienes que tener registrados los metadatos en el repositorio donde se realizará la importación ( aquí no hay màgia, se sobreentiende que los metadatos deben existir en el fichero de importación ).
Yo iría por fases
1- definir metadatos
2- testear el tema de la importación ( a partir de exportar los casos posibles )
3- test de los ficheros generados por el proveedor
Otras cosillas
1- 4 Millones de documentos es un buen numero, aproximadamente esto van a ser una 4 Tera. Utiliza la Mysql o el Oracle para esto, ni se te pase por la cabeza con la configuración por defecto con que viene OpenKM.
2- Piensa que el indexador genera un 30% mas de espacio o sea que vas a tener 4 Tera de documentos y 1,2 Tera de indices en el lucene. Esto se podría desactivar depende un poco de que quieras indexar, es decir si quieres o no indexar el contenidos, si no vas a hacer consultas por contenido sino por nombre de documento y metadatos te interesa ahorrarte este espacio ( total esto siempre puedes volverlo a activar, si hace falta ).
3- Que uso le van a dar, un contenedor al que se consultará esporádicamente o le van a dar mucha caña, lo digo por el hardware que vais a necesitar. Importante también plantear la política de copias de seguridad.
Nota: Mas que cd's yo pediría que me diesen un par de discos de Tera llenos. Por que te vas a aburrir de abrir y cerrar la unidad de cd-rom ( aunque sean dvd ).
Ya nos cuentas que tal os va ... estas instalaciones siempre son simpáticas ( interesantes ) para ver temas de rendimiento etc...
Re: Importar documentos por lotes
PostPosted:Wed Nov 02, 2011 2:51 pm
by diegospano
Buenisimo, estoy justamente haciendo estas pruebas de generación de metadatos. Editando el archivo PropertyGroups.cnd encuentro lo siguiente:
Code: Select all [okg:technology] mixin
- okp:technology.type (string) = '' multiple autocreated
Technology es el nombre del conjunto de metadatos. Pero, qué es mixin, multiple y autocreated?
Te comento en base a los 3 puntos que mencionás:
1- En mi servidor de prueba ya he configurado OKM para que funcione con mysql!
2- No necesito la indexación de texto completo ya que son muchos documentos manuscritos o formularios. Cómo la desactivo?. Y cómo es posible indexar todo lo importado si el día de mañana decido indexarlo?
3- Básicamente será un contenedor, con un nivel de consultas bajo.
Ahora otras dudas:
a- El proceso de importación hace copia de los archivos o los deja en su ubicación original y solo ingresa los paths en la base de datos?
b- Cómo debo organizar la taxonomia para que tenga una buena performance al acceder a ella?. Si tengo 100mil legajos todos en un mismo nivel creo que el sistema colapsaria, verdad?. Qué consejo me das?
Mil gracias.
Diego
Re: Importar documentos por lotes
PostPosted:Wed Nov 02, 2011 9:58 pm
by jllort
1- En la administración tienes una propiedad que se llama registered.text.extractors ( elimina los que no te interesen ).
En repository.xml y workspace.xml también los puedes eliminar.
2- Si un dia quieres reindexar, simplemente los vuelves a poner y despues borrar el directorio index que esta dentro de repository/workspaces/default
3- El proceso de importación, copia, sino no tendrías un repositorio tendrías solo un buscador que es otra cosa, todo gestor documental debe importar para consolidar la información en un repositorio único, si no hace esto ... mal vamos.
4- Como organizar ? pues eso hay que hecharle imaginación, por año, mes , dia es una posibilidad sencilla y que acostumbra a funcionar bastante bien, por tema etc... obviamente meter 5000 ( por poner un número bajo ) documentos en un mismo nodo, es poco util ... es como si uan biblioteca en vez de tener estanterias fuese espacio vacio y vamos tirando ahí los libros ... de poco serviría, pues esto es lo mismo.
Re: Importar documentos por lotes
PostPosted:Fri Dec 16, 2011 12:39 pm
by dvarela
Hola.
Acabo de instalar OpenKm para hacer unas pruebas. El objetivo es poder gestionar millones (si, habeis oido bien) de pdfs. Tengo un par de cuestiones por si podeis responderlas.
1- ¿Puede OpenKm gestionar semejante cantidad de documentos? (el hardware no es problema)
2- A la hora de importar documentos (por lo que veo el autor de este hilo tiene el mismo problema), ¿hay alguna documentación que detalle los pasos a seguir para hacer una importación con un proceso batch?.
Gracias
Re: Importar documentos por lotes
PostPosted:Fri Dec 16, 2011 7:49 pm
by jllort
A la primera pregunta, la respuesta es si, normalmente 1 millón de documentos es un tera ( es una proporción que mas o menos funciona como media, después obviamente hay el caso particular ).
A la consulta de la importación por batch, esta explicado en la wiki los pasos para que una clase ( java ) se dispare desde un proceso de batch, a partir de ahí lo que tienes es que conocer un poco el api de openkm y 4 clases para la acceder a los ficheros locales y poco mas. Te doy un par de url
http://wiki.openkm.com/index.php/Crontab
http://wiki.openkm.com/index.php/Developer_Guide
http://doxygen.openkm.com/5.1.x/
Re: Importar documentos por lotes
PostPosted:Wed Jan 25, 2012 12:53 pm
by ellyn.vasquez
Tengo una gran duda con respecto a subir los archivos en lote, por la importación del repositorio en el administrador.
Hace un tiempo corto he intentado subir una cantidad de aproximadamente 5mil archivos, anteriormente no pasaba nada y subían archivos sin problema. Pero hace como dos días las he intentado subir y me sale este error "IO Error: Too many open files". Es claro el mensaje mas no entiendo por qué pueda estar pasando.
Si me pueden ayudar. De antemano Gracias
Re: Importar documentos por lotes
PostPosted:Thu Jan 26, 2012 10:22 am
by jllort
De que sistema operativo estamos hablando ? Podrías iniciar otro post, para este problema concreto.
Re: Importar documentos por lotes
PostPosted:Mon Jan 30, 2012 2:46 pm
by ellyn.vasquez
Abierto el nuevo post...
Gracias jllort