• Importar documentos por lotes

  • Hemos intentado hacer de OpenKM una aplicación lo más intuitiva posible, sin embargo siempre viene bien algún consejo.
Hemos intentado hacer de OpenKM una aplicación lo más intuitiva posible, sin embargo siempre viene bien algún consejo.
Forum rules: Por favor, antes de preguntar algo consulta el wiki de documentación o utiliza la función de búsqueda del foro. Recuerda que no tenemos una bola de cristal ni poderes mentales, o sea que que para informar sobre un error es necesario que nos indiques tanto la versión de OpenKM que usas como la del navegador y sistema operativo. Para más información consulta Cómo informar de fallos de forma efectiva.
 #12756  by diegospano
 
Hola.

Tengo que digitalizar 4 millones de páginas distribuidas entre más de 100 mil legajos. Mi proveedor me entregará CDs conteniendo archivos pdf con las imágenes dentro y un archivo .csv por cada CD indicando para cada pdf, cuales son los indices o metadatos asignados.

Mis preguntas son las siguientes:

1- Cual es la mejor forma de importar esto en OpenKM?

Yo podria copiar todo en una carpeta y hacer que OpenKM me importe el repositorio, pero los metadatos como los asigna?. Si un csv no fuera lo correcto, que formato debo pedirle a mi proveedor para que sea compatible con Openkm?

2- Dado que son más de 100 mil documentos, en Taxonomia debería definir subcarpetas para agrupar, por ejemplo, cada mil docs. Es correcto?

3- Si OpenKM necesita un formato en particular para importar lotes, cual es?. Dado que aun no se ha comenzado con la digitalización puedo pedirle a mi proveedor que me entregue enla forma que OpenKM necesite.

Gracias!

Diego
 #12760  by jllort
 
Pues si, hay una forma de que se incluyan estos metadatos y se le indique la ruta de importación.

En la wiki, ahora mismo no tenemos comentado el formato, pero puedes hacer algo muy simple ( te recomiendo que utilices la ultima version integration.openkm.com que será prácticamente la nueva 5.1.8, no creo que hagamos mas cambios y en esta el tema de la importación soluciona algunos problemas presentes en la 5.1.7). Ve a la administración y exporta con metadatos ( un directorio , con un par de documentos que tengan metadatos ), a partir de esto veras la estructura que tiene el fichero de exportación y que te permite, cuando importas un documento, regenerarlo en openkm ( indicarle la ruta destino, los metadatos, la seguridad, etc... ). Obviamente tienes que tener registrados los metadatos en el repositorio donde se realizará la importación ( aquí no hay màgia, se sobreentiende que los metadatos deben existir en el fichero de importación ).

Yo iría por fases
1- definir metadatos
2- testear el tema de la importación ( a partir de exportar los casos posibles )
3- test de los ficheros generados por el proveedor

Otras cosillas
1- 4 Millones de documentos es un buen numero, aproximadamente esto van a ser una 4 Tera. Utiliza la Mysql o el Oracle para esto, ni se te pase por la cabeza con la configuración por defecto con que viene OpenKM.
2- Piensa que el indexador genera un 30% mas de espacio o sea que vas a tener 4 Tera de documentos y 1,2 Tera de indices en el lucene. Esto se podría desactivar depende un poco de que quieras indexar, es decir si quieres o no indexar el contenidos, si no vas a hacer consultas por contenido sino por nombre de documento y metadatos te interesa ahorrarte este espacio ( total esto siempre puedes volverlo a activar, si hace falta ).
3- Que uso le van a dar, un contenedor al que se consultará esporádicamente o le van a dar mucha caña, lo digo por el hardware que vais a necesitar. Importante también plantear la política de copias de seguridad.

Nota: Mas que cd's yo pediría que me diesen un par de discos de Tera llenos. Por que te vas a aburrir de abrir y cerrar la unidad de cd-rom ( aunque sean dvd ).

Ya nos cuentas que tal os va ... estas instalaciones siempre son simpáticas ( interesantes ) para ver temas de rendimiento etc...
 #12793  by diegospano
 
Buenisimo, estoy justamente haciendo estas pruebas de generación de metadatos. Editando el archivo PropertyGroups.cnd encuentro lo siguiente:
Code: Select all
 [okg:technology] mixin
- okp:technology.type (string) = '' multiple autocreated


Technology es el nombre del conjunto de metadatos. Pero, qué es mixin, multiple y autocreated?

Te comento en base a los 3 puntos que mencionás:

1- En mi servidor de prueba ya he configurado OKM para que funcione con mysql!
2- No necesito la indexación de texto completo ya que son muchos documentos manuscritos o formularios. Cómo la desactivo?. Y cómo es posible indexar todo lo importado si el día de mañana decido indexarlo?
3- Básicamente será un contenedor, con un nivel de consultas bajo.

Ahora otras dudas:

a- El proceso de importación hace copia de los archivos o los deja en su ubicación original y solo ingresa los paths en la base de datos?
b- Cómo debo organizar la taxonomia para que tenga una buena performance al acceder a ella?. Si tengo 100mil legajos todos en un mismo nivel creo que el sistema colapsaria, verdad?. Qué consejo me das?

Mil gracias.

Diego
 #12802  by jllort
 
1- En la administración tienes una propiedad que se llama registered.text.extractors ( elimina los que no te interesen ).
En repository.xml y workspace.xml también los puedes eliminar.

2- Si un dia quieres reindexar, simplemente los vuelves a poner y despues borrar el directorio index que esta dentro de repository/workspaces/default
3- El proceso de importación, copia, sino no tendrías un repositorio tendrías solo un buscador que es otra cosa, todo gestor documental debe importar para consolidar la información en un repositorio único, si no hace esto ... mal vamos.
4- Como organizar ? pues eso hay que hecharle imaginación, por año, mes , dia es una posibilidad sencilla y que acostumbra a funcionar bastante bien, por tema etc... obviamente meter 5000 ( por poner un número bajo ) documentos en un mismo nodo, es poco util ... es como si uan biblioteca en vez de tener estanterias fuese espacio vacio y vamos tirando ahí los libros ... de poco serviría, pues esto es lo mismo.
 #13213  by dvarela
 
Hola.

Acabo de instalar OpenKm para hacer unas pruebas. El objetivo es poder gestionar millones (si, habeis oido bien) de pdfs. Tengo un par de cuestiones por si podeis responderlas.

1- ¿Puede OpenKm gestionar semejante cantidad de documentos? (el hardware no es problema)
2- A la hora de importar documentos (por lo que veo el autor de este hilo tiene el mismo problema), ¿hay alguna documentación que detalle los pasos a seguir para hacer una importación con un proceso batch?.

Gracias
 #13220  by jllort
 
A la primera pregunta, la respuesta es si, normalmente 1 millón de documentos es un tera ( es una proporción que mas o menos funciona como media, después obviamente hay el caso particular ).
A la consulta de la importación por batch, esta explicado en la wiki los pasos para que una clase ( java ) se dispare desde un proceso de batch, a partir de ahí lo que tienes es que conocer un poco el api de openkm y 4 clases para la acceder a los ficheros locales y poco mas. Te doy un par de url

http://wiki.openkm.com/index.php/Crontab
http://wiki.openkm.com/index.php/Developer_Guide
http://doxygen.openkm.com/5.1.x/
 #13653  by ellyn.vasquez
 
Tengo una gran duda con respecto a subir los archivos en lote, por la importación del repositorio en el administrador.

Hace un tiempo corto he intentado subir una cantidad de aproximadamente 5mil archivos, anteriormente no pasaba nada y subían archivos sin problema. Pero hace como dos días las he intentado subir y me sale este error "IO Error: Too many open files". Es claro el mensaje mas no entiendo por qué pueda estar pasando.

Si me pueden ayudar. De antemano Gracias
 #13665  by jllort
 
De que sistema operativo estamos hablando ? Podrías iniciar otro post, para este problema concreto.

About Us

OpenKM is part of the management software. A management software is a program that facilitates the accomplishment of administrative tasks. OpenKM is a document management system that allows you to manage business content and workflow in a more efficient way. Document managers guarantee data protection by establishing information security for business content.