Open Source Document Management System | OpenKM - Importar documentos por lotes

Importar documentos por lotes

Forum rules: Por favor, antes de preguntar algo consulta el wiki de documentación o utiliza la función de búsqueda del foro. Recuerda que no tenemos una bola de cristal ni poderes mentales, o sea que que para informar sobre un error es necesario que nos indiques tanto la versión de OpenKM que usas como la del navegador y sistema operativo. Para más información consulta Cómo informar de fallos de forma efectiva.

9 posts

9 posts

Importar documentos por lotes

#12756 by diegospano
Fri Oct 28, 2011 9:10 pm

Hola.

Tengo que digitalizar 4 millones de páginas distribuidas entre más de 100 mil legajos. Mi proveedor me entregará CDs conteniendo archivos pdf con las imágenes dentro y un archivo .csv por cada CD indicando para cada pdf, cuales son los indices o metadatos asignados.

Mis preguntas son las siguientes:

1- Cual es la mejor forma de importar esto en OpenKM?

Yo podria copiar todo en una carpeta y hacer que OpenKM me importe el repositorio, pero los metadatos como los asigna?. Si un csv no fuera lo correcto, que formato debo pedirle a mi proveedor para que sea compatible con Openkm?

2- Dado que son más de 100 mil documentos, en Taxonomia debería definir subcarpetas para agrupar, por ejemplo, cada mil docs. Es correcto?

3- Si OpenKM necesita un formato en particular para importar lotes, cual es?. Dado que aun no se ha comenzado con la digitalización puedo pedirle a mi proveedor que me entregue enla forma que OpenKM necesite.

Gracias!

Diego

Username

diegospano

Rank

Senior Boarder

Posts

Joined

Wed Sep 28, 2011 7:12 pm

Re: Importar documentos por lotes

#12760 by jllort
Sat Oct 29, 2011 2:44 pm

Pues si, hay una forma de que se incluyan estos metadatos y se le indique la ruta de importación.

En la wiki, ahora mismo no tenemos comentado el formato, pero puedes hacer algo muy simple ( te recomiendo que utilices la ultima version integration.openkm.com que será prácticamente la nueva 5.1.8, no creo que hagamos mas cambios y en esta el tema de la importación soluciona algunos problemas presentes en la 5.1.7). Ve a la administración y exporta con metadatos ( un directorio , con un par de documentos que tengan metadatos ), a partir de esto veras la estructura que tiene el fichero de exportación y que te permite, cuando importas un documento, regenerarlo en openkm ( indicarle la ruta destino, los metadatos, la seguridad, etc... ). Obviamente tienes que tener registrados los metadatos en el repositorio donde se realizará la importación ( aquí no hay màgia, se sobreentiende que los metadatos deben existir en el fichero de importación ).

Yo iría por fases
1- definir metadatos
2- testear el tema de la importación ( a partir de exportar los casos posibles )
3- test de los ficheros generados por el proveedor

Otras cosillas
1- 4 Millones de documentos es un buen numero, aproximadamente esto van a ser una 4 Tera. Utiliza la Mysql o el Oracle para esto, ni se te pase por la cabeza con la configuración por defecto con que viene OpenKM.
2- Piensa que el indexador genera un 30% mas de espacio o sea que vas a tener 4 Tera de documentos y 1,2 Tera de indices en el lucene. Esto se podría desactivar depende un poco de que quieras indexar, es decir si quieres o no indexar el contenidos, si no vas a hacer consultas por contenido sino por nombre de documento y metadatos te interesa ahorrarte este espacio ( total esto siempre puedes volverlo a activar, si hace falta ).
3- Que uso le van a dar, un contenedor al que se consultará esporádicamente o le van a dar mucha caña, lo digo por el hardware que vais a necesitar. Importante también plantear la política de copias de seguridad.

Nota: Mas que cd's yo pediría que me diesen un par de discos de Tera llenos. Por que te vas a aburrir de abrir y cerrar la unidad de cd-rom ( aunque sean dvd ).

Ya nos cuentas que tal os va ... estas instalaciones siempre son simpáticas ( interesantes ) para ver temas de rendimiento etc...

Username

jllort

Rank

Moderator

Posts

12134

Joined

Fri Dec 21, 2007 11:23 am

Location

Sineu - ( Illes Balears ) - Spain

Contact

Re: Importar documentos por lotes

#12793 by diegospano
Wed Nov 02, 2011 2:51 pm

Buenisimo, estoy justamente haciendo estas pruebas de generación de metadatos. Editando el archivo PropertyGroups.cnd encuentro lo siguiente:

Code: Select all

 [okg:technology] mixin
- okp:technology.type (string) = '' multiple autocreated

Technology es el nombre del conjunto de metadatos. Pero, qué es mixin, multiple y autocreated?

Te comento en base a los 3 puntos que mencionás:

1- En mi servidor de prueba ya he configurado OKM para que funcione con mysql!
2- No necesito la indexación de texto completo ya que son muchos documentos manuscritos o formularios. Cómo la desactivo?. Y cómo es posible indexar todo lo importado si el día de mañana decido indexarlo?
3- Básicamente será un contenedor, con un nivel de consultas bajo.

Ahora otras dudas:

a- El proceso de importación hace copia de los archivos o los deja en su ubicación original y solo ingresa los paths en la base de datos?
b- Cómo debo organizar la taxonomia para que tenga una buena performance al acceder a ella?. Si tengo 100mil legajos todos en un mismo nivel creo que el sistema colapsaria, verdad?. Qué consejo me das?

Mil gracias.

Diego

Username

diegospano

Rank

Senior Boarder

Posts

Joined

Wed Sep 28, 2011 7:12 pm

Re: Importar documentos por lotes

#12802 by jllort
Wed Nov 02, 2011 9:58 pm

1- En la administración tienes una propiedad que se llama registered.text.extractors ( elimina los que no te interesen ).
En repository.xml y workspace.xml también los puedes eliminar.

2- Si un dia quieres reindexar, simplemente los vuelves a poner y despues borrar el directorio index que esta dentro de repository/workspaces/default
3- El proceso de importación, copia, sino no tendrías un repositorio tendrías solo un buscador que es otra cosa, todo gestor documental debe importar para consolidar la información en un repositorio único, si no hace esto ... mal vamos.
4- Como organizar ? pues eso hay que hecharle imaginación, por año, mes , dia es una posibilidad sencilla y que acostumbra a funcionar bastante bien, por tema etc... obviamente meter 5000 ( por poner un número bajo ) documentos en un mismo nodo, es poco util ... es como si uan biblioteca en vez de tener estanterias fuese espacio vacio y vamos tirando ahí los libros ... de poco serviría, pues esto es lo mismo.

Username

jllort

Rank

Moderator

Posts

12134

Joined

Fri Dec 21, 2007 11:23 am

Location

Sineu - ( Illes Balears ) - Spain

Contact

Re: Importar documentos por lotes

#13213 by dvarela
Fri Dec 16, 2011 12:39 pm

Hola.

Acabo de instalar OpenKm para hacer unas pruebas. El objetivo es poder gestionar millones (si, habeis oido bien) de pdfs. Tengo un par de cuestiones por si podeis responderlas.

1- ¿Puede OpenKm gestionar semejante cantidad de documentos? (el hardware no es problema)
2- A la hora de importar documentos (por lo que veo el autor de este hilo tiene el mismo problema), ¿hay alguna documentación que detalle los pasos a seguir para hacer una importación con un proceso batch?.

Gracias

Username

dvarela

Rank

Fresh Boarder

Posts

Joined

Wed Dec 14, 2011 4:28 pm

Re: Importar documentos por lotes

#13220 by jllort
Fri Dec 16, 2011 7:49 pm

A la primera pregunta, la respuesta es si, normalmente 1 millón de documentos es un tera ( es una proporción que mas o menos funciona como media, después obviamente hay el caso particular ).
A la consulta de la importación por batch, esta explicado en la wiki los pasos para que una clase ( java ) se dispare desde un proceso de batch, a partir de ahí lo que tienes es que conocer un poco el api de openkm y 4 clases para la acceder a los ficheros locales y poco mas. Te doy un par de url

http://wiki.openkm.com/index.php/Crontab
http://wiki.openkm.com/index.php/Developer_Guide
http://doxygen.openkm.com/5.1.x/

Username

jllort

Rank

Moderator

Posts

12134

Joined

Fri Dec 21, 2007 11:23 am

Location

Sineu - ( Illes Balears ) - Spain

Contact

Re: Importar documentos por lotes

#13653 by ellyn.vasquez
Wed Jan 25, 2012 12:53 pm

Tengo una gran duda con respecto a subir los archivos en lote, por la importación del repositorio en el administrador.

Hace un tiempo corto he intentado subir una cantidad de aproximadamente 5mil archivos, anteriormente no pasaba nada y subían archivos sin problema. Pero hace como dos días las he intentado subir y me sale este error "IO Error: Too many open files". Es claro el mensaje mas no entiendo por qué pueda estar pasando.

Si me pueden ayudar. De antemano Gracias

Username

ellyn.vasquez

Rank

Fresh Boarder

Posts

Joined

Thu Jun 23, 2011 1:33 pm

Re: Importar documentos por lotes

#13665 by jllort
Thu Jan 26, 2012 10:22 am

De que sistema operativo estamos hablando ? Podrías iniciar otro post, para este problema concreto.

Username

jllort

Rank

Moderator

Posts

12134

Joined

Fri Dec 21, 2007 11:23 am

Location

Sineu - ( Illes Balears ) - Spain

Contact

Re: Importar documentos por lotes

#13702 by ellyn.vasquez
Mon Jan 30, 2012 2:46 pm

Abierto el nuevo post...

Gracias jllort

Username

ellyn.vasquez

Rank

Fresh Boarder

Posts

Joined

Thu Jun 23, 2011 1:33 pm

Page 1 of 1
9 posts

Return to “Uso”

Display:

Sort by:

Jump to: