• Extracción de texto en XLSX

  • OpenKM tiene muchas características interesantes, pero es necesario un proceso de configuración para mostrar todo su potencial.
OpenKM tiene muchas características interesantes, pero es necesario un proceso de configuración para mostrar todo su potencial.
Forum rules: Por favor, antes de preguntar algo consulta el wiki de documentación o utiliza la función de búsqueda del foro. Recuerda que no tenemos una bola de cristal ni poderes mentales, o sea que que para informar sobre un error es necesario que nos indiques tanto la versión de OpenKM que usas como la del navegador y sistema operativo. Para más información consulta Cómo informar de fallos de forma efectiva.
 #43685  by sgarcia
 
Es posible afinar mas la extracción de "texto" dentro de un fichero Excel.

Me explico mejor:

Estoy probando con un excel que tiene varias columnas que son numéricas, en concreto números de dossieres y el extractor no me las indexa, creo que los desprecia por ser números. Sin embargo los alfanuméricos los hace bien.

Se puede cambiar este comportamiento y forzarles a indexar todo?

Saludos
 #43708  by jllort
 
El tema es que tenemos un par de extractores de texto, en concreto el tipo mime de un xls es "application/vnd.openxmlformats-officedocument.spreadsheetml.sheet" tenemos disponibles 2 clases MsOffice2007TextExtractor.java y OOTextExtractor.java

El tema es este xlsx con que lo has hecho, desde microsoft office ( que ya te adelanto que es el rey de la incompatibilidad, por mucho que este sea un formato abierto de open document hace lo que le da la gana ) o desde open office ?

Aqui el tema igual es deshabilitar o modificar el extractor de openoffice y que lo indexe el de msoffice. Hay otro extractor que indexa el contenido de un xml ... vamos que tienes disparidad y aqui igual es activar solo el que mas te pueda interesar ( y / o modificar alguno de los mime type que soportan cada uno de ellos )

About Us

OpenKM is part of the management software. A management software is a program that facilitates the accomplishment of administrative tasks. OpenKM is a document management system that allows you to manage business content and workflow in a more efficient way. Document managers guarantee data protection by establishing information security for business content.