Extracción de texto en XLSX

OpenKM tiene muchas características interesantes, pero es necesario un proceso de configuración para mostrar todo su potencial.
Forum rules
Por favor, antes de preguntar algo consulta el wiki de documentación o utiliza la función de búsqueda del foro. Recuerda que no tenemos una bola de cristal ni poderes mentales, o sea que que para informar sobre un error es necesario que nos indiques tanto la versión de OpenKM que usas como la del navegador y sistema operativo. Para más información consulta Cómo informar de fallos de forma efectiva.
Post Reply
sgarcia
Fresh Boarder
Fresh Boarder
Posts: 8
Joined: Fri Apr 07, 2017 7:59 am

Extracción de texto en XLSX

Post by sgarcia » Tue Apr 25, 2017 3:46 pm

Es posible afinar mas la extracción de "texto" dentro de un fichero Excel.

Me explico mejor:

Estoy probando con un excel que tiene varias columnas que son numéricas, en concreto números de dossieres y el extractor no me las indexa, creo que los desprecia por ser números. Sin embargo los alfanuméricos los hace bien.

Se puede cambiar este comportamiento y forzarles a indexar todo?

Saludos

jllort
Moderator
Moderator
Posts: 10990
Joined: Fri Dec 21, 2007 11:23 am
Location: Sineu - ( Illes Balears ) - Spain
Contact:

Re: Extracción de texto en XLSX

Post by jllort » Fri Apr 28, 2017 6:34 pm

El tema es que tenemos un par de extractores de texto, en concreto el tipo mime de un xls es "application/vnd.openxmlformats-officedocument.spreadsheetml.sheet" tenemos disponibles 2 clases MsOffice2007TextExtractor.java y OOTextExtractor.java

El tema es este xlsx con que lo has hecho, desde microsoft office ( que ya te adelanto que es el rey de la incompatibilidad, por mucho que este sea un formato abierto de open document hace lo que le da la gana ) o desde open office ?

Aqui el tema igual es deshabilitar o modificar el extractor de openoffice y que lo indexe el de msoffice. Hay otro extractor que indexa el contenido de un xml ... vamos que tienes disparidad y aqui igual es activar solo el que mas te pueda interesar ( y / o modificar alguno de los mime type que soportan cada uno de ellos )

Post Reply