Page 1 of 1

Extracción de texto en XLSX

PostPosted:Tue Apr 25, 2017 3:46 pm
by sgarcia
Es posible afinar mas la extracción de "texto" dentro de un fichero Excel.

Me explico mejor:

Estoy probando con un excel que tiene varias columnas que son numéricas, en concreto números de dossieres y el extractor no me las indexa, creo que los desprecia por ser números. Sin embargo los alfanuméricos los hace bien.

Se puede cambiar este comportamiento y forzarles a indexar todo?

Saludos

Re: Extracción de texto en XLSX

PostPosted:Fri Apr 28, 2017 6:34 pm
by jllort
El tema es que tenemos un par de extractores de texto, en concreto el tipo mime de un xls es "application/vnd.openxmlformats-officedocument.spreadsheetml.sheet" tenemos disponibles 2 clases MsOffice2007TextExtractor.java y OOTextExtractor.java

El tema es este xlsx con que lo has hecho, desde microsoft office ( que ya te adelanto que es el rey de la incompatibilidad, por mucho que este sea un formato abierto de open document hace lo que le da la gana ) o desde open office ?

Aqui el tema igual es deshabilitar o modificar el extractor de openoffice y que lo indexe el de msoffice. Hay otro extractor que indexa el contenido de un xml ... vamos que tienes disparidad y aqui igual es activar solo el que mas te pueda interesar ( y / o modificar alguno de los mime type que soportan cada uno de ellos )