Microsoft Corporation ha annunciato il lancio di SpreadsheetLLM, un innovativo metodo di codifica progettato per ottimizzare le capacità di comprensione e ragionamento dei grandi modelli di linguaggio (LLM) sui fogli di calcolo. Questo avanzamento rappresenta una svolta significativa, considerando le difficoltà che i LLM affrontano con le griglie bidimensionali estese e le strutture flessibili dei fogli di calcolo.
Il team di ricerca di Microsoft ha inizialmente proposto un approccio di serializzazione tradizionale, che includeva indirizzi di celle, valori e formati. Tuttavia, a causa delle limitazioni di token dei LLM, questo metodo si è rivelato impraticabile per la maggior parte delle applicazioni. Per superare questo ostacolo, Microsoft ha sviluppato SheetCompressor, un framework di codifica innovativo che comprime efficacemente i fogli di calcolo per i LLM.
SheetCompressor si compone di tre moduli: la compressione basata su ancore strutturali, la traduzione dell’indice inverso e l’aggregazione consapevole del formato dei dati. Questo approccio ha migliorato significativamente le prestazioni nel compito di rilevamento delle tabelle dei fogli di calcolo, superando il metodo tradizionale del 25,6% nell’impostazione di apprendimento contestuale di GPT-4. Inoltre, i LLM affinati con SheetCompressor hanno raggiunto un rapporto di compressione medio di 25 volte, ottenendo un punteggio F1 di stato dell’arte del 78,9%, superando i migliori modelli esistenti del 12,3%.
Oltre a questi risultati, il team ha proposto Chain of Spreadsheet per i compiti di comprensione a valle dei fogli di calcolo e ha validato l’efficacia di SpreadsheetLLM in un nuovo e impegnativo compito di domande e risposte sui fogli di calcolo. Utilizzando il layout e la struttura intrinseca dei fogli di calcolo, SpreadsheetLLM ha dimostrato di essere altamente efficace in una varietà di compiti, promettendo di rivoluzionare l’interazione intelligente con gli utenti e l’analisi dei dati su piattaforme come Microsoft Excel e Google Sheets.