La compressione dei prompts è un modo innovativo per sfruttare al meglio le capacità multitasking dei language models (LMs). I prompts sono fondamentali per la creazione di modelli di lingua, ma occupano uno spazio prezioso nella finestra di input del contesto e la ricodifica dello stesso prompt è inefficiente dal punto di vista computazionale.
Per ovviare a questo problema, i ricercatori Jesse Mu, Xiang Lisa Li e Noah Goodman hanno presentato una soluzione chiamata “gisting”. Questa tecnica addestra il LM a comprimere i prompts in insiemi più piccoli di “gist” token, che possono essere riutilizzati per migliorare l’efficienza computazionale.
Grazie al gisting, i modelli di lingua possono essere facilmente addestrati come parte del fine-tuning delle istruzioni tramite una maschera di attenzione ristretta che incoraggia la compressione dei prompt. Su decoder (LLaMA-7B) e encoder-decoder (FLAN-T5-XXL) LMs, il gisting consente una compressione dei prompt fino a 26 volte, risultando in una riduzione fino al 40% dei FLOPs, una velocità di esecuzione del 4,2% più rapida, risparmi di archiviazione e perdite minime nella qualità dell’output.
Il gisting rappresenta quindi una soluzione innovativa ed efficiente per sfruttare al meglio le potenzialità dei language models. Questa tecnica permette di ridurre significativamente la quantità di spazio occupato dai prompt, migliorando l’efficienza computazionale e velocizzando il processo di elaborazione del linguaggio naturale.