La crescente domanda di modelli linguistici efficienti per dispositivi mobili ha spinto i ricercatori a concentrarsi su soluzioni innovative. Il recente studio su MobileLLM affronta le sfide legate ai costi del cloud e alla latenza, proponendo modelli con meno di un miliardo di parametri, ideali per l’uso su smartphone e tablet. Contrariamente a quanto comunemente ritenuto, la ricerca evidenzia che l’architettura del modello gioca un ruolo cruciale nella qualità dei LLM a bassa scala, più della semplice quantità di dati o parametri.
MobileLLM utilizza architetture profonde e sottili, implementando meccanismi di condivisione degli embedding e attenzione a query raggruppate. Queste innovazioni hanno portato a un notevole miglioramento delle performance, con un aumento dell’accuratezza del 2.7% e del 4.3% rispetto ai modelli precedenti da 125M e 350M di parametri. Inoltre, i ricercatori hanno introdotto un approccio di condivisione dei pesi a livello di blocco, senza aumentare le dimensioni del modello e mantenendo un lieve sovraccarico di latenza.
I modelli della famiglia MobileLLM si sono dimostrati superiori rispetto ai modelli precedenti con meno di un miliardo di parametri, mostrando risultati promettenti nei benchmark di chat e una performance comparabile a modelli molto più grandi, come LLaMA-v2 7B, nelle attività di chiamata API. Questa ricerca sottolinea quindi come i modelli più piccoli possano essere efficaci per applicazioni pratiche su dispositivi mobili, aprendo la strada a nuove possibilità nel campo dell’intelligenza artificiale.