Gli ultimi sviluppi in campo di deep learning stanno portando ad avanguardie incredibili nella sintesi di immagini ad alta risoluzione. Tra questi, i modelli di diffusione (DM) rappresentano una vera e propria rivoluzione. Questi modelli sono in grado di generare immagini sintetiche con una fedeltà visiva senza precedenti e possono essere utilizzati per compiti come l’inpainting o la super-risoluzione (vedi ricerca “High-Resolution Image Synthesis with Latent Diffusion Models“).
Tuttavia, questi modelli sono anche molto complessi e richiedono risorse computazionali significative per l’addestramento e l’inferenza. Per ovviare a questo problema, i ricercatori hanno sviluppato una nuova architettura chiamata Stable Diffusion, che utilizza i modelli di diffusione latente (LDM) per ridurre significativamente i requisiti computazionali mantenendo la stessa qualità e flessibilità dei DM basati su pixel.
La nuova architettura consente di applicare i modelli di diffusione direttamente nello spazio latente di codificatori automatici preaddestrati. Questo riduce il tempo di addestramento e rende l’inferenza meno costosa. Inoltre, l’introduzione di livelli di attenzione incrociata nell’architettura del modello consente ai modelli di diffusione di diventare generatori potenti e flessibili per input di condizionamento generale come testo o riquadri di delimitazione.
I risultati ottenuti con Stable Diffusion sono sorprendenti. I modelli di diffusione latente raggiungono prestazioni altamente competitive su varie attività, tra cui la generazione incondizionata di immagini, l’inpainting e la super-risoluzione. Inoltre, la sintesi ad alta risoluzione diventa possibile in modo convoluzionale.
Gli sviluppi della nuova architettura Stable Diffusion sono una vera e propria rivoluzione nel campo della sintesi di immagini ad alta risoluzione. La tecnologia è ancora in fase di sviluppo, ma i risultati finora ottenuti promettono di aprire nuove strade nel mondo dell’elaborazione delle immagini.
Nel video seguente si possono vedere gli ultimi progressi di una delle piattaforme di generazione immagini.