Lo studio presentato da Google Research introduce StyleDrop, un’innovativa soluzione per la generazione di immagini che rispecchiano fedelmente uno specifico stile. Grazie alla potenza di Muse, un vision transformer che converte il testo in immagini, StyleDrop offre una versatilità senza precedenti catturando ogni sfumatura e dettaglio di uno stile fornito dall’utente. Questo include schemi di colore, ombreggiature, motivi di design ed effetti locali e globali.
StyleDrop si distingue per l’efficienza con cui apprende nuovi stili, ottimizzando solo una minima parte dei parametri addestrabili (meno dell’1% dei parametri totali del modello). Inoltre, la qualità delle immagini generate viene migliorata grazie a un addestramento iterativo che può avvenire sia tramite feedback umani che automatizzati. Sorprendentemente, StyleDrop è in grado di ottenere risultati impressionanti anche quando l’utente fornisce un’unica immagine per descrivere lo stile desiderato.
Un’approfondita analisi dimostra che, per quanto riguarda l’ottimizzazione dello stile nei modelli di generazione di immagini da testo, StyleDrop su Muse supera convincentemente altri metodi come DreamBooth e Textual Inversion su Imagen o Stable Diffusion.
Il paper di ricerca intitolato “Stylized Text-to-image Generation from a Single Image” illustra come StyleDrop generi immagini di alta qualità a partire da prompt testuali in uno stile specificato da un’unica immagine di riferimento. Una descrizione dello stile in linguaggio naturale viene aggiunta ai descrittori di contenuto sia durante l’addestramento che durante la generazione.
Inoltre, StyleDrop è in grado di generare immagini di alfabeti con uno stile coerente descritto da un’unica immagine di riferimento. Anche in questo caso, viene aggiunto un descrittore di stile in linguaggio naturale ai descrittori di contenuto durante l’addestramento e la generazione.
Un aspetto interessante di StyleDrop è la sua facilità di utilizzo per il training con i propri brand asset, consentendo di prototipare rapidamente idee nel proprio stile distintivo. Durante l’addestramento e la generazione, è possibile aggiungere un descrittore di stile in linguaggio naturale ai descrittori di contenuto.
Infine, StyleDrop si combina con DreamBooth per generare un’immagine del soggetto dell’utente nel suo stile personale. L’utente può selezionare il soggetto desiderato tra diverse opzioni di contenuto e lo stile preferito tra una varietà di scelte.
StyleDrop su Muse, un vision transformer basato su token discreti, dimostra in modo convincente prestazioni superiori rispetto ai metodi esistenti basati sulla diffusione (Imagen, Stable Diffusion) per l’ottimizzazione dello stile.
StyleDrop rappresenta un importante passo avanti nella generazione di immagini da testo, consentendo agli utenti di creare immagini di alta qualità in qualsiasi stile desiderato. La sua versatilità, la capacità di apprendere nuovi stili con pochi parametri addestrabili e la combinazione con DreamBooth lo rendono uno strumento potente per esplorare la creatività e realizzare prototipi rapidamente.