DINOv2: un modello di autoapprendimento per l’elaborazione delle immagini di alta qualità senza supervisione
DINOv2 è un nuovo modello di autoapprendimento per l’elaborazione delle immagini che produce caratteristiche universali adatte per compiti visivi a livello di immagine (classificazione delle immagini, recupero di istanze, comprensione dei video) e compiti visivi a livello di pixel (stimazione della profondità, segmentazione semantica). La sua famiglia di modelli è in grado di codificare le caratteristiche visive in maniera robusta e affidabile senza alcuna supervisione, rendendoli una scelta molto interessante per diverse applicazioni.
La famiglia di modelli DINOv2 è stata valutata su 30 diversi benchmark che coprono 8 tipi di compiti visivi, dalla classificazione delle immagini alla stima della profondità monoculare. I risultati sono stati comparati con altre alternative di autoapprendimento e supervisione debole. La famiglia di modelli DINOv2 si è dimostrata nettamente superiore rispetto allo stato dell’arte precedente nell’autoapprendimento senza supervisione, raggiungendo performance comparabili con le caratteristiche addestrate in maniera debole.
I modelli DINOv2 vengono preaddestrati senza supervisione su un vasto set di dati di 142 milioni di immagini selezionate e curate attentamente, coprendo un gran numero di domini visivi chiave. Le caratteristiche prodotte sono utilizzabili senza richiedere alcuna messa a punto fine e dimostrano una forte performance fuori dalla distribuzione.
Diversi esempi di applicazioni della famiglia di modelli DINOv2 includono la stima della profondità di un’immagine, la segmentazione semantica e il recupero di istanze. Inoltre, le caratteristiche prodotte dai modelli DINOv2 sono state valutate su altri compiti visivi come la classificazione visiva a grana grossa e fine, nonché la comprensione dei video, con risultati altrettanto soddisfacenti.
La famiglia di modelli DINOv2 rappresenta un passo avanti significativo nell’elaborazione delle immagini autoapprendente senza supervisione, e potrebbe avere un impatto significativo sulle applicazioni di visione artificiale in futuro.