Dopo un anno di intensi sforzi, è stato presentato Qwen2-VL, l’ultima evoluzione dei modelli di linguaggio visivo della famiglia Qwen. Rispetto al suo predecessore, Qwen-VL, questa nuova versione porta con sé capacità rivoluzionarie nella comprensione visiva e nel ragionamento complesso.
Qwen2-VL eccelle nella comprensione di immagini di diverse risoluzioni e proporzioni, raggiungendo prestazioni all’avanguardia in benchmark visivi come MathVista e DocVQA. Inoltre, il modello è in grado di analizzare video di oltre 20 minuti, rendendolo uno strumento efficace per la creazione di contenuti basati su video e per rispondere a domande complesse.
Una delle caratteristiche più innovative di Qwen2-VL è la sua integrazione con dispositivi come smartphone e robot, permettendo operazioni automatiche basate sull’ambiente visivo e su istruzioni testuali. La sua capacità di ragionamento avanzato e decision making lo rende un potente alleato nella gestione di dispositivi.
Qwen2-VL supporta, inoltre, la comprensione di testi multilingue, offrendo un’esperienza d’uso globale. Oltre all’inglese e al cinese, il modello ora riconosce testi in lingue europee, giapponese, coreano, arabo e vietnamita, tra gli altri.
La release include le versioni open-source Qwen2-VL-2B e Qwen2-VL-7B sotto licenza Apache 2.0, integrate con piattaforme come Hugging Face e vLLM, mentre l’API per il modello Qwen2-VL-72B è stata resa disponibile. Con prestazioni eccezionali su vari fronti, Qwen2-VL rappresenta un balzo in avanti per l’intelligenza artificiale visiva.