L’Intelligenza Artificiale continua a stupire e a evolversi sempre di più. Questa volta è GPT-4, il modello di linguaggio naturale sviluppato da OpenAI, a fare parlare di sé grazie a un esperimento rivoluzionario. La combinazione tra Computer Vision e NLP (Natural Language Processing) ha permesso a GPT-4 di avere “la vista” e la capacità di “ascoltare”, oltre alla sua capacità di elaborare e generare linguaggio naturale.
L’esperimento è stato realizzato utilizzando una CNN (Convolutional Neural Network) per riconoscere gli oggetti presenti in un video, mentre la libreria WhisperAI di OpenAI ha fornito un servizio accurato di speech-to-text per la comprensione del linguaggio parlato. GPT-4 ha quindi potuto elaborare il contenuto del video e rispondere alle domande poste dall’autore dell’esperimento, con risultati sorprendenti.
Il video dimostra come GPT-4 sia in grado di “vedere” gli oggetti presenti nel video e di riconoscerli, rispondendo alle domande dell’autore sull’oggetto stesso e sulle sue caratteristiche. In questo modo, GPT-4 dimostra di avere una comprensione più approfondita del mondo circostante, andando oltre la mera elaborazione del linguaggio naturale.
L’esperimento dimostra ancora una volta come l’Intelligenza Artificiale stia evolvendo in modo esponenziale e come il futuro dell’AI sia sempre più vicino. Tuttavia, come afferma Alexio Cassani, CTO di Cortilia Società Benefit & B-Corp e AI Advisor, l’avvento di questi modelli richieda un cambio di mentalità negli implementatori, puntando meno sulla convenzione e più sul pensiero laterale.
L’esperimento di GPT-4 con Computer Vision e WhisperAI rappresenta un passo avanti significativo nell’evoluzione dell’Intelligenza Artificiale, dimostrando la sua capacità di comprendere il mondo circostante in modo più approfondito. Tuttavia, è importante sottolineare come l’implementazione di questi modelli richieda un approccio innovativo e fuori dagli schemi, al fine di sfruttarne al meglio le potenzialità.