OpenAI sta lavorando a GPT-4V, un modello di intelligenza artificiale che può processare sia testi che immagini che presto sarà integrato in ChatGPT. GPT-4V è basato su GPT-4, un modello di intelligenza artificiale che può generare testi realistici e coerenti su vari domini e compiti. GPT-4V estende le capacità di GPT-4 aggiungendo la visione artificiale, ovvero la capacità di comprendere e manipolare le immagini. Questo rende GPT-4V un modello multimodale, in grado di integrare diverse modalità sensoriali per raggiungere una maggiore intelligenza generica.

Nel contesto di rapida evoluzione dell’intelligenza artificiale, GPT-4V rappresenta un punto di svolta significativo. Mentre i precedenti grandi modelli linguistici (LLM) come GPT-4 hanno stabilito nuovi standard nel processamento del linguaggio naturale, GPT-4V spinge i confini ancora più lontano, introducendo una capacità multimodale che abbraccia sia il testo che gli elementi visivi. Questo articolo mira a essere una disamina esaustiva di GPT-4V, delineando le sue funzionalità rivoluzionarie, i potenziali casi d’uso e le implicazioni per il futuro dell’intelligenza artificiale.

Contents

GPT-4V

In questo articolo tratteremo di una serie di argomenti chiave legati a GPT-4V, il nuovo modello di intelligenza artificiale rilasciato da OpenAI. Questi includono:

  • Le capacità di GPT-4V: esploreremo come GPT-4V può processare sia testi che immagini, e come può integrare diverse modalità sensoriali per raggiungere una maggiore intelligenza generica.
  • Le nuove funzionalità di ChatGPT: discuteremo le tre principali novità che ChatGPT ha introdotto, ovvero la capacità di vedere, sentire e parlare.
  • Esempi e demo: mostreremo alcuni esempi e demo delle nuove funzionalità di ChatGPT, usando immagini, testi e audio.

Nel corso dell’articolo, approfondiremo ciascuno di questi argomenti e discuteremo le possibili applicazioni e le future direzioni di ricerca. Speriamo che questo articolo vi offra una panoramica completa e stimolante su GPT-4V e ChatGPT. Buona lettura!

Cos’è GPT-4V

GPT-4V è un l’ultimo nato di OpenAI, un modello di intelligenza artificiale che può processare sia testi che immagini, integrando diverse modalità sensoriali per raggiungere una maggiore intelligenza generica. GPT-4V è basato su un’architettura di rete neurale trasformazionale, che è stata allenata su un grande corpus di dati testuali e visivi. Questo corpus include una vasta gamma di domini e compiti, che vanno dalla comprensione del linguaggio naturale alla visione artificiale, dal ragionamento astratto alla conoscenza del senso comune.

GPT-4V è in grado di svolgere una varietà di compiti multimodali, come:

  • la descrizione e il riconoscimento di immagini,
  • la generazione di immagini da testi,
  • il question answering visuale,
  • il dialogo visuale,
  • il ragionamento visuale astratto e concreto,
  • l’interazione con gli esseri umani,
  • la generazione di codice ma anche di canzoni, e molti altri.

GPT-4V dimostra capacità impressionanti e umanoidi in diversi scenari, mostrando una buona qualità e genericità delle sue abilità.

Come è stato allenato GPT-4V

GPT-4V è stato allenato usando un metodo di apprendimento profondo non supervisionato, che consiste nel prevedere le parole o i pixel mancanti in una sequenza di testo o immagine. Il modello ha usato una funzione di perdita cross-entropia per minimizzare l’errore tra le sue previsioni e i dati reali. Il modello ha usato anche una tecnica di ottimizzazione stocastica chiamata Adam, per aggiornare i suoi parametri in modo efficiente.

Il corpus di dati usato per allenare GPT-4V è composto da diverse fonti testuali e visive, tra cui Wikipedia, Common Crawl, WebText2, ImageNet, Conceptual Captions, COCO, Visual Genome , VQA , Visual Dialog , CLEVR , e altre. Il corpus contiene circa 500 miliardi di parole e 60 milioni di immagini, coprendo una vasta gamma di domini e compiti multimodali.

L’allenamento di GPT-4V ha richiesto l’uso di una grande infrastruttura computazionale, composta da migliaia di GPU e TPU. L’allenamento ha richiesto anche diversi mesi per completarsi, consumando una grande quantità di energia elettrica. L’allenamento ha prodotto un modello con circa 175 miliardi di parametri, che occupano circa 700 GB di memoria.

Come usare GPT-4v

Input Solo Testuali

La robusta capacità linguistica di GPT-4V gli permette di funzionare come un efficace modello linguistico unimodale. Funzionando esclusivamente con input e output testuali, GPT-4V è capace di eseguire una vasta gamma di compiti linguistici e di programmazione.

Coppie Singole di Immagini e Testi

GPT-4V può prendere una singola coppia di immagine e testo o una singola immagine come input per eseguire vari compiti di visione e visione-linguaggio. Questi possono includere la descrizione di un’immagine, rispondere a domande visive o localizzare oggetti in un’immagine. La performance e la generalizzabilità di GPT-4V sono notevolmente superiori rispetto alle tecniche precedenti.

Input di Immagini e Testi Intercalati

La generalità di GPT-4V è ulteriormente potenziata dalla sua capacità di gestire input di immagini e testi intercalati in modo flessibile. Questo tipo di input misto offre flessibilità per una vasta gamma di applicazioni. Ad esempio, può calcolare l’importo totale delle tasse pagate su più ricevute, o associare informazioni tra menu e numero di birre per calcolare il costo totale.

Modalità di Funzionamento di GPT-4V

Uno degli aspetti più interessanti di GPT-4V è la flessibilità nel suo funzionamento, che può essere adattato a vari tipi di compiti e informazioni disponibili. Ecco alcune delle principali modalità in cui GPT-4V può operare:

Zero-shot Learning

In questa modalità, GPT-4V è capace di affrontare un compito senza aver ricevuto alcun esempio specifico durante la fase di addestramento. Questa capacità di generalizzare da un vasto corpus di dati pregressi lo rende estremamente versatile.

Few-shot Learning

Qui, GPT-4V prende in ingresso alcuni esempi del compito da svolgere all’inizio della conversazione. Questi esempi servono a “indirizzare” il modello, consentendogli di generare risposte più precise e contestualmente appropriate.

Visual Pointing

GPT-4V ha la possibilità di fare riferimento a specifiche parti di un’immagine durante un dialogo o una task-specifica. Questa funzionalità è particolarmente utile per compiti come l’identificazione di oggetti specifici in un’immagine o la descrizione di scene complesse.

Visual Referring Prompting

Questa è una funzionalità unica che permette a GPT-4V di interpretare marcatori visivi inseriti nelle immagini in ingresso, fornendo un ulteriore livello di interattività e comprensione nel dialogo tra uomo e macchina.

Le tecniche di prompting di GPT-4V

Le tecniche di prompting sono metodi utilizzati per guidare GPT-4V a svolgere i compiti desiderati. Ecco alcune delle principali tecniche di prompting che possono essere utilizzate con GPT-4V:

  • Uso di parole chiave: Le parole chiave possono essere utilizzate per indicare a GPT-4V il tipo di risposta desiderata. Ad esempio, se si desidera che GPT-4V generi una poesia, si potrebbe iniziare la conversazione con la parola chiave “poesia”.
  • Domande: Le domande possono essere utilizzate per guidare GPT-4V a fornire informazioni specifiche. Ad esempio, se si desidera sapere il colore di un oggetto in un’immagine, si potrebbe chiedere a GPT-4V “Qual è il colore dell’oggetto nell’immagine?”.
  • Esempi: Gli esempi possono essere utilizzati per mostrare a GPT-4V il formato o lo stile desiderato per la risposta. Ad esempio, se si desidera che GPT-4V generi una lista, si potrebbe fornire un esempio di come dovrebbe apparire la lista.
  • Segni visivi: I segni visivi possono essere utilizzati per indicare a GPT-4V specifiche parti di un’immagine su cui concentrarsi. Ad esempio, si potrebbe disegnare un cerchio attorno a un oggetto in un’immagine per indicare a GPT-4V di concentrarsi su quell’oggetto.

Capacità di Visione-Linguaggio di GPT-4V

GPT-4V è progettato per generare descrizioni aperte e dettagliate di immagini attraverso una varietà di domini.

  • Riconoscimento di Celebrità: GPT-4V può identificare celebrità da diversi background e campi, rispondendo in modo accurato a query dettagliate come “Chi è la persona nell’immagine e cosa sta facendo?”
  • Riconoscimento di Punti di Riferimento: Nonostante le variazioni dovute a diversi fattori come angolo di vista e condizioni di illuminazione, GPT-4V è in grado di riconoscere e descrivere in modo accurato i punti di riferimento.
  • Riconoscimento del Cibo: GPT-4V può riconoscere una vasta gamma di piatti e cibi, identificando dettagli specifici come ingredienti, guarnizioni o tecniche di cottura.
  • Comprensione di Immagini Mediche: GPT-4V dimostra una comprensione basilare delle immagini mediche, come le radiografie, e può effettuare ragionamenti basati sul contesto visivo.
  • Riconoscimento di Loghi: Il modello è in grado di identificare loghi anche in scenari difficili, come quando sono parzialmente oscurati o distorti.
  • Comprensione della Scena: GPT-4V è in grado di descrivere strade e la posizione e il colore dei veicoli, e può anche leggere e notare il limite di velocità per una determinata strada.

Questo insieme di competenze dimostra la notevole capacità di GPT-4V di interpretare e interagire con il mondo visivo in modi che vanno ben oltre la semplice etichettatura o riconoscimento di oggetti.

Localizzazione degli Oggetti, Conteggio e Didascalie Dense in GPT-4V

Nell’ambito della computer vision e dell’intelligenza artificiale, la capacità di comprendere e interpretare il mondo visivo è fondamentale. GPT-4V, come modello multimodale avanzato, offre alcune funzionalità eccezionali in questo dominio. Questa sezione si concentra su tre aspetti chiave delle capacità di GPT-4V:

  • la comprensione delle relazioni spaziali,
  • il conteggio degli oggetti
  • la localizzazione degli oggetti.

In particolare, l’ultimo elemento introduce il concetto di “didascalie dense,” un’area emergente e intrigante nel campo della visione-linguaggio.

Comprensione delle Relazioni Spaziali

La comprensione delle relazioni spaziali tra gli esseri umani e gli oggetti in un’immagine è un aspetto fondamentale dell’intelligenza visiva. GPT-4V è in grado di identificare la relazione spaziale tra, ad esempio, un frisbee e un uomo nell’immagine, così come tra un uomo e una macchina. Questo va oltre il semplice riconoscimento e fornisce intuizioni sul modo in cui gli oggetti sono posizionati e interagiscono tra loro all’interno di una scena.

Conteggio degli Oggetti

GPT-4V è inoltre in grado di contare il numero di oggetti specifici presenti in un’immagine. Questa è una caratteristica utile in numerosi scenari applicativi, come l’inventario automatizzato o la sorveglianza. Tuttavia, la precisione del modello può essere compromessa in scene complesse dove gli oggetti sono sovrapposti o nascosti.

Localizzazione degli Oggetti

La localizzazione degli oggetti è un’altra funzione essenziale fornita da GPT-4V. Utilizzando semplici prompt di testo, il modello può generare coordinate di “riquadri delimitatori” per localizzare oggetti o persone all’interno di un’immagine. Questa capacità è particolarmente utile per applicazioni come il riconoscimento facciale, la navigazione autonoma e la sorveglianza.

Didascalie Dense

Ma cosa sono esattamente le “didascalie dense”? Questo termine si riferisce al compito di generare descrizioni dettagliate per ciascuna regione di interesse all’interno di un’immagine. Invece di fornire una singola didascalia che descrive l’intera immagine, la didascalia densa scompone l’immagine in regioni più piccole e fornisce descrizioni separate per ciascuna di esse.

GPT-4V va oltre la semplice generazione di didascalie e offre un livello di dettaglio senza precedenti. Ad esempio, non solo può riconoscere e localizzare varie persone in una foto, ma può anche generare descrizioni concise e informative per ciascuna di esse. Questo è particolarmente utile in contesti come i media, la ricerca e l’analisi di immagini scientifiche, dove una comprensione dettagliata di ogni elemento di un’immagine può essere cruciale.

Conoscenza Multimodale e Senso Comune in GPT-4V

Gli esperimenti condotti da OpenAI hanno esplorato diverse aree nelle quali GPT-4V mostra competenze.

Comprendere Barzellette e Meme

OpenAI ha esaminato come GPT-4V affronta il complesso compito di comprendere barzellette e meme, che spesso fanno riferimento a specifici eventi, cultura pop o tendenze su Internet. I risultati mostrano che GPT-4V ha una notevole capacità di raccogliere informazioni sia da modalità visive che testuali e di comprendere l’umorismo incorporato nei meme.

Scienza e Conoscenza

Gli esperimenti di OpenAI hanno ulteriormente valutato la capacità di GPT-4V in compiti che richiedono ragionamento scientifico. Le domande poste coprono una vasta gamma di argomenti, tra cui geografia, fisica, biologia e scienze della terra. I risultati indicano che GPT-4V è in grado di rispondere correttamente alle domande scientifiche basate sul contesto visivo. Ad esempio, riconosce la velocità media delle particelle in diversi campioni e utilizza queste informazioni per rispondere correttamente a domande sulla temperatura.

Ragionamento Multimodale di Senso Comune

In un altro insieme di esperimenti, OpenAI ha valutato la capacità di GPT-4V nel ragionamento multimodale di senso comune. GPT-4V dimostra di utilizzare efficacemente le bounding box presentate nell’immagine come prompt visivi per riconoscere le azioni eseguite dagli individui nella scena. Ad esempio, può inferire che due persone in abiti formali stiano partecipando a una cerimonia nuziale basandosi sulle decorazioni floreali presenti.

Questi esperimenti mostrano che GPT-4V è uno strumento potente e flessibile per una varietà di compiti che richiedono sia elaborazione del linguaggio naturale che comprensione visiva.

Comprensione e Ragionamento su Testo di Scena, Tabelle, Grafici e Documenti

Comprensione del Testo di Scena

Gli esperimenti di OpenAI hanno esplorato la capacità di GPT-4V di riconoscere il testo in varie scene utilizzando il prompt “What are all the scene text in the image?”. I risultati mostrano che il modello identifica accuratamente il testo in diversi scenari, inclusi testi scritti a mano e stampati.

Ragionamento Matematico Visuale

GPT-4V ha dimostrato di essere capace di risolvere problemi matematici visivi, come identificare la presenza di un triangolo rettangolo e determinare le misure dei suoi lati. Il modello tende anche a presentare soluzioni in modo ben strutturato, risolvendo il problema passo dopo passo.

Comprensione e Ragionamento su Grafici

Gli esperimenti hanno ulteriormente esplorato la capacità di GPT-4V nella comprensione e nel ragionamento su grafici. Il modello non solo comprende il contenuto dei grafici ma può anche rispondere a domande basate su di essi. Ad esempio, è in grado di calcolare il costo medio totale del carburante, escludendo un particolare modello di auto.

Comprensione e Ragionamento su Tabelle

Anche qui, GPT-4V mostra risultati promettenti. Può capire i dettagli nelle tabelle e rispondere accuratamente alle domande correlate. Ad esempio, può determinare quale paese ha il margine di profitto più alto.

Comprensione dei Documenti

Gli esperimenti hanno anche toccato la capacità di GPT-4V di comprendere vari tipi di documenti, come piani di pavimentazione, poster e documenti d’esame. Il modello fornisce risposte ragionevoli a domande poste su questi documenti. Ad esempio, può identificare correttamente la posizione del bagno per la seconda camera da letto in un piano di pavimentazione.

Comprensione di Rapporti Tecnici Multi-pagina

In un caso più impegnativo, GPT-4V è stato testato su un rapporto tecnico multi-pagina. Il modello mostra risultati impressionanti nel descrivere l’idea principale e il metodo proposto, sebbene possa occasionalmente perdere alcuni dettagli di implementazione.

In sintesi, questi esperimenti rivelano che GPT-4V è altamente competente in una varietà di compiti che vanno dalla comprensione del testo in scene visive al ragionamento su tabelle, grafici e documenti complessi.

Comprensione Multilingue e Multimodale di GPT-4V

Comprendere più lingue e modalità

Gli esperimenti condotti da OpenAI per questa sezione valutano le capacità di GPT-4V nel comprendere multiple lingue e modalità. Innanzitutto, il modello è stato testato su immagini naturali senza testo di scena. Utilizzando prompt di testo come “Describe the image” in diverse lingue come cinese, francese e ceco, GPT-4V è stato in grado di riconoscere il prompt e generare descrizioni accurate nelle lingue corrispondenti.

Quando il prompt di input è in inglese ma specifica la lingua di output desiderata, il modello segue le istruzioni e genera descrizioni corrette nelle lingue richieste. In un altro esperimento, con un prompt di input in spagnolo, GPT-4V è stato in grado di generare descrizioni di immagini in 20 lingue diverse, dimostrando la sua capacità di elaborare sia il testo di input che di output in diverse lingue.

Comprensione e Traduzione del Testo di Scena Multilingue

In questa parte, GPT-4V è stato testato sulla sua capacità di riconoscere e comprendere il testo di scena in varie lingue. Non solo riconosce il testo, ma può anche tradurlo in una lingua diversa. Ad esempio, quando viene fornito uno screenshot di un sito web Wikipedia in catalano, il modello non solo riconosce il testo in quella lingua ma è anche in grado di generare riassunti precisi e tradurli in 20 lingue diverse.

Comprensione Multiculturale

Infine, gli esperimenti hanno esplorato la capacità del modello di comprendere le sfumature culturali. GPT-4V mostra un’abilità notevole nel comprendere queste sfumature e nel generare descrizioni ragionevoli in più lingue per le immagini di matrimoni fornite.

Programmazione e capacità di Visione di GPT-4V

Generazione di Codice LaTeX da Input Manoscritto

GPT-4V è in grado di generare codice LaTeX basato su equazioni matematiche scritte a mano. Il modello è in grado di assistere gli utenti nel scrivere equazioni in LaTeX in modo più efficiente. Tuttavia, il modello incontra delle difficoltà quando si tratta di generare codice per equazioni più lunghe e complesse. La soluzione a questo problema è stata quella di scomporre le equazioni più lunghe in componenti più piccole e gestibili, consentendo così al modello di generare il codice appropriato.

Scrittura di Codice in Altri Linguaggi

Infine GPT-4V è in gradi di scrivere codice in Python, TikZ e SVG per replicare una figura fornita come input. Sebbene l’output generato non sia una corrispondenza esatta con la figura di input, il layout è simile e il codice può essere facilmente modificato per soddisfare esigenze specifiche.

Interazione con gli umani: Visual Referring Prompting

Indicatori Visivi e Descrizioni Collegati al Contesto

GPT-4V ha la capacità di interpretare “puntatori visivi” come cerchi, scatole e disegni a mano che sono sovrapposti alle immagini. Questa funzione è particolarmente utile per le descrizioni ancorate, consentendo al modello di focalizzarsi su aree specifiche all’interno di un’immagine senza perdere il contesto globale.

In sostanza, può dare una descrizione mirata di un’area specifica, come una bottiglia di birra su un tavolo, pur mantenendo informazioni sul contesto circostante, come altri oggetti sul tavolo.

Coordinate Numeriche vs Puntatori Visivi

Una funzione interessante è che il modello può anche interpretare le coordinate numeriche di una regione all’interno di un’immagine, sebbene la precisione sia leggermente inferiore rispetto all’uso di puntatori visivi. Questo solleva la questione di come esattamente il modello “veda” e “interpreta” le informazioni visive, che sembra essere migliorata rispetto ai modelli precedenti.

Visual Referring Prompting

Un altro aspetto interessante è il “visual referring prompting”, che permette una forma di interazione più intuitiva con il modello. Invece di dover descrivere ciò che si vuole sapere, si può semplicemente disegnare un cerchio o una freccia sull’immagine. È come se il modello potesse ‘leggere’ il linguaggio visuale, rendendo l’interazione molto più naturale e fluida.

Capire il Tempo e i Video con GPT-4V

GPT-4V oltre a interpretare immagini statiche, è anche molto capace di comprendere sequenze temporali e contenuti video.

Sequenze Multi-Immagine

GPT-4V può analizzare frame per frame una sequenza video, offrendo un contesto più profondo. Non si limita a riconoscere l’ambiente, ma interpreta anche le azioni svolte dalle persone nel video. Questa capacità di leggere le “sfumature” del movimento umano aggiunge un livello di dettaglio che va oltre il semplice riconoscimento di oggetti e scene.

Ordinamento Temporale

GPT-4V è anche un asso nel mettere in ordine cronologico una serie di immagini mescolate. Che si tratti di preparare sushi o di aprire una porta, il modello è in grado di stabilire la sequenza logica e temporalmente accurata degli eventi.

Anticipazione Temporale

Immaginate di vedere i primi frame di un calcio di rigore in una partita di calcio. GPT-4V può anticipare le azioni successive sia del calciatore che del portiere, grazie alla sua comprensione delle regole e della struttura del gioco.

Localizzazione e Ragionamento Temporale

Il modello può identificare il momento preciso in cui un giocatore colpisce la palla e può anche dedurre, attraverso il ragionamento, se il portiere riuscirà a bloccare il tiro. Questo mostra un notevole livello di sofisticazione nel ragionamento del modello.

Comprensione Temporale Ancorata

Infine, GPT-4V può focalizzarsi su una persona di interesse in una sequenza di immagini, fornendo un contesto temporale alle sue azioni. Questo aggiunge un ulteriore livello di profondità, permettendo al modello di interpretare non solo il flusso temporale degli eventi, ma anche il tono e la natura delle interazioni che stanno avvenendo.

Abstract Visual Reasoning e Test di Quoziente Intellettivo con GPT-4V

Una delle caratteristiche più affascinanti di GPT-4V è la sua capacità di ragionare su stimoli visivi astratti. In pratica, GPT-4V è stato messo alla prova attraverso vari tipi di test di Intelligenza Quoziente (IQ) umani per valutare le sue abilità in questo ambito.

Stimoli Visivi Astratti

Il modello è stato testato con un rompicapo geometrico chiamato tangram, che consiste in sette pezzi piani chiamati “tans”. GPT-4V è stato in grado di interpretare queste figure, assegnando loro significati semantici. Ad esempio, ha identificato una figura che meglio rappresenta un’oca in volo, fornendo anche ragionamenti descrittivi per altre figure, come una persona o un robot, una barca o un cappello, un cane o una volpe.

Scoperta e Associazione di Parti e Oggetti

Un’altra abilità testata è stata la capacità del modello di scoprire e associare parti di oggetti in modo semanticamente significativo. Quando gli è stato chiesto di localizzare una parte dell’oggetto in base al suo significato semantico, GPT-4V ha fornito coordinate precise. Ad esempio, ha identificato la testa di un’oca in volo in un’immagine e ha fornito le coordinate (x1, y1, x2, y2) per quella regione.

Scala di Intelligenza di Wechsler per Adulti

GPT-4V è stato anche sottoposto ai test della Scala di Intelligenza di Wechsler per Adulti (WAIS), riconosciuti come uno degli standard d’oro nei test di IQ. Ha mostrato promesse nel ragionamento astratto, rispondendo a domande che richiedevano solo testo, input visivi simbolici e immagini naturali. Ha correttamente identificato, ad esempio, che la mela è l’unico frutto in una lista di verdure.

Matrici Progressive di Raven

Infine, il modello è stato sfidato con le Matrici Progressive di Raven (RPM), un altro test ben noto per misurare il ragionamento astratto. Qui, il modello ha dovuto identificare schemi in matrici di immagini e selezionare l’immagine successiva da una serie di opzioni. GPT-4V ha generato risposte ragionevoli anche quando l’intera pagina di domande gli è stata presentata come un’unica immagine, simile all’approccio umano ai test di IQ.

Emotional Quotient Test con GPT-4V

Leggere le Emozioni dalle Espressioni Facciali

Un altro aspetto cruciale dell’intelligenza, spesso trascurato in favore del quoziente intellettivo (IQ), è il quoziente emotivo (EQ). In questo ambito, GPT-4V è stato sottoposto a una serie di test per valutare la sua capacità di identificare e interpretare le emozioni umane dalle espressioni facciali. E i risultati sono piuttosto impressionanti: il modello è in grado di identificare una gamma di emozioni, da felicità e paura a frustrazione e disgusto, fornendo motivazioni ragionevoli per le sue interpretazioni.

Come il Contenuto Visivo Suscita Emozioni

Non solo, GPT-4V ha dimostrato di comprendere come diversi tipi di contenuti visivi possano suscitare emozioni negli esseri umani. Che si tratti di una foto di un tramonto mozzafiato o di un’immagine che ritrae una situazione di tensione, il modello è in grado di anticipare la gamma di reazioni emotive che tali immagini potrebbero suscitare.

Estetica dell’Immagine

GPT-4V va oltre la semplice identificazione delle emozioni; è anche in grado di giudicare l’estetica delle immagini in base agli standard e alle norme sociali. Ad esempio, tra due immagini, può dire quale è più probabilmente considerata esteticamente piacevole dalla maggior parte delle persone, fornendo ragionamenti sul colore, la varietà e persino la riconoscibilità del luogo ritratto.

Generazione di Output Condizionata dall’Emozione

Infine, ma non meno importante, GPT-4V può generare testo adeguato in base all’emozione percepita o desiderata. Che si tratti di descrivere un’immagine in modo umoristico o di renderla più inquietante, il modello è in grado di calibrare il suo linguaggio per adattarsi al tono emotivo desiderato. Questo è particolarmente utile in contesti come la comunicazione uomo-robot, dove la capacità di adeguare il linguaggio emotivo può fare una grande differenza nell’efficacia della comunicazione.

Nuove Applicazioni Emergenti di GPT-4V 

Rilevamento difetti

Nel contesto industriale, il rilevamento dei difetti è una fase fondamentale per garantire la qualità del prodotto. GPT-4V dimostra notevoli capacità in questo ambito, identificando difetti come fori nelle nocciole o ammaccature nei paraurti delle auto. Tuttavia, mostra alcune limitazioni quando si tratta di prodotti meno comuni o che presentano variazioni nell’aspetto.

Ispezione della sicurezza

Un altro caso d’uso interessante è l’ispezione della sicurezza, in particolare il conteggio dell’Equipaggiamento di Protezione Personale (EPP) in ambienti di lavoro come i cantieri edili. GPT-4V ha mostrato alcune lacune nel rilevare individui senza elmetti, ma combinando il suo ragionamento visivo con rilevatori di persone esterni, le prestazioni migliorano notevolmente.

Casse Automatiche nei Supermercati

Le casse automatiche stanno diventando sempre più popolari nei grandi rivenditori per velocizzare il processo di pagamento. GPT-4V ha il potenziale per semplificare ulteriormente questo processo identificando automaticamente gli articoli nel carrello della spesa senza l’intervento dell’utente.

Ogni una di queste applicazioni mostra come GPT-4V possa essere una risorsa preziosa in una vasta gamma di scenari, dall’industria alla vita quotidiana, fornendo soluzioni efficaci “fuori dalla scatola”.

Ambito Medico – Generazione di Referti Radiologici

L’applicazione di GPT-4V nel campo medico, nello specifico nella generazione di referti radiologici, mostra risultati promettenti ma anche aree di miglioramento. Mentre il modello può identificare correttamente gli studi e fornire diagnosi accurate, ci sono casi in cui manca dettagli cruciali o fornisce informazioni errate.

Per esempio, nel caso di un’immagine a raggi X del polso destro, GPT-4V ha correttamente diagnosticato una frattura del radio distale, ma ha completamente mancato una frattura radiale distale ovvia in un altro esame. In un altro caso, riguardante una TAC del torace, ha identificato erroneamente un nodulo nel lobo superiore sinistro invece che nel lobo superiore destro e ha anche fornito misurazioni errate.

Questi risultati sottolineano l’importanza di avere i referti generati dal modello valutati da professionisti medici per garantire la loro correttezza e precisione. Tuttavia, il modello mostra un potenziale significativo come assistente AI nella generazione di referti radiologici, specialmente quando si tratta di ridurre il carico di lavoro per i professionisti medici.

Assicurazioni Auto

OpenAI ha testato le capacità di GPT-4V nel campo delle assicurazioni auto, concentrandosi su due aree chiave: la valutazione dei danni e la segnalazione all’assicurazione.

Nella valutazione dei danni, il modello ha mostrato un’elevata competenza nell’identificare e descrivere accuratamente i danni alle auto da varie angolazioni, fornendo anche stime sui potenziali costi di riparazione.

Per quanto riguarda la segnalazione all’assicurazione, GPT-4V è stato in grado di estrarre dettagli come marca, modello e targa del veicolo da immagini, presentando le informazioni in formato JSON. Tuttavia, ci sono limiti, come l’incapacità di leggere targhe ostruite o di fornire stime di costo quando le informazioni non sono disponibili.

Generazione di immagini

GPT-4V è stato inoltre esplorato nel contesto della generazione di immagini, con un focus su due aspetti principali: la valutazione delle immagini generate e la generazione di prompt per il fotoritocco.

Valutazione delle Immagini Generate

GPT-4V è in grado di valutare le immagini basate sui prompt di testo originali. Ad esempio, può assegnare un punteggio da 1 a 10 per determinare quanto un’immagine generata sia simile al prompt di testo fornito. Questo è utile non solo per valutare la qualità delle immagini, ma anche per fornire feedback che può essere utilizzato per migliorare ulteriormente i modelli di generazione di immagini.

Generazione di Prompt per il Fotoritocco

Oltre alla valutazione, GPT-4V può anche migliorare il processo di editing delle immagini. Può generare o riscrivere il prompt di testo utilizzato per l’editing, risultando in un’immagine più visivamente accattivante. GPT-4V prende in considerazione le caratteristiche uniche dell’immagine originale per produrre un prompt ottimizzato, il che a sua volta migliora la qualità del fotoritocco.

Navigazione Web

GPT-4V può interagire con l’interfaccia grafica di un computer per eseguire compiti specifici, come cercare una ricetta o leggere le notizie del giorno. Il modello riceve uno screenshot della schermata corrente e una lista di azioni possibili (ad esempio, muovere il mouse o fare clic su un’icona). Quindi, predice le azioni successive per raggiungere l’obiettivo finale. Queste azioni sono poi eseguite manualmente e vengono forniti nuovi screenshot a GPT-4V per guidare le azioni successive.

Shopping Online

Similmente, GPT-4V può navigare nell’interfaccia di uno smartphone per fare shopping online. Il modello viene guidato da screenshot e una lista di azioni possibili. Ad esempio, può prevedere di aprire l’app Amazon, cercare una tastiera ergonomica, applicare un filtro di prezzo, e procedere al checkout.

Comprensione delle Notifiche

GPT-4V è anche capace di interpretare e rispondere a notifiche sullo schermo, come proposte di riunioni o notifiche di chiamate e messaggi.

Visione di Video

GPT-4V può anche descrivere il contenuto di video basandosi su una serie di screenshot. Questo dimostra il suo potenziale nella generazione automatica di trascrizioni per contenuti video generati dagli utenti.

Plugin Multimodali

GPT-4V può essere abilitato ad accedere a informazioni aggiornate attraverso l’uso di plugin come Bing Image Search. Questo è particolarmente utile quando il modello deve identificare informazioni che sono emerse dopo il periodo di addestramento, come nel caso di eventi naturali.

Catene Multimodali

GPT-4V può essere integrato con una serie di plugin per effettuare ragionamenti più avanzati. Ad esempio, può utilizzare strumenti di rilevamento delle persone per contare il numero di individui in un’immagine e successivamente analizzare se indossano determinati equipaggiamenti.

Auto-Riflessione

GPT-4V è capace di auto-riflessione per migliorare le sue prestazioni. Ad esempio, può rivedere e correggere il codice Python generato per disegnare curve, o migliorare le istruzioni di generazione di testo per modelli di arte generativa.

Auto-Coerenza

GPT-4V utilizza una strategia di decodifica che aggrega più output campionati per produrre la risposta finale. Questo è utile, ad esempio, nel conteggio degli oggetti in un’immagine, dove può fornire una risposta più accurata attraverso un voto a maggioranza.

LMM con Recupero di Informazioni Aumentato

GPT-4V può essere ulteriormente potenziato con il recupero di informazioni per compiti specifici. Ad esempio, può essere utile nel checkout della spesa recuperando informazioni specifiche del negozio da un database.

Conclusioni

GPT-4V si è dimostrato notevolmente capace in una vasta gamma di scenari applicativi. Mentre questa relazione cerca di esplorare il più possibile queste capacità, è chiaro che potrebbero esserci altre aree ancora inesplorate. La relazione quindi funge da riferimento per ulteriori ricerche che mirano ad ampliare l’utilizzo e la comprensione dei modelli di linguaggio multimodali (LMM).

Verso i Futuri LMM

I modelli precedenti come GPT-1, GPT-2 e GPT-3 erano principalmente sistemi di input-output basati su testo. GPT-4V, invece, aggiunge una forte competenza nel dominio delle immagini.

Per il futuro, si prevede che gli LMM saranno in grado di generare contenuti testo-immagine intercalati, come tutorial dettagliati che contengono sia testo che immagini. Sarebbe anche vantaggioso aggiungere altre modalità come video, audio e dati da sensori per espandere ulteriormente le capacità degli LMM.

In termini di processo di apprendimento, i modelli attuali si basano in gran parte su dati ben organizzati, come set di dati di immagini etichettate con testo. Tuttavia, un modello più versatile potrebbe essere in grado di apprendere da una varietà di fonti, compreso il contenuto web e persino ambienti fisici reali, per facilitare un’evoluzione continua e autonoma del modello.

In sintesi, il campo degli LMM è in rapida evoluzione e, con l’aggiunta di nuove modalità e capacità, le potenzialità sono praticamente illimitate.

Bibliografia

  1. Yang, Z., Li, L., Lin, K., Wang, J., Lin, C., Liu, Z., & Wang, L. (2023). The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision). ArXiv. /abs/2309.17421