Nell’evoluzione rapida e incessante del campo dell’intelligenza artificiale, DALL-E 3 emerge come un punto di riferimento significativo nel campo della generazione di immagini e si mette in assoluta competizione con Midjourney. DALL-E 3, l’ultimo modello di generazione di immagini da testo, sviluppato da OpenAI, rappresenta un passo avanti notevole nel miglioramento delle capacità di adesione ai prompt. A differenza dei suoi predecessori, DALL-E 3 è stato addestrato su descrizioni di immagini particolarmente dettagliate, risultando in un miglioramento sostanziale nelle sue capacità di generare immagini coerenti e dettagliate.

Cos’è DALL-E 3?

DALL-E 3 è un sistema avanzato per la generazione di immagini a partire da testo, sviluppato da OpenAI. Il modello è stato concepito per migliorare notevolmente le performance in termini di aderenza ai prompt, coerenza e estetica delle immagini generate. A differenza delle versioni precedenti, DALL-E 3 è stato addestrato su didascalie di immagini altamente descrittive, il che ha portato a un incremento significativo delle sue capacità.

Il modello utilizza una combinazione di architetture e algoritmi avanzati che lo rendono un attore di spicco nel panorama delle tecnologie di generazione di immagini. La sua architettura è stata progettata per essere flessibile e per permettere una vasta gamma di applicazioni, dai semplici compiti di generazione di immagini a progetti più complessi che richiedono un elevato livello di dettaglio e coerenza.

Inoltre, la performance di DALL-E 3 è stata confrontata con quella dei suoi concorrenti, dimostrando di avere un margine di vantaggio significativo. Ciò è principalmente dovuto all’utilizzo di didascalie generative altamente descrittive durante la fase di addestramento, un approccio che ha migliorato la sua capacità di seguire i prompt in modo preciso.

immagini-dall-e-3

Alcuni esempi di immagini generate da DALL-E 3 con le relative prompt

Abbiamo poi provato ad utilizzare la stessa identica prompt (la prima a sinistra) nella versione di DALL-E 3 utilizzabile per i possessori di un account PLUS o Enterprise di ChatGPT ed ecco il nostro risultato:

dall-e-3-prove

Miglioramenti rispetto alle versioni precedenti

Una delle principali forze motrici dietro lo sviluppo di DALL-E 3 è stato il desiderio di superare le limitazioni delle versioni precedenti. Mentre il documento originale pubblicato da OpenAI non entra nel dettaglio di tutti i miglioramenti effettuati, è chiaro che vi sono state notevoli ottimizzazioni.

Uno degli aspetti più significativi è l’addestramento del modello su didascalie di immagini altamente descrittive. Questo approccio ha portato a un incremento sostanziale delle performance del modello, in particolare per quanto riguarda l’adesione ai prompt e la coerenza delle immagini generate.

Inoltre, gli sviluppatori sottolineano che i miglioramenti a DALL-E 3 non si limitano a quelli descritti nel paper di presentazione. Alcune delle ottimizzazioni sono state escluse dalla pubblicazione per ragioni di tempo e risorse computazionali, suggerendo che il modello potrebbe avere ulteriori vantaggi non ancora divulgati.

dall-e-addestramento

Come si può vedere infatti da questa immagine, le descrizioni (DSC) fornite al modello su immagini scaricate da internet sono decisamente molto particolareggiate e questo ha fatto la differenza rendendo DALL-E molto più controllabile e preciso nella formulazione delle immagini a partire da testo.

Funzionamento Tecnico

Il funzionamento di DALL-E 3 può essere meglio compreso esaminando il suo metodo di addestramento e i dettagli tecnici sottostanti. Una delle innovazioni chiave sta nella “Rietichettatura del Dataset” (Dataset Recaptioning). Tipicamente, i modelli di testo-immagine vengono addestrati su grandi set di dati composti da coppie di testo e immagine. Tuttavia, le didascalie standard spesso omettono dettagli cruciali come la posizione degli oggetti, il loro numero, e dettagli di buon senso come i colori e le dimensioni.

Costruzione del Captioner di Immagini

DALL-E 3 affronta queste lacune utilizzando un “captioner” di immagini personalizzato, simile a un modello di linguaggio tradizionale. Questo è stato ulteriormente affinato con l’incorporazione di funzioni di incorporamento dell’immagine fornite da CLIP. Il risultato è un modello che non solo genera didascalie precise ma è anche in grado di elaborare un gran numero di valori di pixel in modo efficiente.

Valutazione dei Dataset Rietichettati

Una volta creato il dataset rietichettato, il team di OpenAI ha valutato l’impatto di tali didascalie sintetiche sull’addestramento del modello. Hanno scoperto che l’uso di didascalie sintetiche ha migliorato le prestazioni del modello, sia in termini di aderenza ai prompt che di coerenza generale delle immagini.

Metodologia di Valutazione e Rapporti di Miscelazione

L’efficacia del modello è stata ulteriormente validata utilizzando la metrica CLIP-S, che ha mostrato una forte correlazione nella somiglianza tra testo e immagine. Importante notare, DALL-E 3 ha mostrato miglioramenti significativi quando addestrato su una combinazione di didascalie sintetiche e reali, indicando l’importanza di un equilibrato “rapporto di miscelazione” durante l’addestramento.

Dataset e Addestramento di DALL-E 3

DALL-E 3 è stato addestrato su un dataset che contiene coppie di immagini e descrizioni testuali. Queste descrizioni possono essere sia “sintetiche” (generate da un altro modello di machine learning) sia “ground truth” (descrizioni reali provenienti, ad esempio, da annotatori umani). Il documento suggerisce che le descrizioni sintetiche possono essere più vantaggiose perché possono includere dettagli che normalmente vengono omessi nelle descrizioni umane.

Metriche di Valutazione

Il modello viene valutato utilizzando diverse metriche, tra cui il “CLIP Score”, che misura la similarità tra il testo e l’immagine generata. Un punteggio più alto indica che l’immagine generata è più fedele alla descrizione testuale.

Fine-Tuning e Captioning

Il “fine-tuning” è un processo per migliorare ulteriormente un modello già addestrato. Nel contesto di DALL-E 3, il fine-tuning viene utilizzato per migliorare le descrizioni generate, rendendole più dettagliate o focalizzate su aspetti specifici dell’immagine.

Blending di Caption

Si tratta di una tecnica per mescolare descrizioni sintetiche e ground truth durante l’addestramento. L’idea è che questa combinazione possa portare a un modello più robusto e preciso.

Valutazioni Umane e Automatiche

Oltre alle metriche automatizzate, DALL-E 3 è anche sottoposto a valutazioni umane per misurare la sua efficacia nel generare immagini che sono non solo tecnicamente accurate ma anche esteticamente gradevoli.

Limitazioni di DALL-E 3

Consapevolezza Spaziale (Spatial Awareness)

Nonostante i progressi significativi, DALL-E 3 ha delle difficoltà nel posizionamento degli oggetti e nella comprensione spaziale delle scene. Ad esempio, è poco affidabile quando deve interpretare termini come “a sinistra di”, “sotto”, “dietro”, ecc. Questo è dovuto in parte alle limitazioni delle descrizioni sintetiche usate durante l’addestramento.

Rendering del Testo (Text Rendering)

DALL-E 3 ha la capacità di generare testo all’interno delle immagini, ma questa funzione è poco affidabile. Ad esempio, potrebbero mancare o esserci caratteri extra nelle parole. Ciò potrebbe essere dovuto all’encoder di testo T5 utilizzato nel modello.

Specificità (Specificity)

Il modello tende a “allucinare” dettagli specifici che non sono presenti nel testo originale, come il genere e la specie di una pianta in un disegno botanico. Questo è un problema perché potrebbe generare immagini che non sono fedeli alla descrizione testuale.

Misure di controllo in DALL-E 3

Filtraggio dei Contenuti

Per DALL-E 3 è stato effettuato un attento filtraggio dei dati di addestramento per rimuovere contenuti espliciti, come immagini di violenza, contenuti sessuali e simboli di odio. Questo processo di filtraggio è una versione estesa di quello utilizzato per DALL-E 2. Importante sottolineare che i filtri sono stati resi meno selettivi su determinate categorie, come la sessualizzazione grafica, al fine di ridurre il bias nei confronti delle rappresentazioni femminili, che erano sovrarappresentate nei contenuti filtrati.

Ulteriori Strumenti di Mitigazione

  • Rifiuti da parte di ChatGPT: ChatGPT ha meccanismi esistenti per rifiutare di generare immagini basate su prompt sensibili.
  • Classificatori di Input: Vengono utilizzati classificatori come la Moderation API per identificare messaggi che potrebbero violare le politiche di utilizzo. I prompt che violano queste politiche vengono rifiutati.
  • Liste di Blocco (Blocklists): Sono mantenute liste di termini e categorie da bloccare, informate dai lavori precedenti e dai feedback degli utenti.
  • Trasformazioni dei Prompt: ChatGPT riscrive i testi dei prompt per assicurare che siano in linea con le linee guida, come la rimozione dei nomi di figure pubbliche.
  • Classificatori di Output delle Immagini: Sono stati sviluppati classificatori di immagini che bloccano la produzione di determinate immagini se attivati.

In questo modo, DALL-E 3 incorpora una serie di misure di sicurezza e mitigazione dei rischi, sia a livello di modello che di sistema, per garantire un utilizzo più responsabile e sicuro della tecnologia.

Possibili rischi di DALL-E 3

Stereotipi e Pregiudizi

DALL-E 3 può generare immagini che perpetuano stereotipi e pregiudizi, un rischio particolarmente alto quando vengono usati descrittori come etnia, genere o professione. Per mitigare questo, sono stati implementati filtri e rifiuti automatici che impediscono al modello di generare contenuti potenzialmente offensivi o inappropriati.

Manipolazione dell’Immagine Corporea

Il modello tende a generare immagini che aderiscono agli ideali convenzionali di bellezza, potendo quindi influenzare negativamente la percezione dell’immagine corporea. Per contrastare ciò, il modello è stato specificamente sintonizzato per ridurre la generazione di immagini che potrebbero avere un impatto negativo su questo aspetto.

Disinformazione e Misinformazione

DALL-E 3 ha la capacità di generare immagini fotorealistiche che potrebbero essere utilizzate per diffondere disinformazione. Questo include la capacità di creare eventi fittizi o manipolare immagini di figure pubbliche. Le mitigazioni per questo rischio includono il rifiuto di generare immagini che potrebbero essere utilizzate in modo fuorviante e l’implementazione di ulteriori filtri.

Rischi CBRN (Chimici, Biologici, Radiologici e Nucleari)

Anche se i test di red teaming hanno indicato un rischio minimo, DALL-E 3 ha il potenziale di essere utilizzato per generare informazioni relative a armi CBRN. Per mitigare questo rischio, il modello è stato programmato per rifiutare richieste che potrebbero essere utilizzate per la proliferazione di tali armi.

Violazione di Copyright e Marchi

Il modello può generare immagini che toccano questioni legali come il copyright e i marchi registrati. Per affrontare questo problema, sono state implementate funzioni di rifiuto specifiche e una gestione attenta degli input che potrebbero generare immagini problematiche da un punto di vista legale.

Stili degli Artisti

DALL-E 3 può generare immagini che imitano lo stile di artisti viventi, sollevando questioni etiche all’interno della comunità creativa. Per mitigare questo, è stata implementata una lista di blocco per i nomi degli artisti viventi e il modello rifiuterà di generare immagini che imitano il loro stile.

Così, ogni categoria di rischio viene affrontata da una serie di mitigazioni progettate per minimizzare l’impatto negativo, anche se la vigilanza continua è indispensabile.

Come usare DALL-E-3 con ChatGPT:

Per quanti di voi sono meno interessati ad aspetti tecnici e vogliono semplicemente sperimentare DALL-E 3 qui trovate tutte le possibilità. Usando sia ChatGPT che Bing. Per poter utilizzare DALL-E 3 con ChatGPT è necessario essere iscritti alla versione PLUS e poi seguire le seguenti operazioni

  1. Accedi a ChatGPT e accedi al tuo account OpenAI.
  2. Naviga nella sezione “GPT-4” e seleziona “DALL-E 3” dal menu a discesa.
  3. Inserisci un prompt in ChatGPT che desideri visualizzare.
  4. Il sistema, alimentato da GPT-4, genera automaticamente prompt dettagliati e DALL-E 3 traduce questi in immagini.
  5. Sperimenta con vari prompt e osserva come DALL-E 3 interpreta e visualizza.
  6. Nota: In certi scenari, DALL-E 3 potrebbe segnalare violazioni della politica sui contenuti, specialmente se i prompt riguardano arte protetta da copyright o violenza​.

DALL-E-3-COME-USARLO-CON-CHATGPT

Utilizzare DALL-E-3 con Bing:

Per coloro che non sono iscritti a ChatGPT Plus, Bing offre una via alternativa per utilizzare DALL-E-3 gratuitamente:

  1. Apri Bing Image Creator e accedi con il tuo account Microsoft.
  2. Fornisci un prompt breve o dettagliato, e DALL-E-3 genererà immagini AI di conseguenza.
  3. La piattaforma di Bing genera più immagini contemporaneamente, in modo simile alla funzionalità di ChatGPT.
  4. Ricorda, Bing permette la generazione rapida di fino a 99 immagini al giorno, dopo di che il processo rallenta un po’​2​.

DALL-E insieme a Bing:

L’integrazione con Bing si estende anche a Bing Chat, dove DALL-E-3 è disponibile per una base di utenti più ampia, promuovendo un modello gratuito da testo a immagine accessibile a tutti​. Quando un utente fornisce una descrizione dell’immagine, il modello IA la analizza, creando prompt chepuò comprendere più facilmente, generando così più versioni dell’immagine desiderata.

C’è comunque da tenere presente che il modello di DALL-E 3 che è utilizzato da Bing è significativamente meno performante rispetto a quello a pagamento che potete usare tramite ChatGPT.

bing-dall-e-3

Approfondimenti

DALL·E 3 is now available in ChatGPT Plus and Enterprise. (OpenAI). Retrieved October 30, 2023, from https://openai.com/blog/dall-e-3-is-now-available-in-chatgpt-plus-and-enterprise

DALL·E 3. (n.d.). Retrieved October 30, 2023, from https://openai.com/dall-e-3

Chen, X., Mishra, N., Rohaninejad, M., & Abbeel, P. (2017). PixelSNAIL: An Improved Autoregressive Generative Model. 35th International Conference on Machine Learning, ICML 2018, 2, 1364–1372. Retrieved from https://arxiv.org/abs/1712.09763v1

DALL·E3 SystemCard (OpenAI) 3 ottobre 2023 from https://cdn.openai.com/papers/dall-e-3.pdf

Betker, J et al. (2023) Improving Image Generation with Better Captions (2023) from https://cdn.openai.com/papers/dall-e-3.pdf