Il 29 novembre 2022 è uscito”text-davinci-3″ il nuovo modello di GPT-3 creato da OpenAI. Il nuovo modello integra i precedenti modelli InstructGPT e migliora una serie di comportamenti basandosi sui feedback raccolti in questi mesi da parte di diversi sviluppatori e partecipanti alla fase di beta. Nello specifico “text-davinci-3” sembra migliorare la giù alta qualità del testo prodotto, gestisce meglio istruzioni più complesse e articolate ed è migliore nel creare testi lunghi. Abbiamo provato il nuovo modello e vi raccontiamo la nostra esperienza. Potete sperimentare gratuitamente anche voi il nuovo modello utilizzando ChatGPT.

Limiti dei modelli precedenti di GPT-3

Come tutti i progetti work in progress, anche le intelligenze artificiali mostrano dei limiti. Come gli stessi ricercatori di OpenAI dichiarano, GPT-3 è stato addestrato per prevedere la parola successiva su un ampio set di testi presi su Internet.

Questo determina che il modello non è sempre in grado di eseguire in modo sicuro il compito linguistico desiderato dall’utente.

Nello specifico i modelli GPT mostravano alcuni problemi:

  • linguaggio tossico: in alcuni casi il contenuto prodotto poteva essere verbalmente aggressivo o offensivo verso alcune categorie di persone.
  • allucinazioni: di fronte a domande specifiche il modello poteva inventare fatti, nomi o produzioni di fantasia, generando quindi risposte false.
  • appropriatezza: non sempre l’output prodotto da GPT-3 aveva una buona appropriatezza, discostandosi dalle attese dell’utente.

Cosa sono i modelli InstructGPT?

Per rendere i modelli più sicuri, più utili e più allineati alle esigenze degli utenti, i programmatori di OpenAI hanno sviluppato modelli più raffinati chiamati InstructGPT.

Per allenare questi modelli sono stati eseguiti 3 step che hanno coinvolto 40 valutatori umani. I modelli precedenti infatti si basavano esclusivamente sull’analisi dei testi on line, senza una supervisione umana.

Prima fase

Sono stati raccolti i prompt forniti da diversi clienti di OpenAI tramite il Playground dell’applicazione stessa. É stato quindi chiesto ai 40 valutatori di rispondere direttamente alle prompt fornendo delle risposte scritte che sono state collezionate in un dataset.

Questi dati sono stati utilizzati per allenare un primo modello supervisionato dall’uomo che è stato utilizzato come baseline.

Seconda fase

Nella fase successiva un singolo prompt è stato campionato insieme a diverse tipologie di risposte. É stato quindi chiesto agli sperimentatori umani di valutare le diverse risposte attribuendo a ciascuna di esse un punteggio di appropriatezza. Valutando quindi le risposte migliori e quelle peggiori.

Questi dati sono stati utilizzati per costruire un modello di rinforzo per prevedere quali output erano considerati migliori dai valutatori umani.

Terza fase

Nella terza fase sono stati forniti al modello nuovi prompt per fornire nuove risposte. Queste nuove risposte sono state pesate attraverso il modello di rinforzo in modo da massimizzare il reward, con l’obiettivo di migliorare gli output e renderli più simili a quelli “premiati” dall’utente umano.

Dall’altra ridurre le probabilità dell’emissione di contenuto tossico, rendendo così il modello più allineato alla policy di OpenAI.

InstructGPT-3

Immagine tratta da: Ouyang, L., Wu, J., Jiang, X., Almeida, D., Wainwright, C. L., Mishkin, P., Zhang, C., Agarwal, S., Slama, K., Ray, A., Schulman, J., Hilton, J., Kelton, F., Miller, L., Simens, M., Askell, A., Welinder, P., Christiano, P., Leike, J., & Lowe, R. (2022). Training language models to follow instructions with human feedback. https://doi.org/10.48550/arxiv.2203.02155

 

Text-davinci-003

Abbiamo quindi provato direttamente text-davinci-003 utilizzando il Playground di OpenAI (Se qualcuno volesse provare a sua volta può seguire le indicazioni su come accedere a GPT-3 di OpenAI) per eseguire alcuni banali compiti.

Come sfruttare le intelligenze artificiali nello sviluppo di applicazioni web

Abbiamo sempre chiesto a GPT-3 quali sono i vantaggi e gli svantaggi nell’utilizzare intelligenze artificiali nello sviluppo di applicazioni web.

Qui avete le risposte di GPT-3:

Vantaggi

  • Possibilità di creare applicazioni web più intelligenti, che possono apprendere e adattarsi in base alle circostanze
  • Migliore esperienza utente grazie alla possibilità di personalizzare le applicazioni in base alle preferenze degli utenti
  • Risparmio di costi riducendo il tempo necessario per lo sviluppo delle applicazioni
  • Possibilità di realizzare in breve tempo applicazioni con capacità di analisi avanzate

Svantaggi

  • La complessità delle tecnologie di IA può essere un ostacolo per alcuni sviluppatori
  • I costi iniziali per l’implementazione possono essere elevati
  • La mancanza di controllo dei dati trattati da alcune applicazioni di IA può comportare problemi di privacy e di sicurezza
  • Le applicazioni IA possono essere soggette a errori e risultati imprevisti

Dimostra il teorema del limite centrale usando Python

Il teorema del limite centrale afferma che, quando si hanno un numero sufficientemente alto di variabili casuali indipendenti e identicamente distribuite, la distribuzione della loro media tende a convergere verso una distribuzione normale.

Abbiamo chiesto a GPT-3 di dimostrare questo teorema utilizzando Python.

Questa è la risposta:

Per provare text-davinci-003

Se volte anche voi sperimentare text-davinci-003 potete utilizzare ChatGPT, che sta spopolando in questi mesi online.

OpenAI ha infatti deciso di rendere pubblico e gratuito il modello, con alcuni limiti, e questo sta generando un interesse incredibile in tutto il mondo.

Conclusioni

Da una prima analisi di text-davinci-003 possiamo quindi ritenere che ci sia un sensibile miglioramento rispetto a text-davinci-002.

Nello specifico quello che abbiamo potuto osservare è una maggiore precisione nel cogliere il nostro prompt e fornire la risposta attesa.

Inoltre la quantità di testo prodotta e la sua qualità sono sensibilmente aumentate. Il che ci fa ben sperare nel nuovo, ormai speriamo imminente, rilascio di GPT-4.

Per approfondimenti

  • Christiano, P. F., Leike, J., Brown, T. B., Martic, M., Legg, S., & Amodei, D. (2017). Deep reinforcement learning from human preferences. Advances in Neural Information Processing Systems, 2017-December, 4300–4308.
  • Aligning Language Models to Follow Instructions. (n.d.). Retrieved November 29, 2022, from https://openai.com/blog/instruction-following/
  • Ouyang, L., Wu, J., Jiang, X., Almeida, D., Wainwright, C. L., Mishkin, P., Zhang, C., Agarwal, S., Slama, K., Ray, A., Schulman, J., Hilton, J., Kelton, F., Miller, L., Simens, M., Askell, A., Welinder, P., Christiano, P., Leike, J., & Lowe, R. (2022). Training language models to follow instructions with human feedback. https://doi.org/10.48550/arxiv.2203.02155
  • Our approach to alignment research. (n.d.). Retrieved November 29, 2022, from https://openai.com/blog/our-approach-to-alignment-research/