GPT e la Nuova Generazione di Modelli AI

Da Wiki AI.

GPT e la nuova generazione dell'Intelligenza Artificiale

Il 30 Novembre 2022 l'azienda statunitense OpenAI ha rilasciato ChatGPT, il suo chatbot e assistente virtuale. Questo rilascio ha segnato un vero momento di svolta nel campo dell'Intelligenza Artificiale: per la prima volta tutti gli utenti dotati di una connessione internet e di un computer o una smartphone hanno potuto interagire con un sistema di Intelligenza Artificiale general-purpose, cioè slegato da compiti specifici, ma che dà l'impressione di conoscere gran parte dello scibile umano, di ragionare, e di poter aiutare l'utente a risolvere compiti complessi.

ChatGPT è un'interfaccia grafica testuale, ovvero un'applicazione web based, che permette di interagire in maniera intuitiva ed efficiente con il Modello linguistico di grandi dimensioni sviluppato da OpenAI, chiamato GPT-3 e acronimo per Generative Pre-Trained Transformer: modello che poi, nei mesi e negli anni a venire, è costantemente aggiornato e migliorato.

Le caratteristiche principali che hanno decretato il successo planetario di questa applicazione, e il successivo boom di una nuova wave dell'intelligenza artificiale, sono:

  • l'interazione con il modello (chiamata prompting, in quanto si "esorta" il modello a generare una risposta), avviene col linguaggio naturale e non attraverso formule specifiche, come succede per esempio nei classici chatbot aziendali o su Whatsapp. L'interazione pare ammettere anche la presenza errori di ortografia e l'utilizzo di un linguaggio non preciso nel prompting
  • il testo generato dal modello è ricco di sfumature linguistiche, ben formattato, e sorprendentemente ricco di informazioni: risponde correttamente a molti quesiti e pare contenere gran parte dello scibile umano
  • l modello dà l'impressione di comprendere e di sapere scrivere in molti linguaggi: è un modello multilingue
  • durante l'interazione, il modello si rivela molto educato, dando l'impressione di essere un vero assistente umano
  • l'applicazione si ricorda e ha memoria delle interazioni passate, non rispondendo solo a domande puntuali ma dando all'utente la possibilità di instaurare una reale conversazione

Nei prossimi capitoli scopriremo come si è arrivati e quali sono le scoperte più importanti che hanno portato a un tale livello di sofisticazione. Ci concentreremo sui modelli di linguaggio, in quanto le architetture su cui sono basati sono state il vero passo in avanti nell'intelligenza artificiale moderna, e anche i seguenti progressi nel campo, per esempio, della generazione delle immagini, includono spesso le scoperte nate nel campo del linguaggio.

GPT: down the rabbit hole

Utilizzando un'approccio top-down, partendo da cosa succede nel momento in cui si scrive un prompt nell'interfaccia di GPT, ad'esempio la semplice domanda:

Qual'è la capitale della Francia?

La conversazione è visibile sul link a ChatGpt. Il programma risponde correttamente con:

La capitale della Francia è Parigi.

GPT è un modello è detto generativo, in cui le parole, chiamate più precisamente token, vengono generate una di seguito all'altra: per generare la parola successiva, GPT utilizza tutte le parole precedenti, concatenando la domanda e le parole generate fino a quel momento. Prima di interrompersi alla fine frase, il modello viene chiamato 7 volte come mostrato nei seguenti time-step:

(1) Input: Qual'è la capitale della Francia? Output: La
(2) Input: Qual'è la capitale della Francia? La Output: capitale
(3) Input: Qual'è la capitale della Francia? La capitale Output: della
(4) Input: Qual'è la capitale della Francia? La capitale della Output: Francia
(5) Input: Qual'è la capitale della Francia? La capitale della Francia Output: è
(6) Input: Qual'è la capitale della Francia? La capitale della Francia è Output: Parigi
(7) Input: Qual'è la capitale della Francia? La capitale della Francia è Parigi Output: .

La sequenza di token che, a ogni step di esecuzione, viene presentata come input del modello, è chiamata contesto; l'output del modello a ogni time-step viene invece chiamato inferenza.