Vocabolario
In un modello di linguaggio, il vocabolario è l'insieme finito di parole e simboli, chiamati genericamente token, che il modello è in grado di riconoscere, elaborare e generare. Ogni token del vocabolario ha una sua rappresentazione numerica che viene utilizzata come input per la rete neurale.
Durante l'addestramento, il modello impara a predire la probabilità dei vari token nel vocabolario, dato un contesto. Il vocabolario è di dimensione fissa e viene definito in fase di preparazione dei dati; esso rappresenta una parte importante del modello, poiché un vocabolario più ampio permette di rappresentare una maggiore varietà di espressioni linguistiche, ma comporta anche una maggiore complessità computazionale. Per il modello GPT-3 i token sono circa 50000.