Vocabolario

Da Wiki AI.
Versione del 5 set 2024 alle 10:46 di Alesaccoia (discussione | contributi) (Creata pagina con "In un modello di linguaggio, il '''vocabolario''' è l'insieme '''<u>finito</u>''' di parole e simboli, chiamati genericamente '''token''', che il modello è in grado di riconoscere, elaborare e generare. Ogni token del vocabolario ha una sua rappresentazione numerica che viene utilizzata come input per la rete neurale. Durante l'addestramento, il modello impara a predire la probabilità dei vari token nel vocabolario, '''dato''' '''un contesto'''. Il vocabolario è...")
(diff) ← Versione meno recente | Versione attuale (diff) | Versione più recente → (diff)

In un modello di linguaggio, il vocabolario è l'insieme finito di parole e simboli, chiamati genericamente token, che il modello è in grado di riconoscere, elaborare e generare. Ogni token del vocabolario ha una sua rappresentazione numerica che viene utilizzata come input per la rete neurale.

Durante l'addestramento, il modello impara a predire la probabilità dei vari token nel vocabolario, dato un contesto. Il vocabolario è di dimensione fissa e viene definito in fase di preparazione dei dati; esso rappresenta una parte importante del modello, poiché un vocabolario più ampio permette di rappresentare una maggiore varietà di espressioni linguistiche, ma comporta anche una maggiore complessità computazionale. Per il modello GPT-3 i token sono circa 50000.