Training Compute-Optimal Large Language Models: differenze tra le versioni
(Creata pagina con "Categoria:Pubblicazione") |
Nessun oggetto della modifica |
||
| (Una versione intermedia di un altro utente non mostrate) | |||
| Riga 1: | Riga 1: | ||
[[ | {{template pubblicazione | ||
|data=2021 | |||
|autori=J. Kaplan, Sam McCandlish, T. Henighan, Tom B. Brown, B. Chess, R. Child, Scott Gray, Alec Radford, Jeff Wu, Dario Amodei | |||
|URL=https://www.semanticscholar.org/paper/e6c561d02500b2596a230b341a8eb8b921ca5bf2 | |||
|topic=Modelli Linguistici Neurali | |||
|citazioni=3449 | |||
}} | |||
Questo studio esplora le leggi di scaling empiriche per le prestazioni dei modelli linguistici sulla base della perdita di [[Funzione Obiettivo (loss)|entropia incrociata]]. | |||
La perdita ('''[[Funzione Obiettivo (loss)|loss]])''' scala come in modalità power-law con la dimensione del modello, la dimensione del set di dati e la quantità di calcolo utilizzata per l'addestramento | |||
Altri dettagli architetturali, come la larghezza o la profondità della rete hanno effetti minimi entro un'ampia gamma. | |||
Equazioni semplici governano la dipendenza dell'overfitting dalla dimensione del modello/dataset e la dipendenza della velocità di addestramento dalla dimensione del modello. Queste relazioni '''consentono di determinare l'allocazione ottimale di un budget di calcolo'''. | |||
I modelli più grandi sono significativamente più efficienti in termini di campioni, in modo tale che l'addestramento ottimale dal punto di vista computazionale prevede l'addestramento di modelli molto grandi su una quantità relativamente modesta di dati e di '''fermare l'addrestramento significativamente prima della convergenza'''. | |||
{{#seo: | |||
|title=Training Compute-Optimal Large Language Models | |||
|title_mode=append | |||
|keywords=modelli linguistici, apprendimento automatico, intelligenza artificiale, elaborazione del linguaggio naturale, reti neurali, legge di scaling, perdita di entropia incrociata, overfitting, velocità di addestramento, allocazione del budget di calcolo | |||
|description=Questo studio esplora come la performance dei modelli linguistici scala in base alla perdita di entropia incrociata, alla dimensione del modello, del dataset e al calcolo impiegato. Modelli più grandi sono più sample-efficient, suggerendo che l'addestramento ottimale dal punto di vista computazionale consiste nell'allenare modelli molto grandi su quantità di dati relativamente ridotte. | |||
}} | |||
Versione attuale delle 22:39, 27 nov 2024
| Training Compute-Optimal Large Language Models | |
|---|---|
| Data | 2021 |
| Autori | J. Kaplan, Sam McCandlish, T. Henighan, Tom B. Brown, B. Chess, R. Child, Scott Gray, Alec Radford, Jeff Wu, Dario Amodei |
| URL | https://www.semanticscholar.org/paper/e6c561d02500b2596a230b341a8eb8b921ca5bf2 |
| Topic | Modelli Linguistici Neurali |
| Citazioni | 3449 |
Questo studio esplora le leggi di scaling empiriche per le prestazioni dei modelli linguistici sulla base della perdita di entropia incrociata.
La perdita (loss) scala come in modalità power-law con la dimensione del modello, la dimensione del set di dati e la quantità di calcolo utilizzata per l'addestramento
Altri dettagli architetturali, come la larghezza o la profondità della rete hanno effetti minimi entro un'ampia gamma.
Equazioni semplici governano la dipendenza dell'overfitting dalla dimensione del modello/dataset e la dipendenza della velocità di addestramento dalla dimensione del modello. Queste relazioni consentono di determinare l'allocazione ottimale di un budget di calcolo.
I modelli più grandi sono significativamente più efficienti in termini di campioni, in modo tale che l'addestramento ottimale dal punto di vista computazionale prevede l'addestramento di modelli molto grandi su una quantità relativamente modesta di dati e di fermare l'addrestramento significativamente prima della convergenza.