Training Compute-Optimal Large Language Models: differenze tra le versioni

Versione attuale delle 22:39, 27 nov 2024

Training Compute-Optimal Large Language Models
Data	2021
Autori	J. Kaplan, Sam McCandlish, T. Henighan, Tom B. Brown, B. Chess, R. Child, Scott Gray, Alec Radford, Jeff Wu, Dario Amodei
URL	https://www.semanticscholar.org/paper/e6c561d02500b2596a230b341a8eb8b921ca5bf2
Topic	Modelli Linguistici Neurali
Citazioni	3449

Questo studio esplora le leggi di scaling empiriche per le prestazioni dei modelli linguistici sulla base della perdita di entropia incrociata.

La perdita (loss) scala come in modalità power-law con la dimensione del modello, la dimensione del set di dati e la quantità di calcolo utilizzata per l'addestramento

Altri dettagli architetturali, come la larghezza o la profondità della rete hanno effetti minimi entro un'ampia gamma.

Equazioni semplici governano la dipendenza dell'overfitting dalla dimensione del modello/dataset e la dipendenza della velocità di addestramento dalla dimensione del modello. Queste relazioni consentono di determinare l'allocazione ottimale di un budget di calcolo.

I modelli più grandi sono significativamente più efficienti in termini di campioni, in modo tale che l'addestramento ottimale dal punto di vista computazionale prevede l'addestramento di modelli molto grandi su una quantità relativamente modesta di dati e di fermare l'addrestramento significativamente prima della convergenza.

@@ Riga 7: / Riga 7: @@
 }}
-Questo studio esplora le leggi di scaling empiriche per le prestazioni dei modelli linguistici sulla base della perdita di entropia incrociata. La perdita scala come una legge di potenza con la dimensione del modello, la dimensione del set di dati e la quantità di calcolo utilizzata per l'addestramento, con alcune tendenze che abbracciano più di sette ordini di grandezza.  Altri dettagli architetturali, come la larghezza o la profondità della rete, hanno effetti minimi entro un'ampia gamma. Equazioni semplici governano la dipendenza dell'overfitting dalla dimensione del modello/dataset e la dipendenza della velocità di addestramento dalla dimensione del modello. Queste relazioni consentono di determinare l'allocazione ottimale di un budget di calcolo fisso. I modelli più grandi sono significativamente più efficienti in termini di campioni, in modo tale che l'addestramento ottimale dal punto di vista computazionale prevede l'addestramento di modelli molto grandi su una quantità relativamente modesta di dati e l'arresto significativamente prima della convergenza.
+Questo studio esplora le leggi di scaling empiriche per le prestazioni dei modelli linguistici sulla base della perdita di [[Funzione Obiettivo (loss)|entropia incrociata]].
+La perdita ('''[[Funzione Obiettivo (loss)|loss]])''' scala come in modalità power-law con la dimensione del modello, la dimensione del set di dati e la quantità di calcolo utilizzata per l'addestramento
+Altri dettagli architetturali, come la larghezza o la profondità della rete hanno effetti minimi entro un'ampia gamma.
+Equazioni semplici governano la dipendenza dell'overfitting dalla dimensione del modello/dataset e la dipendenza della velocità di addestramento dalla dimensione del modello. Queste relazioni '''consentono di determinare l'allocazione ottimale di un budget di calcolo'''.
+I modelli più grandi sono significativamente più efficienti in termini di campioni, in modo tale che l'addestramento ottimale dal punto di vista computazionale prevede l'addestramento di modelli molto grandi su una quantità relativamente modesta di dati e di '''fermare l'addrestramento significativamente prima della convergenza'''.
 {{#seo: