Physics in Next-token Prediction
Physics in Next-token Prediction | |
---|---|
Data | 2024 |
Autori | Hongjun An, Yiliang Song, Xuelong Li |
URL | https://www.semanticscholar.org/paper/242e3b9006236b44280199da1ec9c60802729fd3 |
Topic | Next-token Prediction |
Citazioni | 0 |
Questo studio rivela i principi fisici sottostanti al Next-token Prediction (NTP). Gli autori identificano la legge di conservazione dell'informazione all'interno del NTP e propongono la Prima Legge della Capacità Informativa (IC-1), dimostrando che l'emergere dell'intelligenza nei modelli autoregressivi è fondamentalmente un processo di trasferimento di informazioni. Introducono anche il Principio di Landauer nel NTP, formulando la Seconda Legge della Capacità Informativa (IC-2), che stabilisce la relazione tra l'addestramento del modello autoregressivo e il consumo di energia. Vengono inoltre presentati diversi corollari, che hanno un significato pratico per le pratiche di produzione. Infine, viene dimostrata la coerenza tra la Legge della Capacità Informativa e la Legge di Scalabilità per i Modelli Linguistici Neurali, le Leggi di Scalabilità della Capacità di Conoscenza e le Leggi di Scalabilità per la Precisione.