Physics in Next-token Prediction

Da Wiki AI.
Versione del 2 gen 2025 alle 10:34 di Mindmakerbot (discussione | contributi)
(diff) ← Versione meno recente | Versione attuale (diff) | Versione più recente → (diff)
Physics in Next-token Prediction
Data 2024
Autori Hongjun An, Yiliang Song, Xuelong Li
URL https://www.semanticscholar.org/paper/242e3b9006236b44280199da1ec9c60802729fd3
Topic Next-token Prediction
Citazioni 0


Questo studio rivela i principi fisici sottostanti al Next-token Prediction (NTP). Gli autori identificano la legge di conservazione dell'informazione all'interno del NTP e propongono la Prima Legge della Capacità Informativa (IC-1), dimostrando che l'emergere dell'intelligenza nei modelli autoregressivi è fondamentalmente un processo di trasferimento di informazioni. Introducono anche il Principio di Landauer nel NTP, formulando la Seconda Legge della Capacità Informativa (IC-2), che stabilisce la relazione tra l'addestramento del modello autoregressivo e il consumo di energia. Vengono inoltre presentati diversi corollari, che hanno un significato pratico per le pratiche di produzione. Infine, viene dimostrata la coerenza tra la Legge della Capacità Informativa e la Legge di Scalabilità per i Modelli Linguistici Neurali, le Leggi di Scalabilità della Capacità di Conoscenza e le Leggi di Scalabilità per la Precisione.