Physics in Next-token Prediction: differenze tra le versioni

Da Wiki AI.
(Creata pagina con "Categoria:Pubblicazione")
 
Nessun oggetto della modifica
 
Riga 1: Riga 1:
[[Categoria:Pubblicazione]]
{{template pubblicazione
|data=2024
|autori=Hongjun An, Yiliang Song, Xuelong Li
|URL=https://www.semanticscholar.org/paper/242e3b9006236b44280199da1ec9c60802729fd3
|topic=Next-token Prediction
|citazioni=0
}}
 
Questo studio rivela i principi fisici sottostanti al Next-token Prediction (NTP). Gli autori identificano la legge di conservazione dell'informazione all'interno del NTP e propongono la Prima Legge della Capacità Informativa (IC-1), dimostrando che l'emergere dell'intelligenza nei modelli autoregressivi è fondamentalmente un processo di trasferimento di informazioni. Introducono anche il Principio di Landauer nel NTP, formulando la Seconda Legge della Capacità Informativa (IC-2), che stabilisce la relazione tra l'addestramento del modello autoregressivo e il consumo di energia. Vengono inoltre presentati diversi corollari, che hanno un significato pratico per le pratiche di produzione. Infine, viene dimostrata la coerenza tra la Legge della Capacità Informativa e la Legge di Scalabilità per i Modelli Linguistici Neurali, le Leggi di Scalabilità della Capacità di Conoscenza e le Leggi di Scalabilità per la Precisione. [[Category:Pubblicazione]]
 
{{#seo:
|title=Physics in Next-token Prediction
|title_mode=append
|keywords=predizione, token, modelli linguistici, intelligenza artificiale, fisica, informazione, energia, legge di scala, capacità informativa, modello autoregressivo
|description=Questo studio svela i principi fisici alla base della predizione del prossimo token (Next-token Prediction, NTP), mostrando come l'emergere dell'intelligenza nei modelli autoregressivi sia un processo di trasferimento di informazioni, e correlando l'addestramento del modello al consumo energetico.
|image=
}}

Versione attuale delle 10:34, 2 gen 2025

Physics in Next-token Prediction
Data 2024
Autori Hongjun An, Yiliang Song, Xuelong Li
URL https://www.semanticscholar.org/paper/242e3b9006236b44280199da1ec9c60802729fd3
Topic Next-token Prediction
Citazioni 0


Questo studio rivela i principi fisici sottostanti al Next-token Prediction (NTP). Gli autori identificano la legge di conservazione dell'informazione all'interno del NTP e propongono la Prima Legge della Capacità Informativa (IC-1), dimostrando che l'emergere dell'intelligenza nei modelli autoregressivi è fondamentalmente un processo di trasferimento di informazioni. Introducono anche il Principio di Landauer nel NTP, formulando la Seconda Legge della Capacità Informativa (IC-2), che stabilisce la relazione tra l'addestramento del modello autoregressivo e il consumo di energia. Vengono inoltre presentati diversi corollari, che hanno un significato pratico per le pratiche di produzione. Infine, viene dimostrata la coerenza tra la Legge della Capacità Informativa e la Legge di Scalabilità per i Modelli Linguistici Neurali, le Leggi di Scalabilità della Capacità di Conoscenza e le Leggi di Scalabilità per la Precisione.