Physics in Next-token Prediction: differenze tra le versioni
(Creata pagina con "Categoria:Pubblicazione") |
Nessun oggetto della modifica |
||
Riga 1: | Riga 1: | ||
[[ | {{template pubblicazione | ||
|data=2024 | |||
|autori=Hongjun An, Yiliang Song, Xuelong Li | |||
|URL=https://www.semanticscholar.org/paper/242e3b9006236b44280199da1ec9c60802729fd3 | |||
|topic=Next-token Prediction | |||
|citazioni=0 | |||
}} | |||
Questo studio rivela i principi fisici sottostanti al Next-token Prediction (NTP). Gli autori identificano la legge di conservazione dell'informazione all'interno del NTP e propongono la Prima Legge della Capacità Informativa (IC-1), dimostrando che l'emergere dell'intelligenza nei modelli autoregressivi è fondamentalmente un processo di trasferimento di informazioni. Introducono anche il Principio di Landauer nel NTP, formulando la Seconda Legge della Capacità Informativa (IC-2), che stabilisce la relazione tra l'addestramento del modello autoregressivo e il consumo di energia. Vengono inoltre presentati diversi corollari, che hanno un significato pratico per le pratiche di produzione. Infine, viene dimostrata la coerenza tra la Legge della Capacità Informativa e la Legge di Scalabilità per i Modelli Linguistici Neurali, le Leggi di Scalabilità della Capacità di Conoscenza e le Leggi di Scalabilità per la Precisione. [[Category:Pubblicazione]] | |||
{{#seo: | |||
|title=Physics in Next-token Prediction | |||
|title_mode=append | |||
|keywords=predizione, token, modelli linguistici, intelligenza artificiale, fisica, informazione, energia, legge di scala, capacità informativa, modello autoregressivo | |||
|description=Questo studio svela i principi fisici alla base della predizione del prossimo token (Next-token Prediction, NTP), mostrando come l'emergere dell'intelligenza nei modelli autoregressivi sia un processo di trasferimento di informazioni, e correlando l'addestramento del modello al consumo energetico. | |||
|image= | |||
}} |
Versione attuale delle 10:34, 2 gen 2025
Physics in Next-token Prediction | |
---|---|
Data | 2024 |
Autori | Hongjun An, Yiliang Song, Xuelong Li |
URL | https://www.semanticscholar.org/paper/242e3b9006236b44280199da1ec9c60802729fd3 |
Topic | Next-token Prediction |
Citazioni | 0 |
Questo studio rivela i principi fisici sottostanti al Next-token Prediction (NTP). Gli autori identificano la legge di conservazione dell'informazione all'interno del NTP e propongono la Prima Legge della Capacità Informativa (IC-1), dimostrando che l'emergere dell'intelligenza nei modelli autoregressivi è fondamentalmente un processo di trasferimento di informazioni. Introducono anche il Principio di Landauer nel NTP, formulando la Seconda Legge della Capacità Informativa (IC-2), che stabilisce la relazione tra l'addestramento del modello autoregressivo e il consumo di energia. Vengono inoltre presentati diversi corollari, che hanno un significato pratico per le pratiche di produzione. Infine, viene dimostrata la coerenza tra la Legge della Capacità Informativa e la Legge di Scalabilità per i Modelli Linguistici Neurali, le Leggi di Scalabilità della Capacità di Conoscenza e le Leggi di Scalabilità per la Precisione.