Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets: differenze tra le versioni

Da Wiki AI.
(Creata pagina con "=== Collegamenti === https://www.semanticscholar.org/paper/Grokking%3A-Generalization-Beyond-Overfitting-on-Power-Burda/a1d1983a7b19845141e6505bd32dc395e5a136ba https://www.youtube.com/watch?v=Nvb_4Jj5kBo Categoria:Pubblicazione")
 
Nessun oggetto della modifica
Riga 4: Riga 4:
https://www.youtube.com/watch?v=Nvb_4Jj5kBo
https://www.youtube.com/watch?v=Nvb_4Jj5kBo


[[Categoria:Pubblicazione]]
{{template pubblicazione
|data=2022
|autori=Alethea Power, Yuri Burda, Harrison Edwards, Igor Babuschkin, Vedant Misra
|URL=https://www.semanticscholar.org/paper/a1d1983a7b19845141e6505bd32dc395e5a136ba
|topic=Grokking
|citazioni=223
}}
 
Questo articolo esplora la generalizzazione delle reti neurali su piccoli set di dati generati algoritmicamente. Gli autori dimostrano che le reti neurali possono imparare un modello nei dati attraverso un processo di "grokking", migliorando le prestazioni di generalizzazione dal livello casuale alla generalizzazione perfetta, e che questo miglioramento nella generalizzazione può verificarsi ben oltre il punto di overfitting.

Versione delle 10:10, 19 ago 2024

Collegamenti

https://www.semanticscholar.org/paper/Grokking%3A-Generalization-Beyond-Overfitting-on-Power-Burda/a1d1983a7b19845141e6505bd32dc395e5a136ba

https://www.youtube.com/watch?v=Nvb_4Jj5kBo

Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
Data 2022
Autori Alethea Power, Yuri Burda, Harrison Edwards, Igor Babuschkin, Vedant Misra
URL https://www.semanticscholar.org/paper/a1d1983a7b19845141e6505bd32dc395e5a136ba
Topic Grokking
Citazioni 223


Questo articolo esplora la generalizzazione delle reti neurali su piccoli set di dati generati algoritmicamente. Gli autori dimostrano che le reti neurali possono imparare un modello nei dati attraverso un processo di "grokking", migliorando le prestazioni di generalizzazione dal livello casuale alla generalizzazione perfetta, e che questo miglioramento nella generalizzazione può verificarsi ben oltre il punto di overfitting.