Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets: differenze tra le versioni
Nessun oggetto della modifica |
Nessun oggetto della modifica |
||
Riga 1: | Riga 1: | ||
{{template pubblicazione | {{template pubblicazione | ||
Riga 13: | Riga 9: | ||
Questo articolo esplora la generalizzazione delle reti neurali su piccoli set di dati generati algoritmicamente. Gli autori dimostrano che le reti neurali possono imparare un modello nei dati attraverso un processo di "grokking", migliorando le prestazioni di generalizzazione dal livello casuale alla generalizzazione perfetta, e che questo miglioramento nella generalizzazione può verificarsi ben oltre il punto di overfitting. | Questo articolo esplora la generalizzazione delle reti neurali su piccoli set di dati generati algoritmicamente. Gli autori dimostrano che le reti neurali possono imparare un modello nei dati attraverso un processo di "grokking", migliorando le prestazioni di generalizzazione dal livello casuale alla generalizzazione perfetta, e che questo miglioramento nella generalizzazione può verificarsi ben oltre il punto di overfitting. | ||
=== Collegamenti === | |||
https://www.semanticscholar.org/paper/Grokking%3A-Generalization-Beyond-Overfitting-on-Power-Burda/a1d1983a7b19845141e6505bd32dc395e5a136ba | |||
https://www.youtube.com/watch?v=Nvb_4Jj5kBo |
Versione attuale delle 10:10, 19 ago 2024
Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets | |
---|---|
Data | 2022 |
Autori | Alethea Power, Yuri Burda, Harrison Edwards, Igor Babuschkin, Vedant Misra |
URL | https://www.semanticscholar.org/paper/a1d1983a7b19845141e6505bd32dc395e5a136ba |
Topic | Grokking |
Citazioni | 223 |
Questo articolo esplora la generalizzazione delle reti neurali su piccoli set di dati generati algoritmicamente. Gli autori dimostrano che le reti neurali possono imparare un modello nei dati attraverso un processo di "grokking", migliorando le prestazioni di generalizzazione dal livello casuale alla generalizzazione perfetta, e che questo miglioramento nella generalizzazione può verificarsi ben oltre il punto di overfitting.