LayerNorm: differenze tra le versioni
Nessun oggetto della modifica |
Nessun oggetto della modifica |
||
Riga 5: | Riga 5: | ||
Tecnica di normalizzazione dei layer dei modelli di [[Rete Neurale Ricorrente (RNN)]] e [[Transformer]]. | Tecnica di normalizzazione dei layer dei modelli di [[Rete Neurale Ricorrente (RNN)]] e [[Transformer]]. | ||
https://arxiv.org/abs/1607.06450 | === Links === | ||
[https://arxiv.org/abs/1607.06450 Layer Normalization] | |||
https://www.lesswrong.com/posts/THzcKKQd4oWkg4dSP/you-can-remove-gpt2-s-layernorm-by-fine-tuning-for-an-hour | |||
[[Categoria:Concetto]] | [[Categoria:Concetto]] |
Versione delle 20:01, 16 ago 2024
LayerNorm | |
---|---|
Nome Inglese | LayerNorm |
Sigla | LayerNorm |
Tecnica di normalizzazione dei layer dei modelli di Rete Neurale Ricorrente (RNN) e Transformer.