Mixture of Experts: differenze tra le versioni
(Creata pagina con "Ottimizzazione delle architetture degli LLM che permette di avere modelli con dimensioni più grandi. Dal punto di vista dei layers coinvolti, viene rimpiazzato ogni strato completamente connesso con una rete "gate" e un certo numero di "esperti", per esempio 8 in Mistral 8x7B. Durante l'inferenza, viene utilizzato solo un sottoinsieme dei parametri, migliorando in questo modo il tempo d...") |
Nessun oggetto della modifica |
||
Riga 3: | Riga 3: | ||
== Collegamenti == | == Collegamenti == | ||
[https://www.cs.toronto.edu/~hinton/absps/jjnh91.pdf Adaptive Mixture of Local Experts (1991)] | [https://www.cs.toronto.edu/~hinton/absps/jjnh91.pdf Adaptive Mixture of Local Experts (1991)] | ||
https://newsletter.maartengrootendorst.com/p/a-visual-guide-to-mixture-of-experts | |||
https://huggingface.co/blog/moe | https://huggingface.co/blog/moe | ||
[[Categoria:Architettura]] | [[Categoria:Architettura]] |
Versione attuale delle 12:13, 4 feb 2025
Ottimizzazione delle architetture degli LLM che permette di avere modelli con dimensioni più grandi. Dal punto di vista dei layers coinvolti, viene rimpiazzato ogni strato completamente connesso con una rete "gate" e un certo numero di "esperti", per esempio 8 in Mistral 8x7B. Durante l'inferenza, viene utilizzato solo un sottoinsieme dei parametri, migliorando in questo modo il tempo di risposta. L'idea originale è simile a quella dei modelli "ensemble" nel machine learning classico.
Collegamenti
Adaptive Mixture of Local Experts (1991)
https://newsletter.maartengrootendorst.com/p/a-visual-guide-to-mixture-of-experts