Mixture of Experts: differenze tra le versioni

Da Wiki AI.
(Creata pagina con "Ottimizzazione delle architetture degli LLM che permette di avere modelli con dimensioni più grandi. Dal punto di vista dei layers coinvolti, viene rimpiazzato ogni strato completamente connesso con una rete "gate" e un certo numero di "esperti", per esempio 8 in Mistral 8x7B. Durante l'inferenza, viene utilizzato solo un sottoinsieme dei parametri, migliorando in questo modo il tempo d...")
 
Nessun oggetto della modifica
 
Riga 3: Riga 3:
== Collegamenti ==
== Collegamenti ==
[https://www.cs.toronto.edu/~hinton/absps/jjnh91.pdf Adaptive Mixture of Local Experts (1991)]
[https://www.cs.toronto.edu/~hinton/absps/jjnh91.pdf Adaptive Mixture of Local Experts (1991)]
https://newsletter.maartengrootendorst.com/p/a-visual-guide-to-mixture-of-experts


https://huggingface.co/blog/moe
https://huggingface.co/blog/moe
[[Categoria:Architettura]]
[[Categoria:Architettura]]

Versione attuale delle 12:13, 4 feb 2025

Ottimizzazione delle architetture degli LLM che permette di avere modelli con dimensioni più grandi. Dal punto di vista dei layers coinvolti, viene rimpiazzato ogni strato completamente connesso con una rete "gate" e un certo numero di "esperti", per esempio 8 in Mistral 8x7B. Durante l'inferenza, viene utilizzato solo un sottoinsieme dei parametri, migliorando in questo modo il tempo di risposta. L'idea originale è simile a quella dei modelli "ensemble" nel machine learning classico.

Collegamenti

Adaptive Mixture of Local Experts (1991)

https://newsletter.maartengrootendorst.com/p/a-visual-guide-to-mixture-of-experts

https://huggingface.co/blog/moe