Mixture of Experts: differenze tra le versioni

Versione attuale delle 12:13, 4 feb 2025

Ottimizzazione delle architetture degli LLM che permette di avere modelli con dimensioni più grandi. Dal punto di vista dei layers coinvolti, viene rimpiazzato ogni strato completamente connesso con una rete "gate" e un certo numero di "esperti", per esempio 8 in Mistral 8x7B. Durante l'inferenza, viene utilizzato solo un sottoinsieme dei parametri, migliorando in questo modo il tempo di risposta. L'idea originale è simile a quella dei modelli "ensemble" nel machine learning classico.

Collegamenti

Adaptive Mixture of Local Experts (1991)

https://newsletter.maartengrootendorst.com/p/a-visual-guide-to-mixture-of-experts

https://huggingface.co/blog/moe

@@ Riga 3: / Riga 3: @@
 == Collegamenti ==
 [https://www.cs.toronto.edu/~hinton/absps/jjnh91.pdf Adaptive Mixture of Local Experts (1991)]
+https://newsletter.maartengrootendorst.com/p/a-visual-guide-to-mixture-of-experts
 https://huggingface.co/blog/moe
 [[Categoria:Architettura]]