Mixture of Experts

Ottimizzazione delle architetture degli LLM che permette di avere modelli con dimensioni più grandi. Dal punto di vista dei layers coinvolti, viene rimpiazzato ogni strato completamente connesso con una rete "gate" e un certo numero di "esperti", per esempio 8 in Mistral 8x7B. Durante l'inferenza, viene utilizzato solo un sottoinsieme dei parametri, migliorando in questo modo il tempo di risposta. L'idea originale è simile a quella dei modelli "ensemble" nel machine learning classico.

Collegamenti

Adaptive Mixture of Local Experts (1991)

https://newsletter.maartengrootendorst.com/p/a-visual-guide-to-mixture-of-experts

https://huggingface.co/blog/moe