Speculative Decoding

Da Wiki AI.
Versione del 3 ott 2024 alle 06:01 di Alesaccoia (discussione | contributi) (Creata pagina con "Tecnica per ottimizzare il tempo di inferenza dei modelli Transformer. E' stata proposta nella pubblicazione Fast Inference from Transformers via Speculative Decoding. Ha in comune concetti con la Distillazione Della Conoscenza. === Collegamenti === https://huggingface.co/blog/whisper-speculative-decoding Categoria:Tecnica")
(diff) ← Versione meno recente | Versione attuale (diff) | Versione più recente → (diff)

Tecnica per ottimizzare il tempo di inferenza dei modelli Transformer.

E' stata proposta nella pubblicazione Fast Inference from Transformers via Speculative Decoding.

Ha in comune concetti con la Distillazione Della Conoscenza.

Collegamenti

https://huggingface.co/blog/whisper-speculative-decoding