Speculative Decoding

Da Wiki AI.

Tecnica per ottimizzare il tempo di inferenza dei modelli Transformer.

E' stata proposta nella pubblicazione Fast Inference from Transformers via Speculative Decoding.

Ha in comune concetti con la Distillazione Della Conoscenza.

Collegamenti

https://huggingface.co/blog/whisper-speculative-decoding