Quantizzazione: differenze tra le versioni

Versione attuale delle 13:47, 17 ago 2024

Quantizzazione
Nome Inglese	Quantization
Sigla

Dal 2023, si è avvertita una richiesta crescente di poter eseguire localmente inferenza e fine-tuning dei modelli di linguaggio open source, con risorse computazionali minori.

La quantizzazione riduce il numero di bit utilizzati per rappresentare i pesi di un modello, riducendo così la sua dimensione e la sua occupazione di Video RAM, e un aumento della sua velocità di inferenza. Il risultato è anche un aumento della perplexity del modello, ovvero della sua capacità predittiva.

Un esempio di quantizzazione è tra fp16 (floatin point a 16 bit) e int8 (8 bit), che riduce della metà la dimensione del modello.

Prendendo per esempio Mistral, in particolare Mistral-8x7b, che oltrepassa la performance di llama-2-70B e oltrepassa GPT-3.5] su molti benchmark, con un contesto di 32k tokens. Mistral-8x7b ha in totale 47B di parametri, e necessitá di una GPU da 24 VRAM e 64 Gb di dimensione, costando circa 4.5$/h su, per esempio, Google Colab.

@@ Riga 14: / Riga 14: @@
              |title=Quantizzazione
              |title_mode=append
-             |keywords="quantizzazione, modello linguistico, inferenza, fine-tuning, risorse computazionali, bit, pesi, modello, dimensione, occupazione, VRAM, velocità, inferenza, perplexity, capacità predittiva, fp16, int8, Mistral, llama, GPT-3.5, benchmark, tokens, parametri, GPU"
+             |keywords=quantizzazione, modello linguistico, inferenza, fine-tuning, risorse computazionali, bit, pesi, modello, dimensione, occupazione, VRAM, velocità, inferenza, perplexity, capacità predittiva, fp16, int8, Mistral, llama, GPT-3.5, benchmark, tokens, parametri, GPU
-             |description="La quantizzazione riduce il numero di bit utilizzati per rappresentare i pesi di un modello linguistico, riducendo la sua dimensione e occupazione di VRAM. Questo aumenta la velocità di inferenza e la capacità predittiva del modello. Un esempio è la riduzione da fp16 a int8, che dimezza la dimensione del modello. Modelli come Mistral-8x7b, con 47B di parametri, necessitano di una GPU potente. La quantizzazione permette di eseguire localmente inferenza e fine-tuning con minori risorse computazionali."
+             |description=La quantizzazione riduce il numero di bit utilizzati per rappresentare i pesi di un modello linguistico, riducendo la sua dimensione e occupazione di VRAM. Questo aumenta la velocità di inferenza e la capacità predittiva del modello. Un esempio è la riduzione da fp16 a int8, che dimezza la dimensione del modello. Modelli come Mistral-8x7b, con 47B di parametri, necessitano di una GPU potente. La quantizzazione permette di eseguire localmente inferenza e fine-tuning con minori risorse computazionali.
              }}