Quantizzazione: differenze tra le versioni
Nessun oggetto della modifica |
Nessun oggetto della modifica |
||
Riga 1: | Riga 1: | ||
{{Template concetto | |||
|NomeInglese=Quantization | |||
}} | |||
Dal 2023, si è avvertita una richiesta crescente di poter eseguire localmente [[inferenza]] e [[fine-tuning]] dei modelli di linguaggio open source, con risorse computazionali minori. | Dal 2023, si è avvertita una richiesta crescente di poter eseguire localmente [[inferenza]] e [[fine-tuning]] dei modelli di linguaggio open source, con risorse computazionali minori. | ||
Riga 11: | Riga 10: | ||
Prendendo per esempio [[Mistral]], in particolare Mistral-8x7b, che oltrepassa la performance di [[llama]]-2-70B e oltrepassa [[GPT-3.5]]] su molti benchmark, con un contesto di 32k tokens. Mistral-8x7b ha in totale 47B di parametri, e necessitá di una GPU da 24 VRAM e 64 Gb di dimensione, costando circa 4.5$/h su, per esempio, Google Colab. | Prendendo per esempio [[Mistral]], in particolare Mistral-8x7b, che oltrepassa la performance di [[llama]]-2-70B e oltrepassa [[GPT-3.5]]] su molti benchmark, con un contesto di 32k tokens. Mistral-8x7b ha in totale 47B di parametri, e necessitá di una GPU da 24 VRAM e 64 Gb di dimensione, costando circa 4.5$/h su, per esempio, Google Colab. | ||
Versione delle 11:19, 17 ago 2024
Quantizzazione | |
---|---|
Nome Inglese | Quantization |
Sigla |
Dal 2023, si è avvertita una richiesta crescente di poter eseguire localmente inferenza e fine-tuning dei modelli di linguaggio open source, con risorse computazionali minori.
La quantizzazione riduce il numero di bit utilizzati per rappresentare i pesi di un modello, riducendo così la sua dimensione e la sua occupazione di Video RAM, e un aumento della sua velocità di inferenza. Il risultato è anche un aumento della perplexity del modello, ovvero della sua capacità predittiva.
Un esempio di quantizzazione è tra fp16 (floatin point a 16 bit) e int8 (8 bit), che riduce della metà la dimensione del modello.
Prendendo per esempio Mistral, in particolare Mistral-8x7b, che oltrepassa la performance di llama-2-70B e oltrepassa GPT-3.5] su molti benchmark, con un contesto di 32k tokens. Mistral-8x7b ha in totale 47B di parametri, e necessitá di una GPU da 24 VRAM e 64 Gb di dimensione, costando circa 4.5$/h su, per esempio, Google Colab.