Quantizzazione - Cronologia

Mindmakerbot il 13:47, 17 ago 2024

2024-08-17T13:47:03Z

← Versione meno recente		Versione delle 13:47, 17 ago 2024
Riga 14:		Riga 14:
	\|title=Quantizzazione		\|title=Quantizzazione
	\|title_mode=append		\|title_mode=append
	\|keywords="quantizzazione, modello linguistico, inferenza, fine-tuning, risorse computazionali, bit, pesi, modello, dimensione, occupazione, VRAM, velocità, inferenza, perplexity, capacità predittiva, fp16, int8, Mistral, llama, GPT-3.5, benchmark, tokens, parametri, GPU"		\|keywords=quantizzazione, modello linguistico, inferenza, fine-tuning, risorse computazionali, bit, pesi, modello, dimensione, occupazione, VRAM, velocità, inferenza, perplexity, capacità predittiva, fp16, int8, Mistral, llama, GPT-3.5, benchmark, tokens, parametri, GPU
	\|description="La quantizzazione riduce il numero di bit utilizzati per rappresentare i pesi di un modello linguistico, riducendo la sua dimensione e occupazione di VRAM. Questo aumenta la velocità di inferenza e la capacità predittiva del modello. Un esempio è la riduzione da fp16 a int8, che dimezza la dimensione del modello. Modelli come Mistral-8x7b, con 47B di parametri, necessitano di una GPU potente. La quantizzazione permette di eseguire localmente inferenza e fine-tuning con minori risorse computazionali."		\|description=La quantizzazione riduce il numero di bit utilizzati per rappresentare i pesi di un modello linguistico, riducendo la sua dimensione e occupazione di VRAM. Questo aumenta la velocità di inferenza e la capacità predittiva del modello. Un esempio è la riduzione da fp16 a int8, che dimezza la dimensione del modello. Modelli come Mistral-8x7b, con 47B di parametri, necessitano di una GPU potente. La quantizzazione permette di eseguire localmente inferenza e fine-tuning con minori risorse computazionali.

	}}		}}

Mindmakerbot il 13:30, 17 ago 2024

2024-08-17T13:30:49Z

← Versione meno recente		Versione delle 13:30, 17 ago 2024
Riga 10:		Riga 10:

	Prendendo per esempio [[Mistral]], in particolare Mistral-8x7b, che oltrepassa la performance di [[llama]]-2-70B e oltrepassa [[GPT-3.5]]] su molti benchmark, con un contesto di 32k tokens. Mistral-8x7b ha in totale 47B di parametri, e necessitá di una GPU da 24 VRAM e 64 Gb di dimensione, costando circa 4.5$/h su, per esempio, Google Colab.		Prendendo per esempio [[Mistral]], in particolare Mistral-8x7b, che oltrepassa la performance di [[llama]]-2-70B e oltrepassa [[GPT-3.5]]] su molti benchmark, con un contesto di 32k tokens. Mistral-8x7b ha in totale 47B di parametri, e necessitá di una GPU da 24 VRAM e 64 Gb di dimensione, costando circa 4.5$/h su, per esempio, Google Colab.

			{{#seo:
			\|title=Quantizzazione
			\|title_mode=append
			\|keywords="quantizzazione, modello linguistico, inferenza, fine-tuning, risorse computazionali, bit, pesi, modello, dimensione, occupazione, VRAM, velocità, inferenza, perplexity, capacità predittiva, fp16, int8, Mistral, llama, GPT-3.5, benchmark, tokens, parametri, GPU"
			\|description="La quantizzazione riduce il numero di bit utilizzati per rappresentare i pesi di un modello linguistico, riducendo la sua dimensione e occupazione di VRAM. Questo aumenta la velocità di inferenza e la capacità predittiva del modello. Un esempio è la riduzione da fp16 a int8, che dimezza la dimensione del modello. Modelli come Mistral-8x7b, con 47B di parametri, necessitano di una GPU potente. La quantizzazione permette di eseguire localmente inferenza e fine-tuning con minori risorse computazionali."

			}}

Mindmakerbot il 11:19, 17 ago 2024

2024-08-17T11:19:46Z

← Versione meno recente		Versione delle 11:19, 17 ago 2024
Riga 1:		Riga 1:
	~~Nome: [[Nome::Quantizzazione]]~~		{{Template concetto
			\|NomeInglese=Quantization
	~~Nome inglese: [[~~NomeInglese::Quantization]]		}}


	Dal 2023, si è avvertita una richiesta crescente di poter eseguire localmente [[inferenza]] e [[fine-tuning]] dei modelli di linguaggio open source, con risorse computazionali minori.		Dal 2023, si è avvertita una richiesta crescente di poter eseguire localmente [[inferenza]] e [[fine-tuning]] dei modelli di linguaggio open source, con risorse computazionali minori.
Riga 11:		Riga 10:

	Prendendo per esempio [[Mistral]], in particolare Mistral-8x7b, che oltrepassa la performance di [[llama]]-2-70B e oltrepassa [[GPT-3.5]]] su molti benchmark, con un contesto di 32k tokens. Mistral-8x7b ha in totale 47B di parametri, e necessitá di una GPU da 24 VRAM e 64 Gb di dimensione, costando circa 4.5$/h su, per esempio, Google Colab.		Prendendo per esempio [[Mistral]], in particolare Mistral-8x7b, che oltrepassa la performance di [[llama]]-2-70B e oltrepassa [[GPT-3.5]]] su molti benchmark, con un contesto di 32k tokens. Mistral-8x7b ha in totale 47B di parametri, e necessitá di una GPU da 24 VRAM e 64 Gb di dimensione, costando circa 4.5$/h su, per esempio, Google Colab.

	~~[[Category:concetto]]~~

	~~__SHOWFACTBOX__~~

Sara Maserati il 10:59, 11 apr 2024

2024-04-11T10:59:22Z

← Versione meno recente		Versione delle 10:59, 11 apr 2024
Riga 1:		Riga 1:
			Nome: [[Nome::Quantizzazione]]

			Nome inglese: [[NomeInglese::Quantization]]


	Dal 2023, si è avvertita una richiesta crescente di poter eseguire localmente [[inferenza]] e [[fine-tuning]] dei modelli di linguaggio open source, con risorse computazionali minori.		Dal 2023, si è avvertita una richiesta crescente di poter eseguire localmente [[inferenza]] e [[fine-tuning]] dei modelli di linguaggio open source, con risorse computazionali minori.

Riga 8:		Riga 13:

	[[Category:concetto]]		[[Category:concetto]]

			__SHOWFACTBOX__

Michela il 16:32, 14 mar 2024

2024-03-14T16:32:14Z

← Versione meno recente		Versione delle 16:32, 14 mar 2024
Riga 7:		Riga 7:
	Prendendo per esempio [[Mistral]], in particolare Mistral-8x7b, che oltrepassa la performance di [[llama]]-2-70B e oltrepassa [[GPT-3.5]]] su molti benchmark, con un contesto di 32k tokens. Mistral-8x7b ha in totale 47B di parametri, e necessitá di una GPU da 24 VRAM e 64 Gb di dimensione, costando circa 4.5$/h su, per esempio, Google Colab.		Prendendo per esempio [[Mistral]], in particolare Mistral-8x7b, che oltrepassa la performance di [[llama]]-2-70B e oltrepassa [[GPT-3.5]]] su molti benchmark, con un contesto di 32k tokens. Mistral-8x7b ha in totale 47B di parametri, e necessitá di una GPU da 24 VRAM e 64 Gb di dimensione, costando circa 4.5$/h su, per esempio, Google Colab.

	[[Category:~~concetti~~]]		[[Category:concetto]]

Michela il 10:22, 8 mar 2024

2024-03-08T10:22:29Z

← Versione meno recente		Versione delle 10:22, 8 mar 2024
Riga 6:		Riga 6:

	Prendendo per esempio [[Mistral]], in particolare Mistral-8x7b, che oltrepassa la performance di [[llama]]-2-70B e oltrepassa [[GPT-3.5]]] su molti benchmark, con un contesto di 32k tokens. Mistral-8x7b ha in totale 47B di parametri, e necessitá di una GPU da 24 VRAM e 64 Gb di dimensione, costando circa 4.5$/h su, per esempio, Google Colab.		Prendendo per esempio [[Mistral]], in particolare Mistral-8x7b, che oltrepassa la performance di [[llama]]-2-70B e oltrepassa [[GPT-3.5]]] su molti benchmark, con un contesto di 32k tokens. Mistral-8x7b ha in totale 47B di parametri, e necessitá di una GPU da 24 VRAM e 64 Gb di dimensione, costando circa 4.5$/h su, per esempio, Google Colab.

			[[Category:concetti]]

Alesaccoia: Creata pagina con "Dal 2023, si è avvertita una richiesta crescente di poter eseguire localmente inferenza e fine-tuning dei modelli di linguaggio open source, con risorse computazionali minori. La quantizzazione riduce il numero di bit utilizzati per rappresentare i pesi di un modello, riducendo così la sua dimensione e la sua occupazione di Video RAM, e un aumento della sua velocità di inferenza. Il risultato è anche un aumento della perplexity del modello, ovvero della..."

2024-02-25T06:37:32Z

Creata pagina con "Dal 2023, si è avvertita una richiesta crescente di poter eseguire localmente inferenza e fine-tuning dei modelli di linguaggio open source, con risorse computazionali minori. La quantizzazione riduce il numero di bit utilizzati per rappresentare i pesi di un modello, riducendo così la sua dimensione e la sua occupazione di Video RAM, e un aumento della sua velocità di inferenza. Il risultato è anche un aumento della perplexity del modello, ovvero della..."

Nuova pagina

Dal 2023, si è avvertita una richiesta crescente di poter eseguire localmente [[inferenza]] e [[fine-tuning]] dei modelli di linguaggio open source, con risorse computazionali minori.

La quantizzazione riduce il numero di bit utilizzati per rappresentare i pesi di un modello, riducendo così la sua dimensione e la sua occupazione di Video RAM, e un aumento della sua velocità di inferenza. Il risultato è anche un aumento della [[perplexity]] del modello, ovvero della sua capacità predittiva.

Un esempio di quantizzazione è tra fp16 (floatin point a 16 bit) e int8 (8 bit), che riduce della metà la dimensione del modello.

Prendendo per esempio [[Mistral]], in particolare Mistral-8x7b, che oltrepassa la performance di [[llama]]-2-70B e oltrepassa [[GPT-3.5]]] su molti benchmark, con un contesto di 32k tokens. Mistral-8x7b ha in totale 47B di parametri, e necessitá di una GPU da 24 VRAM e 64 Gb di dimensione, costando circa 4.5$/h su, per esempio, Google Colab.