Test-Time Compute Scaling - Cronologia

Alesaccoia il 23:36, 5 feb 2025

2025-02-05T23:36:29Z

← Versione meno recente		Versione delle 23:36, 5 feb 2025
Riga 13:		Riga 13:
	# Una volta che la strategia di ricerca termina, le soluzioni/step finali vengono ordinate dal PRM per produrre la risposta finale		# Una volta che la strategia di ricerca termina, le soluzioni/step finali vengono ordinate dal PRM per produrre la risposta finale

			Altre strategie sono, da [1]:

			* '''Majority Voting'''
			* '''Vanilla Best-of-N'''
			* '''Weighted Best-of-N'''


			Notare che per per il Reward Model viene utilizzato un LLM addestato con ''supervisione del processo'':<blockquote>


			To guide our search strategies, we used <code>RLHFlow/Llama3.1-8B-PRM-Deepseek-Data</code>, an 8B reward model that has been trained using ''process supervision''. Process supervision is a training approach where models receive feedback on each step of their reasoning process, not just the final outcome. We picked this model since it belongs to the same model family as our policy and gave better results than other PRMs like Math-Shepherd we tested in this weight class.</blockquote>

			== Collegamenti ==
			[1] https://huggingface.co/spaces/HuggingFaceH4/blogpost-scaling-test-time-compute

			[https://arxiv.org/pdf/2408.03314 Scaling LLM Test-Time Compute Optimally can Be More Effective than Scaling Model Parameters]

			https://huggingface.co/collections/HuggingFaceH4/scaling-test-time-compute-with-open-models-675c3b475a0d6eb4528fec23

			[https://arxiv.org/pdf/2203.11171 SELF-CONSISTENCY IMPROVES CHAIN OF THOUGHT REASONING IN LANGUAGE MODELS]

	~~== Collegamenti ==~~		[https://arxiv.org/abs/2312.08935 Math-Shepherd: Verify and Reinforce LLMs Step-by-step without Human Annotations]
	https://~~huggingface~~.co/~~spaces~~/~~HuggingFaceH4/blogpost~~-~~scaling-test~~-~~time~~-~~compute~~

	~~[https://arxiv.org/pdf/2408.03314 Scaling LLM Test-Time Compute Optimally can Be More Effective than Scaling Model Parameters]~~

	~~https://huggingface.co/collections/HuggingFaceH4/scaling-test-time-compute-with-open-models-675c3b475a0d6eb4528fec23~~

	[[Categoria:Concetto]]		[[Categoria:Concetto]]

Alesaccoia il 22:43, 5 feb 2025

2025-02-05T22:43:58Z

← Versione meno recente		Versione delle 22:43, 5 feb 2025
Riga 1:		Riga 1:
	Tecnica popolarizzata dal modello di [[OpenAI]] [[O1]] : invece di scalare la computazione, già di per se enorme, si utilizzano strategie di inferenza dinamiche che permettono ai modelli di "pensare di più" sui problemi più complessi.		Tecnica popolarizzata dal modello di [[OpenAI]] [[O1]] : invece di scalare la computazione, già di per se enorme, si utilizzano strategie di inferenza dinamiche che permettono ai modelli di "pensare di più" sui problemi più complessi.

			Il paper di DeepMind (nei collegamenti) dimostra che questa extra computazione possa essere scalata in maniera ottimale attraverso strategie come un raffinamento iterativo o utilizzando un ''modello di ricompensa (reward model)''. In questo modo modelli più piccoli diventano molto competitivi: per esempio, LLama 3.1 1B diventa più potente di LLama 3.1 8B se gli si da abbastanza tempo per pensare sul difficile benchmark [[MATH-500]].

			=== Strategie ===
			[[File:Prm.png\|miniatura\|500x500px\|https://huggingface.co/spaces/HuggingFaceH4/blogpost-scaling-test-time-compute]]
			La strategia più nota è quella chiamata campionamento "best-of-N" generando N output da un LLM di base e selezionando il migliore attraverso un modello "learner" o di reward, chiamato '''PRM''' ('''process reward model''').

			In particolare:

			# Viene dato un problema al modello di linguaggio
			# Ogni step viene valutato da un PRM, che stima '''la probabilità di ogni step di raggiungere, infine, il risultato'''. Questi step e gli ''score'' vengono poi usati dalla strategia di ricerca per selezionare quali delle soluzioni parziali debba venire ''esplorata'' al prossimo round di step intermedi
			# Una volta che la strategia di ricerca termina, le soluzioni/step finali vengono ordinate dal PRM per produrre la risposta finale










			== Collegamenti ==
			https://huggingface.co/spaces/HuggingFaceH4/blogpost-scaling-test-time-compute

			[https://arxiv.org/pdf/2408.03314 Scaling LLM Test-Time Compute Optimally can Be More Effective than Scaling Model Parameters]

			https://huggingface.co/collections/HuggingFaceH4/scaling-test-time-compute-with-open-models-675c3b475a0d6eb4528fec23

			[[Categoria:Concetto]]

Alesaccoia: Creata pagina con "Tecnica popolarizzata dal modello di OpenAI O1 : invece di scalare la computazione, già di per se enorme, si utilizzano strategie di inferenza dinamiche che permettono ai modelli di "pensare di più" sui problemi più complessi."

2025-02-05T20:20:53Z

Creata pagina con "Tecnica popolarizzata dal modello di OpenAI O1 : invece di scalare la computazione, già di per se enorme, si utilizzano strategie di inferenza dinamiche che permettono ai modelli di "pensare di più" sui problemi più complessi."

Nuova pagina

Tecnica popolarizzata dal modello di [[OpenAI]] [[O1]] : invece di scalare la computazione, già di per se enorme, si utilizzano strategie di inferenza dinamiche che permettono ai modelli di "pensare di più" sui problemi più complessi.