Test-Time Compute Scaling

Tecnica popolarizzata dal modello di OpenAI O1 : invece di scalare la computazione, già di per se enorme, si utilizzano strategie di inferenza dinamiche che permettono ai modelli di "pensare di più" sui problemi più complessi.

Il paper di DeepMind (nei collegamenti) dimostra che questa extra computazione possa essere scalata in maniera ottimale attraverso strategie come un raffinamento iterativo o utilizzando un modello di ricompensa (reward model). In questo modo modelli più piccoli diventano molto competitivi: per esempio, LLama 3.1 1B diventa più potente di LLama 3.1 8B se gli si da abbastanza tempo per pensare sul difficile benchmark MATH-500.

Strategie

https://huggingface.co/spaces/HuggingFaceH4/blogpost-scaling-test-time-compute

La strategia più nota è quella chiamata campionamento "best-of-N" generando N output da un LLM di base e selezionando il migliore attraverso un modello "learner" o di reward, chiamato PRM (process reward model).

In particolare:

Viene dato un problema al modello di linguaggio
Ogni step viene valutato da un PRM, che stima la probabilità di ogni step di raggiungere, infine, il risultato. Questi step e gli score vengono poi usati dalla strategia di ricerca per selezionare quali delle soluzioni parziali debba venire esplorata al prossimo round di step intermedi
Una volta che la strategia di ricerca termina, le soluzioni/step finali vengono ordinate dal PRM per produrre la risposta finale

Altre strategie sono, da [1]:

Majority Voting
Vanilla Best-of-N
Weighted Best-of-N

Notare che per per il Reward Model viene utilizzato un LLM addestato con supervisione del processo:

To guide our search strategies, we used RLHFlow/Llama3.1-8B-PRM-Deepseek-Data, an 8B reward model that has been trained using process supervision. Process supervision is a training approach where models receive feedback on each step of their reasoning process, not just the final outcome. We picked this model since it belongs to the same model family as our policy and gave better results than other PRMs like Math-Shepherd we tested in this weight class.

Collegamenti

[1] https://huggingface.co/spaces/HuggingFaceH4/blogpost-scaling-test-time-compute

Scaling LLM Test-Time Compute Optimally can Be More Effective than Scaling Model Parameters

https://huggingface.co/collections/HuggingFaceH4/scaling-test-time-compute-with-open-models-675c3b475a0d6eb4528fec23

SELF-CONSISTENCY IMPROVES CHAIN OF THOUGHT REASONING IN LANGUAGE MODELS

Math-Shepherd: Verify and Reinforce LLMs Step-by-step without Human Annotations