Test-Time Compute Scaling: differenze tra le versioni

Versione delle 22:43, 5 feb 2025

Tecnica popolarizzata dal modello di OpenAI O1 : invece di scalare la computazione, già di per se enorme, si utilizzano strategie di inferenza dinamiche che permettono ai modelli di "pensare di più" sui problemi più complessi.

Il paper di DeepMind (nei collegamenti) dimostra che questa extra computazione possa essere scalata in maniera ottimale attraverso strategie come un raffinamento iterativo o utilizzando un modello di ricompensa (reward model). In questo modo modelli più piccoli diventano molto competitivi: per esempio, LLama 3.1 1B diventa più potente di LLama 3.1 8B se gli si da abbastanza tempo per pensare sul difficile benchmark MATH-500.

Strategie

https://huggingface.co/spaces/HuggingFaceH4/blogpost-scaling-test-time-compute

La strategia più nota è quella chiamata campionamento "best-of-N" generando N output da un LLM di base e selezionando il migliore attraverso un modello "learner" o di reward, chiamato PRM (process reward model).

In particolare:

Viene dato un problema al modello di linguaggio
Ogni step viene valutato da un PRM, che stima la probabilità di ogni step di raggiungere, infine, il risultato. Questi step e gli score vengono poi usati dalla strategia di ricerca per selezionare quali delle soluzioni parziali debba venire esplorata al prossimo round di step intermedi
Una volta che la strategia di ricerca termina, le soluzioni/step finali vengono ordinate dal PRM per produrre la risposta finale

Collegamenti

https://huggingface.co/spaces/HuggingFaceH4/blogpost-scaling-test-time-compute

Scaling LLM Test-Time Compute Optimally can Be More Effective than Scaling Model Parameters

https://huggingface.co/collections/HuggingFaceH4/scaling-test-time-compute-with-open-models-675c3b475a0d6eb4528fec23

@@ Riga 1: / Riga 1: @@
 Tecnica popolarizzata dal modello di [[OpenAI]] [[O1]] : invece di scalare la computazione, già di per se enorme, si utilizzano strategie di inferenza dinamiche che permettono ai modelli di "pensare di più" sui problemi più complessi.
+Il paper di DeepMind (nei collegamenti) dimostra che questa extra computazione possa essere scalata in maniera ottimale attraverso strategie come un raffinamento iterativo o utilizzando un ''modello di ricompensa (reward model)''. In questo modo modelli più piccoli diventano molto competitivi: per esempio, LLama 3.1 1B diventa più potente di LLama 3.1 8B se gli si da abbastanza tempo per pensare sul difficile benchmark [[MATH-500]].
+=== Strategie ===
+[[File:Prm.png|miniatura|500x500px|https://huggingface.co/spaces/HuggingFaceH4/blogpost-scaling-test-time-compute]]
+La strategia più nota è quella chiamata campionamento "best-of-N" generando N output da un LLM di base e selezionando il migliore attraverso un modello "learner" o di reward, chiamato '''PRM''' ('''process reward model''').
+In particolare:
+# Viene dato un problema al modello di linguaggio
+# Ogni step viene valutato da un PRM, che stima '''la probabilità di ogni step di raggiungere, infine, il risultato'''. Questi step e gli ''score'' vengono poi usati dalla strategia di ricerca per selezionare quali delle soluzioni parziali debba venire ''esplorata'' al prossimo round di step intermedi
+# Una volta che la strategia di ricerca termina, le soluzioni/step finali vengono ordinate dal PRM per produrre la risposta finale
+== Collegamenti ==
+https://huggingface.co/spaces/HuggingFaceH4/blogpost-scaling-test-time-compute
+[https://arxiv.org/pdf/2408.03314 Scaling LLM Test-Time Compute Optimally can Be More Effective than Scaling Model Parameters]
+https://huggingface.co/collections/HuggingFaceH4/scaling-test-time-compute-with-open-models-675c3b475a0d6eb4528fec23
+[[Categoria:Concetto]]