O1: differenze tra le versioni

Versione attuale delle 07:39, 4 gen 2025

Utiliza il Reinforcement Learning nella fase di training, e Chain of Thought durante l'inferenza, ponendosi all'apice di numerosi benchmark.

@@ Riga 4: / Riga 4: @@
 == Collegamenti ==
+[https://cdn.openai.com/o1-system-card.pdf Official System Card]
 https://openai.com/index/learning-to-reason-with-llms/
 https://arxiv.org/pdf/2412.14135
 [[Categoria:Modello]]