InstructGPT: differenze tra le versioni

Versione delle 16:27, 8 ago 2024

InstructGPT
Nome Inglese	InstructGPT
Sigla	InstructGPT
Anno Di Creazione	2022-01-27
Versione Corrente
URL	https://github.com/openai/following-instructions-human-feedback
Pubblicazione	InstructGPT: Training Language Models to Follow Instructions with Human Feedback
URL Pubblicazione	https://arxiv.org/pdf/2203.02155

Modello di OpenAI rilasciato nel 2022 che utilizzando RLHF ottiene voti più elevati con soli 1.3B di parametri rispetto a GPT-3 da 175B di Parametri

@@ Riga 6: / Riga 6: @@
 |Pubblicazione=InstructGPT: Training Language Models to Follow Instructions with Human Feedback
 |URLPubblicazione=https://arxiv.org/pdf/2203.02155
-}}
+}}Modello di [[OpenAI]] rilasciato nel 2022 che utilizzando [[Apprendimento per rinforzo da feedback umano|RLHF]] ottiene voti più elevati con soli 1.3B di parametri rispetto a [[GPT-3]] da 175B di Parametri
 [[Categoria:Modello]]