InstructGPT: Training Language Models to Follow Instructions with Human Feedback
InstructGPT: Training Language Models to Follow Instructions with Human Feedback | |
---|---|
Data | 2022 |
Autori | Long Ouyang, Jeff Wu, Xu Jiang, Diogo Almeida, Carroll L. Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, John Schulman, Jacob Hilton, Fraser Kelton, Luke E. Miller, Maddie Simens, Amanda Askell, P. Welinder, P. Christiano, J. Leike, Ryan J. Lowe |
URL | https://www.semanticscholar.org/paper/d766bffc357127e0dc86dd69561d5aeb520d6f4c |
Topic | Modelli Linguistici |
Citazioni | 7981 |
Questo articolo esplora come migliorare l'allineamento dei modelli linguistici di grandi dimensioni con l'intento dell'utente, un problema critico dato che modelli più grandi non sono necessariamente migliori nel seguire le istruzioni. Gli autori dimostrano che la messa a punto con feedback umano, sia sotto forma di dimostrazioni di etichettatura che di classifiche di output del modello, può migliorare significativamente le prestazioni in una varietà di compiti. I modelli risultanti, chiamati InstructGPT, superano significativamente GPT-3 nelle valutazioni umane, mostrando una maggiore accuratezza, una minore tossicità e un migliore allineamento con l'intento dell'utente, pur avendo un numero di parametri significativamente inferiore. Questo lavoro evidenzia l'importanza del feedback umano nell'addestramento di modelli linguistici e apre la strada a modelli più utili, veritieri e sicuri.