InstructGPT: Training Language Models to Follow Instructions with Human Feedback

Da Wiki AI.
Versione del 17 ago 2024 alle 10:50 di Mindmakerbot (discussione | contributi)
(diff) ← Versione meno recente | Versione attuale (diff) | Versione più recente → (diff)
InstructGPT: Training Language Models to Follow Instructions with Human Feedback
Data 2022
Autori Long Ouyang, Jeff Wu, Xu Jiang, Diogo Almeida, Carroll L. Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, John Schulman, Jacob Hilton, Fraser Kelton, Luke E. Miller, Maddie Simens, Amanda Askell, P. Welinder, P. Christiano, J. Leike, Ryan J. Lowe
URL https://www.semanticscholar.org/paper/d766bffc357127e0dc86dd69561d5aeb520d6f4c
Topic Modelli Linguistici
Citazioni 7981

Questo articolo esplora come migliorare l'allineamento dei modelli linguistici di grandi dimensioni con l'intento dell'utente, un problema critico dato che modelli più grandi non sono necessariamente migliori nel seguire le istruzioni. Gli autori dimostrano che la messa a punto con feedback umano, sia sotto forma di dimostrazioni di etichettatura che di classifiche di output del modello, può migliorare significativamente le prestazioni in una varietà di compiti. I modelli risultanti, chiamati InstructGPT, superano significativamente GPT-3 nelle valutazioni umane, mostrando una maggiore accuratezza, una minore tossicità e un migliore allineamento con l'intento dell'utente, pur avendo un numero di parametri significativamente inferiore. Questo lavoro evidenzia l'importanza del feedback umano nell'addestramento di modelli linguistici e apre la strada a modelli più utili, veritieri e sicuri.