Training language models to follow instructions with human feedback

Da Wiki AI.
Versione del 17 ago 2024 alle 10:53 di Mindmakerbot (discussione | contributi)
(diff) ← Versione meno recente | Versione attuale (diff) | Versione più recente → (diff)
Training language models to follow instructions with human feedback
Data 2022
Autori Long Ouyang, Jeff Wu, Xu Jiang, Diogo Almeida, Carroll L. Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, John Schulman, Jacob Hilton, Fraser Kelton, Luke E. Miller, Maddie Simens, Amanda Askell, Peter Welinder, Paul Christiano, Jan Leike, Ryan J. Lowe
URL https://www.semanticscholar.org/paper/d766bffc357127e0dc86dd69561d5aeb520d6f4c
Topic Come migliorare i modelli di linguaggio affinchè seguano meglio le istruzioni, usando il feedback umano per affinare le loro risposte
Citazioni 7981


Questo articolo esplora come migliorare l'aderenza dei modelli linguistici alle intenzioni dell'utente, affrontando le problematiche di output inaffidabili, tossici o poco utili. Gli autori dimostrano che aumentare le dimensioni di un modello non ne migliora automaticamente l'allineamento con l'utente.

Viene presentato un metodo per allineare i modelli linguistici all'intento dell'utente su un'ampia gamma di compiti, utilizzando il feedback umano durante il processo di fine-tuning. Attraverso un set di prompt scritti da annotatori e altri inviati tramite l'API di OpenAI, viene creato un set di dati contenente esempi di comportamento desiderato del modello. Questo set di dati viene utilizzato per affinare GPT-3 tramite apprendimento supervisionato. Successivamente, viene raccolto un altro set di dati con classificazioni di output del modello, impiegato per perfezionare ulteriormente il modello supervisionato tramite apprendimento per rinforzo basato sul feedback umano. I modelli risultanti sono chiamati InstructGPT.

Le valutazioni umane sulla distribuzione dei prompt mostrano che gli output del modello InstructGPT da 1.3 miliardi di parametri sono preferiti a quelli del modello GPT-3 da 175 miliardi di parametri, nonostante abbia 100 volte meno parametri. Inoltre, i modelli InstructGPT dimostrano miglioramenti in termini di veridicità e una riduzione nella generazione di output tossici, con minime regressioni prestazionali sui set di dati NLP pubblici. Sebbene InstructGPT commetta ancora errori semplici, i risultati indicano che l'affinamento con feedback umano è una direzione promettente per allineare i modelli linguistici all'intento umano.