A Theory for Emergence of Complex Skills in Language Models (2023)

Da Wiki AI.
A Theory for Emergence of Complex Skills in Language Models (2023)
Data 29 luglio 2023
Autori Sanjeev Arora, Anirudh Goyal
URL https://www.semanticscholar.org/paper/ff6f2b9e56ee0f3f26bcbdc5079678c059fe24e3
Topic Modelli Linguistici, Emergenza, Apprendimento automatico
Citazioni 43


Il paper, pubblicato il 29 luglio 2023, spiega che quando i modelli linguistici diventano più grandi e vengono addestrati su insiemi di dati più grandi, mostrano nuovi comportamenti interessanti. Questo è ciò che intendiamo per “Emergenza”. Due forme avanzate di emergenza sono l'apprendimento in contesto e l'apprendimento zero-shot. In queste situazioni, il modello può capire le istruzioni di un compito fornite come parte del testo di input e risolvere il compito senza addestramento specifico su di esso. Il fatto che i modelli mostrino nuovi comportamenti è importante nelle discussioni sull'affidabilità e sulla coerenza dell'intelligenza artificiale. Infatti, vi è chi dice che tutti questi nuovi comportamenti sono solo una combinazione di cose che il modello ha già imparato durante l'addestramento, mentre altri credono che possano emergere nuovi comportamenti che non erano presenti nel set di dati di addestramento.

Quindi:

  • Effetto dell'uso di testi di alta qualità: Questo concetto si basa sull'idea che utilizzare testi più complessi, come quelli universitari rispetto a quelli scolastici, può essere più efficace nel far emergere nuove abilità. Questa teoria suggerisce che se la perdita di previsione del modello rimane costante, utilizzare testi più complessi potrebbe favorire una migliore acquisizione di abilità.
  • Miglioramento delle competenze con la Legge di Scaling: quando aumentiamo le dimensioni di un modello (cioè, quando facciamo "scaling"), questa teoria suggerisce che ciò può migliorare la sua capacità di gestire combinazioni più complesse di abilità.
  • Le abilità più frequenti tendono a raggiungere più velocemente il livello di competenza rispetto alle abilità meno frequenti: se alcune abilità linguistiche sono più comuni nei testi rispetto ad altre, il modello imparerà a padroneggiarle più rapidamente durante l'addestramento. Nella pratica dell'addestramento di modelli di intelligenza artificiale (IA), è comune osservare il fenomeno noto come "Povertà dello stimolo", ovvero quando l'IA dimostra competenza su combinazioni complesse di abilità, nonostante non abbia mai visto esplicitamente tali combinazioni durante l'addestramento.

Link

A Theory for Emergence of Complex Skills in Language Models (2023) - Paper