BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension: differenze tra le versioni

Da Wiki AI.
Nessun oggetto della modifica
Riga 1: Riga 1:
[[Categoria:Pubblicazione]]
{{template pubblicazione
|data=2019
|autori=M. Lewis, Yinhan Liu, Naman Goyal, Marjan Ghazvininejad, Abdel-rahman Mohamed, Omer Levy, Veselin Stoyanov, Luke Zettlemoyer
|URL=https://www.semanticscholar.org/paper/395de0bd3837fdf4b4b5e5f04835bcc69c279481
|topic=Sequence-to-sequence
|citazioni=9070
}}
Viene presentato BART, un autoencoder denoising per il preaddestramento di modelli sequenza-a-sequenza. BART viene addestrato (1) corrompendo il testo con una funzione di disturbo arbitraria e (2) imparando un modello per ricostruire il testo originale. Utilizza un'architettura di traduzione automatica neurale basata su Transformer standard che, nonostante la sua semplicità, può essere vista come una generalizzazione di BERT (grazie all'encoder bidirezionale), GPT (con il decodificatore da sinistra a destra) e altri recenti schemi di preaddestramento. Valutiamo una serie di approcci di disturbo, trovando le migliori prestazioni sia mescolando casualmente l'ordine delle frasi che utilizzando un nuovo schema di riempimento, in cui gli intervalli di testo vengono sostituiti con un singolo token di maschera. BART è particolarmente efficace se messo a punto per la generazione di testo, ma funziona bene anche per le attività di comprensione. Corrisponde alle prestazioni di RoBERTa su GLUE e SQuAD e raggiunge nuovi risultati all'avanguardia su una gamma di attività di dialogo astratto, risposta alle domande e riepilogo, con guadagni fino a 3,5 ROUGE. BART fornisce anche un aumento di 1,1 BLEU rispetto a un sistema di traduzione inversa per la traduzione automatica, con solo preaddestramento in lingua di destinazione. Replichiamo anche altri schemi di preaddestramento all'interno del framework BART, per comprenderne l'effetto sulle prestazioni dell'attività finale.
 
{{#seo:
            |title=BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension
            |title_mode=append
            |keywords=elaborazione del linguaggio naturale, apprendimento automatico, reti neurali, modelli sequenza-a-sequenza, preaddestramento, generazione di testo, traduzione automatica, comprensione del linguaggio naturale, BART, Transformer
            |description=Questo studio presenta BART, un modello di autoencoder denoising per il preaddestramento di modelli sequenza-a-sequenza. BART viene addestrato corrompendone il testo di input e addestrando il modello a ricostruire il testo originale. Questo approccio si è dimostrato efficace in una varietà di compiti, tra cui la generazione di testo, la risposta alle domande e il riepilogo.
           
            }}

Versione delle 06:28, 8 set 2024

BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension
Data 2019
Autori M. Lewis, Yinhan Liu, Naman Goyal, Marjan Ghazvininejad, Abdel-rahman Mohamed, Omer Levy, Veselin Stoyanov, Luke Zettlemoyer
URL https://www.semanticscholar.org/paper/395de0bd3837fdf4b4b5e5f04835bcc69c279481
Topic Sequence-to-sequence
Citazioni 9070

Viene presentato BART, un autoencoder denoising per il preaddestramento di modelli sequenza-a-sequenza. BART viene addestrato (1) corrompendo il testo con una funzione di disturbo arbitraria e (2) imparando un modello per ricostruire il testo originale. Utilizza un'architettura di traduzione automatica neurale basata su Transformer standard che, nonostante la sua semplicità, può essere vista come una generalizzazione di BERT (grazie all'encoder bidirezionale), GPT (con il decodificatore da sinistra a destra) e altri recenti schemi di preaddestramento. Valutiamo una serie di approcci di disturbo, trovando le migliori prestazioni sia mescolando casualmente l'ordine delle frasi che utilizzando un nuovo schema di riempimento, in cui gli intervalli di testo vengono sostituiti con un singolo token di maschera. BART è particolarmente efficace se messo a punto per la generazione di testo, ma funziona bene anche per le attività di comprensione. Corrisponde alle prestazioni di RoBERTa su GLUE e SQuAD e raggiunge nuovi risultati all'avanguardia su una gamma di attività di dialogo astratto, risposta alle domande e riepilogo, con guadagni fino a 3,5 ROUGE. BART fornisce anche un aumento di 1,1 BLEU rispetto a un sistema di traduzione inversa per la traduzione automatica, con solo preaddestramento in lingua di destinazione. Replichiamo anche altri schemi di preaddestramento all'interno del framework BART, per comprenderne l'effetto sulle prestazioni dell'attività finale.