BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension: differenze tra le versioni

Da Wiki AI.
Nessun oggetto della modifica
Nessun oggetto della modifica
 
Riga 6: Riga 6:
|citazioni=9070
|citazioni=9070
}}
}}
Viene presentato BART, un autoencoder denoising per il preaddestramento di modelli sequenza-a-sequenza. BART viene addestrato (1) corrompendo il testo con una funzione di disturbo arbitraria e (2) imparando un modello per ricostruire il testo originale. Utilizza un'architettura di traduzione automatica neurale basata su Transformer standard che, nonostante la sua semplicità, può essere vista come una generalizzazione di BERT (grazie all'encoder bidirezionale), GPT (con il decodificatore da sinistra a destra) e altri recenti schemi di preaddestramento. Valutiamo una serie di approcci di disturbo, trovando le migliori prestazioni sia mescolando casualmente l'ordine delle frasi che utilizzando un nuovo schema di riempimento, in cui gli intervalli di testo vengono sostituiti con un singolo token di maschera. BART è particolarmente efficace se messo a punto per la generazione di testo, ma funziona bene anche per le attività di comprensione. Corrisponde alle prestazioni di RoBERTa su GLUE e SQuAD e raggiunge nuovi risultati all'avanguardia su una gamma di attività di dialogo astratto, risposta alle domande e riepilogo, con guadagni fino a 3,5 ROUGE. BART fornisce anche un aumento di 1,1 BLEU rispetto a un sistema di traduzione inversa per la traduzione automatica, con solo preaddestramento in lingua di destinazione. Replichiamo anche altri schemi di preaddestramento all'interno del framework BART, per comprenderne l'effetto sulle prestazioni dell'attività finale.
Viene presentato [[BART]], un autoencoder denoising per il preaddestramento di modelli sequenza-a-sequenza. BART viene addestrato (1) corrompendo il testo con una funzione di disturbo arbitraria e (2) imparando un modello per ricostruire il testo originale.  
 
Utilizza un'architettura di traduzione automatica neurale basata su Transformer standard che, nonostante la sua semplicità, può essere vista come una generalizzazione di [[BERT]] (grazie all'encoder bidirezionale), [[Generative Pretrained Transformer (GPT)|GPT]] (con il decodificatore da sinistra a destra) e altri recenti schemi di preaddestramento.  
 
Valutiamo una serie di approcci di disturbo, trovando le migliori prestazioni sia mescolando casualmente l'ordine delle frasi che utilizzando un nuovo schema di riempimento, in cui gli intervalli di testo vengono sostituiti con un singolo token di maschera. BART è particolarmente efficace se messo a punto per la generazione di testo, ma funziona bene anche per le attività di comprensione. Corrisponde alle prestazioni di [[RoBERTa]] su [[GLUE]] e [[SQuAD]] e raggiunge nuovi risultati all'avanguardia su una gamma di attività di dialogo astratto, risposta alle domande e riepilogo, con guadagni fino a 3,5 ROUGE. BART fornisce anche un aumento di 1,1 [[BLEU]] rispetto a un sistema di traduzione inversa per la traduzione automatica, con solo preaddestramento in lingua di destinazione. Replichiamo anche altri schemi di preaddestramento all'interno del framework BART, per comprenderne l'effetto sulle prestazioni dell'attività finale.


{{#seo:
{{#seo:

Versione attuale delle 06:30, 8 set 2024

BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension
Data 2019
Autori M. Lewis, Yinhan Liu, Naman Goyal, Marjan Ghazvininejad, Abdel-rahman Mohamed, Omer Levy, Veselin Stoyanov, Luke Zettlemoyer
URL https://www.semanticscholar.org/paper/395de0bd3837fdf4b4b5e5f04835bcc69c279481
Topic Sequence-to-sequence
Citazioni 9070

Viene presentato BART, un autoencoder denoising per il preaddestramento di modelli sequenza-a-sequenza. BART viene addestrato (1) corrompendo il testo con una funzione di disturbo arbitraria e (2) imparando un modello per ricostruire il testo originale.

Utilizza un'architettura di traduzione automatica neurale basata su Transformer standard che, nonostante la sua semplicità, può essere vista come una generalizzazione di BERT (grazie all'encoder bidirezionale), GPT (con il decodificatore da sinistra a destra) e altri recenti schemi di preaddestramento.

Valutiamo una serie di approcci di disturbo, trovando le migliori prestazioni sia mescolando casualmente l'ordine delle frasi che utilizzando un nuovo schema di riempimento, in cui gli intervalli di testo vengono sostituiti con un singolo token di maschera. BART è particolarmente efficace se messo a punto per la generazione di testo, ma funziona bene anche per le attività di comprensione. Corrisponde alle prestazioni di RoBERTa su GLUE e SQuAD e raggiunge nuovi risultati all'avanguardia su una gamma di attività di dialogo astratto, risposta alle domande e riepilogo, con guadagni fino a 3,5 ROUGE. BART fornisce anche un aumento di 1,1 BLEU rispetto a un sistema di traduzione inversa per la traduzione automatica, con solo preaddestramento in lingua di destinazione. Replichiamo anche altri schemi di preaddestramento all'interno del framework BART, per comprenderne l'effetto sulle prestazioni dell'attività finale.