How to Fine Tune Bert for Sequence Classification?
How to Fine Tune Bert for Sequence Classification? | |
---|---|
Data | 2019 |
Autori | Jinhua Zhu, Yingce Xia, Lijun Wu, Di He, Tao Qin, Wen-gang Zhou, Houqiang Li, Tie-Yan Liu |
URL | https://www.semanticscholar.org/paper/dc373d5e108a90a70f55285a852a32706adbeb45 |
Topic | Modelli di Linguaggio, Traduzione Automatica |
Citazioni | 312 |
Questo articolo esplora come integrare efficacemente BERT nei sistemi di Neural Machine Translation (NMT). A differenza di altri compiti di elaborazione del linguaggio naturale in cui BERT viene spesso utilizzato per il fine-tuning, gli autori dimostrano che in NMT l'utilizzo di BERT come embedding contestuale risulta più vantaggioso.
Propongono un nuovo algoritmo chiamato "BERT-fused model", in cui le rappresentazioni estratte da BERT per una sequenza di input vengono fuse con ogni livello dell'encoder e del decoder del modello NMT attraverso meccanismi di attenzione.
Questo approccio ha permesso di ottenere risultati all'avanguardia in diversi compiti di traduzione automatica, tra cui la traduzione supervisionata a livello di frase e di documento, la traduzione semi-supervisionata e quella non supervisionata.