The Natural Language Decathlon: Multitask Learning as Question Answering

The Natural Language Decathlon: Multitask Learning as Question Answering
Data	2018
Autori	Bryan McCann, N. Keskar, Caiming Xiong, R. Socher
URL	https://www.semanticscholar.org/paper/9784fbf77295860b2e412137b86356d70b25e3c0
Topic	Multitask Learning
Citazioni	612

Il Natural Language Decathlon (Decathlon del linguaggio naturale) è un benchmark che valuta le capacità dei modelli di apprendimento automatico in dieci diversi compiti di comprensione del linguaggio naturale, trattando ogni compito come un tipo di domanda e risposta. L'obiettivo è incoraggiare lo sviluppo di modelli di intelligenza artificiale più versatili e generalizzati nel campo dell'elaborazione del linguaggio naturale. Questo approccio multi-task consente di valutare la capacità di un modello di trasferire la conoscenza appresa da un compito all'altro, migliorando l'efficienza dell'apprendimento e le prestazioni generali.

Task e Benchmark

Question Answering

I modelli di Question Answering (QA) ricevono una domanda e un contesto contenente le informazioni necessarie per fornire la risposta desiderata. Viene utilizzato il Stanford Question Answering Dataset (SQuAD) per questo task. I contesti sono paragrafi presi da Wikipedia in inglese, e le risposte sono sequenze di parole copiate dal contesto. SQuAD utilizza una metrica F1 normalizzata (nF1) che elimina articoli e punteggiatura.

Esempio:

Contesto: "La Torre Eiffel fu completata nel 1889 e fu costruita come l'arco d'ingresso dell'Esposizione Universale del 1889."
Domanda: "In quale anno fu completata la Torre Eiffel?"
Risposta: "1889"

Machine Translation

I modelli di traduzione automatica ricevono un documento in una lingua di origine che deve essere tradotto in una lingua di destinazione. Viene utilizzato il dataset IWSLT 2016 inglese-tedesco. Gli esempi provengono da presentazioni TED trascritte che coprono una vasta gamma di argomenti con linguaggio conversazionale.

Esempio:

Testo originale: "Artificial intelligence is changing our world."
Traduzione: "Künstliche Intelligenz verändert unsere Welt."

Summarization

I modelli di riassunto prendono un documento e producono un riassunto di quel documento. Il dataset CNN/DailyMail è usato per questo task. Gli esempi contengono i documenti più lunghi in decaNLP e richiedono ai modelli di bilanciare l'estrazione dal contesto con la generazione di nuove sequenze di parole.

Esempio:

Articolo: "La NASA ha annunciato oggi una nuova missione su Marte. La missione, prevista per il 2025, includerà l'invio di un rover avanzato per studiare la geologia del pianeta. Gli scienziati sperano di trovare prove di antica vita microbica."
Riassunto: "La NASA lancerà nel 2025 una missione su Marte con un nuovo rover per ricercare tracce di vita antica."

Natural Language Inference

I modelli NLI ricevono due frasi: una premessa e un'ipotesi. Devono classificare la relazione di inferenza tra le due come implicazione, neutralità o contraddizione. Viene utilizzato il Multi-Genre Natural Language Inference Corpus (MNLI).

Esempio:

Premessa: "Il gatto dorme sul divano."
Ipotesi: "C'è un animale domestico che riposa sul mobilio."
Relazione: Implicazione

Sentiment Analysis

I modelli di analisi del sentimento sono addestrati per classificare il sentimento espresso nel testo di input. Viene utilizzato lo Stanford Sentiment Treebank (SST) che consiste in recensioni di film con il relativo sentimento.

Esempio:

Recensione: "Questo film è un capolavoro assoluto, con una regia impeccabile e interpretazioni memorabili."
Sentimento: Positivo

Semantic Role Labeling

I modelli SRL ricevono una frase e un predicato (tipicamente un verbo) e devono determinare 'chi ha fatto cosa a chi', 'quando' e 'dove'. Viene utilizzato il dataset QA-SRL che tratta il task come question answering.

Esempio:

Frase: "Marco ha regalato un libro a Sara ieri in biblioteca."
Predicato: "regalare"
Chi: Marco
Cosa: un libro
A chi: Sara
Quando: ieri
Dove: in biblioteca

Relation Extraction

I sistemi di estrazione delle relazioni analizzano un testo non strutturato per estrarre specifiche relazioni. Viene utilizzato il dataset QA-ZRE che mappa le relazioni a un set di domande.

Esempio:

Testo: "Tim Cook è diventato CEO di Apple nel 2011, succedendo a Steve Jobs."
Relazione cercata: "successore di"
Domanda generata: "Chi è il successore di Steve Jobs in Apple?"
Risposta: "Tim Cook"

Goal-Oriented Dialogue

Il tracciamento dello stato del dialogo è un componente chiave dei sistemi di dialogo orientati agli obiettivi. Viene utilizzato il Wizard of Oz (WOZ) per prenotazioni di ristoranti.

Esempio:

Utente: "Vorrei prenotare un tavolo per due persone venerdì sera."
Sistema: "A che ora preferisce?"
Utente: "Alle 20:00."
Stato del dialogo: {persone: 2, data: venerdì, ora: 20:00}

Semantic Parsing

La generazione di query SQL è correlata al parsing semantico. I modelli basati su WikiSQL traducono domande in linguaggio naturale in query SQL strutturate.

Esempio:

Domanda: "Quali sono i nomi degli impiegati con stipendio superiore a 50000?"
Query SQL: "SELECT nome FROM impiegati WHERE stipendio > 50000"

Pronoun Resolution

Il task finale è basato sugli schemi Winograd, che richiedono la risoluzione dei pronomi. Viene utilizzata una versione modificata del Winograd Schema Challenge (MWSC).

Esempio:

Contesto: "Maria ha ringraziato Lucia per l'aiuto che le aveva dato."
Domanda: "Chi aveva dato aiuto?"
Risposta: "Lucia"

Note

Le metriche di valutazione includono:

nF1 (F1 normalizzato) per QA e SRL
BLEU per traduzione
ROUGE per riassunti
EM (Exact Match) per NLI e sentiment
cF1 (F1 a livello di corpus) per estrazione di relazioni
dsEM (dialogue state Exact Match) per dialogo
lfEM (logical form Exact Match) per parsing semantico