Massive Multitask Language Understanding: differenze tra le versioni

Da Wiki AI.
Nessun oggetto della modifica
Nessun oggetto della modifica
 
Riga 7: Riga 7:
}}
}}


Viene proposto un nuovo test per misurare l'accuratezza multitask di un modello di linguaggio. Il test copre 57 compiti, tra cui matematica elementare, storia degli Stati Uniti, informatica, legge e altro ancora. Per ottenere un'elevata accuratezza in questo test, i modelli devono possedere un'ampia conoscenza del mondo e capacità di problem solving. Si scopre che, mentre i modelli più recenti hanno un'accuratezza quasi casuale, il modello GPT-3 più grande migliora la casualità di quasi 20 punti percentuali in media. Tuttavia, in ognuna delle 57 attività, i modelli migliori hanno ancora bisogno di miglioramenti sostanziali prima di poter raggiungere un'accuratezza a livello di esperti. I modelli hanno anche prestazioni sbilanciate e spesso non sanno quando sbagliano. Peggio ancora, hanno ancora un'accuratezza quasi casuale su alcuni argomenti socialmente importanti come la moralità e la legge. Valutando in modo completo l'ampiezza e la profondità della comprensione accademica e professionale di un modello, il nostro test può essere utilizzato per analizzare i modelli in molte attività e per identificare carenze importanti.
Test per misurare l'accuratezza multitask di un modello di linguaggio.
 
Il test copre 57 compiti, tra cui matematica elementare, storia degli Stati Uniti, informatica, legge e altro ancora.  
 
Per ottenere un'elevata accuratezza in questo test, i modelli devono possedere un'ampia conoscenza del mondo e capacità di problem solving.  
 
Si scopre che, mentre i modelli più recenti hanno un'accuratezza quasi casuale, il modello GPT-3 più grande migliora la casualità di quasi 20 punti percentuali in media. Tuttavia, in ognuna delle 57 attività, i modelli migliori hanno ancora bisogno di miglioramenti sostanziali prima di poter raggiungere un'accuratezza a livello di esperti.
 
I modelli hanno anche prestazioni sbilanciate e spesso non sanno quando sbagliano. Peggio ancora, hanno ancora un'accuratezza quasi casuale su alcuni argomenti socialmente importanti come la moralità e la legge. Valutando in modo completo l'ampiezza e la profondità della comprensione accademica e professionale di un modello, il nostro test può essere utilizzato per analizzare i modelli in molte attività e per identificare carenze importanti.

Versione attuale delle 17:11, 26 nov 2024

Massive Multitask Language Understanding
Data 2021
Autori Dan Hendrycks et al.
URL https://www.semanticscholar.org/paper/814a4f680b9ba6baba23b93499f4b48af1a27678
Topic Misurazione della comprensione linguistica multitask su larga scala
Citazioni 2044


Test per misurare l'accuratezza multitask di un modello di linguaggio.

Il test copre 57 compiti, tra cui matematica elementare, storia degli Stati Uniti, informatica, legge e altro ancora.

Per ottenere un'elevata accuratezza in questo test, i modelli devono possedere un'ampia conoscenza del mondo e capacità di problem solving.

Si scopre che, mentre i modelli più recenti hanno un'accuratezza quasi casuale, il modello GPT-3 più grande migliora la casualità di quasi 20 punti percentuali in media. Tuttavia, in ognuna delle 57 attività, i modelli migliori hanno ancora bisogno di miglioramenti sostanziali prima di poter raggiungere un'accuratezza a livello di esperti.

I modelli hanno anche prestazioni sbilanciate e spesso non sanno quando sbagliano. Peggio ancora, hanno ancora un'accuratezza quasi casuale su alcuni argomenti socialmente importanti come la moralità e la legge. Valutando in modo completo l'ampiezza e la profondità della comprensione accademica e professionale di un modello, il nostro test può essere utilizzato per analizzare i modelli in molte attività e per identificare carenze importanti.