Massive Multitask Language Understanding
| Massive Multitask Language Understanding | |
|---|---|
| Data | 2021 |
| Autori | Dan Hendrycks et al. |
| URL | https://www.semanticscholar.org/paper/814a4f680b9ba6baba23b93499f4b48af1a27678 |
| Topic | Misurazione della comprensione linguistica multitask su larga scala |
| Citazioni | 2044 |
Test per misurare l'accuratezza multitask di un modello di linguaggio.
Il test copre 57 compiti, tra cui matematica elementare, storia degli Stati Uniti, informatica, legge e altro ancora.
Per ottenere un'elevata accuratezza in questo test, i modelli devono possedere un'ampia conoscenza del mondo e capacità di problem solving.
Si scopre che, mentre i modelli più recenti hanno un'accuratezza quasi casuale, il modello GPT-3 più grande migliora la casualità di quasi 20 punti percentuali in media. Tuttavia, in ognuna delle 57 attività, i modelli migliori hanno ancora bisogno di miglioramenti sostanziali prima di poter raggiungere un'accuratezza a livello di esperti.
I modelli hanno anche prestazioni sbilanciate e spesso non sanno quando sbagliano. Peggio ancora, hanno ancora un'accuratezza quasi casuale su alcuni argomenti socialmente importanti come la moralità e la legge. Valutando in modo completo l'ampiezza e la profondità della comprensione accademica e professionale di un modello, il nostro test può essere utilizzato per analizzare i modelli in molte attività e per identificare carenze importanti.