Massive Multitask Language Understanding: differenze tra le versioni
Nessun oggetto della modifica |
Nessun oggetto della modifica |
||
Riga 7: | Riga 7: | ||
}} | }} | ||
Test per misurare l'accuratezza multitask di un modello di linguaggio. | |||
Il test copre 57 compiti, tra cui matematica elementare, storia degli Stati Uniti, informatica, legge e altro ancora. | |||
Per ottenere un'elevata accuratezza in questo test, i modelli devono possedere un'ampia conoscenza del mondo e capacità di problem solving. | |||
Si scopre che, mentre i modelli più recenti hanno un'accuratezza quasi casuale, il modello GPT-3 più grande migliora la casualità di quasi 20 punti percentuali in media. Tuttavia, in ognuna delle 57 attività, i modelli migliori hanno ancora bisogno di miglioramenti sostanziali prima di poter raggiungere un'accuratezza a livello di esperti. | |||
I modelli hanno anche prestazioni sbilanciate e spesso non sanno quando sbagliano. Peggio ancora, hanno ancora un'accuratezza quasi casuale su alcuni argomenti socialmente importanti come la moralità e la legge. Valutando in modo completo l'ampiezza e la profondità della comprensione accademica e professionale di un modello, il nostro test può essere utilizzato per analizzare i modelli in molte attività e per identificare carenze importanti. |
Versione attuale delle 17:11, 26 nov 2024
Massive Multitask Language Understanding | |
---|---|
Data | 2021 |
Autori | Dan Hendrycks et al. |
URL | https://www.semanticscholar.org/paper/814a4f680b9ba6baba23b93499f4b48af1a27678 |
Topic | Misurazione della comprensione linguistica multitask su larga scala |
Citazioni | 2044 |
Test per misurare l'accuratezza multitask di un modello di linguaggio.
Il test copre 57 compiti, tra cui matematica elementare, storia degli Stati Uniti, informatica, legge e altro ancora.
Per ottenere un'elevata accuratezza in questo test, i modelli devono possedere un'ampia conoscenza del mondo e capacità di problem solving.
Si scopre che, mentre i modelli più recenti hanno un'accuratezza quasi casuale, il modello GPT-3 più grande migliora la casualità di quasi 20 punti percentuali in media. Tuttavia, in ognuna delle 57 attività, i modelli migliori hanno ancora bisogno di miglioramenti sostanziali prima di poter raggiungere un'accuratezza a livello di esperti.
I modelli hanno anche prestazioni sbilanciate e spesso non sanno quando sbagliano. Peggio ancora, hanno ancora un'accuratezza quasi casuale su alcuni argomenti socialmente importanti come la moralità e la legge. Valutando in modo completo l'ampiezza e la profondità della comprensione accademica e professionale di un modello, il nostro test può essere utilizzato per analizzare i modelli in molte attività e per identificare carenze importanti.