Massive Multitask Language Understanding: differenze tra le versioni
(Creata pagina con "Titolo: Titolo::Massive Multitask Language Understanding Anno di pubblicazione: AnnoDiPubblicazione::2021 Autori: Autori::Dan Hendrycks et al. URL: URL::https://arxiv.org/pdf/2009.03300.pdf Category:pubblicazione __SHOWFACTBOX__") |
Nessun oggetto della modifica |
||
Riga 1: | Riga 1: | ||
{{template pubblicazione | |||
|data=2021 | |||
|autori=Dan Hendrycks et al. | |||
|URL=https://www.semanticscholar.org/paper/814a4f680b9ba6baba23b93499f4b48af1a27678 | |||
|topic=Misurazione della comprensione linguistica multitask su larga scala | |||
|citazioni=2044 | |||
}} | |||
Viene proposto un nuovo test per misurare l'accuratezza multitask di un modello di linguaggio. Il test copre 57 compiti, tra cui matematica elementare, storia degli Stati Uniti, informatica, legge e altro ancora. Per ottenere un'elevata accuratezza in questo test, i modelli devono possedere un'ampia conoscenza del mondo e capacità di problem solving. Si scopre che, mentre i modelli più recenti hanno un'accuratezza quasi casuale, il modello GPT-3 più grande migliora la casualità di quasi 20 punti percentuali in media. Tuttavia, in ognuna delle 57 attività, i modelli migliori hanno ancora bisogno di miglioramenti sostanziali prima di poter raggiungere un'accuratezza a livello di esperti. I modelli hanno anche prestazioni sbilanciate e spesso non sanno quando sbagliano. Peggio ancora, hanno ancora un'accuratezza quasi casuale su alcuni argomenti socialmente importanti come la moralità e la legge. Valutando in modo completo l'ampiezza e la profondità della comprensione accademica e professionale di un modello, il nostro test può essere utilizzato per analizzare i modelli in molte attività e per identificare carenze importanti. | |||
Versione delle 10:51, 17 ago 2024
Massive Multitask Language Understanding | |
---|---|
Data | 2021 |
Autori | Dan Hendrycks et al. |
URL | https://www.semanticscholar.org/paper/814a4f680b9ba6baba23b93499f4b48af1a27678 |
Topic | Misurazione della comprensione linguistica multitask su larga scala |
Citazioni | 2044 |
Viene proposto un nuovo test per misurare l'accuratezza multitask di un modello di linguaggio. Il test copre 57 compiti, tra cui matematica elementare, storia degli Stati Uniti, informatica, legge e altro ancora. Per ottenere un'elevata accuratezza in questo test, i modelli devono possedere un'ampia conoscenza del mondo e capacità di problem solving. Si scopre che, mentre i modelli più recenti hanno un'accuratezza quasi casuale, il modello GPT-3 più grande migliora la casualità di quasi 20 punti percentuali in media. Tuttavia, in ognuna delle 57 attività, i modelli migliori hanno ancora bisogno di miglioramenti sostanziali prima di poter raggiungere un'accuratezza a livello di esperti. I modelli hanno anche prestazioni sbilanciate e spesso non sanno quando sbagliano. Peggio ancora, hanno ancora un'accuratezza quasi casuale su alcuni argomenti socialmente importanti come la moralità e la legge. Valutando in modo completo l'ampiezza e la profondità della comprensione accademica e professionale di un modello, il nostro test può essere utilizzato per analizzare i modelli in molte attività e per identificare carenze importanti.