HellaSwag: Can a Machine Really Finish Your Sentence?
HellaSwag: Can a Machine Really Finish Your Sentence? | |
---|---|
Data | 2019 |
Autori | Rowan Zellers et al. |
URL | https://www.semanticscholar.org/paper/8b0f27bb594b1eaaf493eaf1e2ee723a2b0a19ad |
Topic | Natural Language Inference |
Citazioni | 1347 |
HellaSwag è un set di dati di sfide progettato per valutare la capacità dei modelli linguistici di eseguire inferenze di senso comune. Nonostante l'apparente semplicità per gli esseri umani, che raggiungono un'accuratezza superiore al 95%, i modelli all'avanguardia incontrano difficoltà significative, ottenendo risultati inferiori al 48%. Questo divario evidenzia le sfide persistenti nell'ambito dell'inferenza di senso comune per l'elaborazione del linguaggio naturale.