HellaSwag: Can a Machine Really Finish Your Sentence?

HellaSwag: Can a Machine Really Finish Your Sentence?
Data	2019
Autori	Rowan Zellers et al.
URL	https://www.semanticscholar.org/paper/8b0f27bb594b1eaaf493eaf1e2ee723a2b0a19ad
Topic	Natural Language Inference
Citazioni	1347

HellaSwag è un set di dati di sfide progettato per valutare la capacità dei modelli linguistici di eseguire inferenze di senso comune. Nonostante l'apparente semplicità per gli esseri umani, che raggiungono un'accuratezza superiore al 95%, i modelli all'avanguardia incontrano difficoltà significative, ottenendo risultati inferiori al 48%. Questo divario evidenzia le sfide persistenti nell'ambito dell'inferenza di senso comune per l'elaborazione del linguaggio naturale.