HellaSwag: Can a Machine Really Finish Your Sentence?

Da Wiki AI.
HellaSwag: Can a Machine Really Finish Your Sentence?
Data 2019
Autori Rowan Zellers et al.
URL https://www.semanticscholar.org/paper/8b0f27bb594b1eaaf493eaf1e2ee723a2b0a19ad
Topic Natural Language Inference
Citazioni 1347


HellaSwag è un set di dati di sfide progettato per valutare la capacità dei modelli linguistici di eseguire inferenze di senso comune. Nonostante l'apparente semplicità per gli esseri umani, che raggiungono un'accuratezza superiore al 95%, i modelli all'avanguardia incontrano difficoltà significative, ottenendo risultati inferiori al 48%. Questo divario evidenzia le sfide persistenti nell'ambito dell'inferenza di senso comune per l'elaborazione del linguaggio naturale.