Alice in Wonderland: Simple Tasks Showing Complete Reasoning Breakdown in State-Of-the-Art Large Language Models: differenze tra le versioni

Da Wiki AI.
(Creata pagina con "=== Collegamenti === https://arxiv.org/pdf/2406.02061 [https://www.youtube.com/watch?v=Nvb_4Jj5kBo Why "Grokking" AI Would Be A Key To AGI]")
 
Nessun oggetto della modifica
Riga 3: Riga 3:


[https://www.youtube.com/watch?v=Nvb_4Jj5kBo Why "Grokking" AI Would Be A Key To AGI]
[https://www.youtube.com/watch?v=Nvb_4Jj5kBo Why "Grokking" AI Would Be A Key To AGI]
{{template pubblicazione
|data=2024
|autori=Marianna Nezhurina, Lucia Cipolina-Kun, Mehdi Cherti, J. Jitsev
|URL=https://www.semanticscholar.org/paper/32e086dd56041ddb63d9e9e210c29a7fdeabdb6d
|topic=Ragionamento nei Large Language Models
|citazioni=5
}}
Questo articolo evidenzia come i Large Language Models (LLM), nonostante le loro capacità avanzate, possano fallire in compiti di ragionamento semplici e di buon senso. Gli autori presentano un problema specifico, denominato "AIW problem", che i modelli LLM non riescono a risolvere in modo affidabile, mostrando incoerenza e scarsa capacità di ragionamento logico. L'articolo solleva dubbi sulla reale capacità di ragionamento dei LLM e incoraggia ulteriori ricerche per la creazione di benchmark più accurati per valutare tali capacità.

Versione delle 10:03, 19 ago 2024

Collegamenti

https://arxiv.org/pdf/2406.02061

Why "Grokking" AI Would Be A Key To AGI

Alice in Wonderland: Simple Tasks Showing Complete Reasoning Breakdown in State-Of-the-Art Large Language Models
Data 2024
Autori Marianna Nezhurina, Lucia Cipolina-Kun, Mehdi Cherti, J. Jitsev
URL https://www.semanticscholar.org/paper/32e086dd56041ddb63d9e9e210c29a7fdeabdb6d
Topic Ragionamento nei Large Language Models
Citazioni 5


Questo articolo evidenzia come i Large Language Models (LLM), nonostante le loro capacità avanzate, possano fallire in compiti di ragionamento semplici e di buon senso. Gli autori presentano un problema specifico, denominato "AIW problem", che i modelli LLM non riescono a risolvere in modo affidabile, mostrando incoerenza e scarsa capacità di ragionamento logico. L'articolo solleva dubbi sulla reale capacità di ragionamento dei LLM e incoraggia ulteriori ricerche per la creazione di benchmark più accurati per valutare tali capacità.