BABILong
BABILong è un benchmark progettato per valutare le capacità del modello nell'estrazione ed elaborazione di fatti distribuiti all'interno di testi estesi.
Link
Paper
In Search of Needles in a 11M Haystack:Recurrent Memory Finds What LLMs Miss: paper originale
Github
BABILong: a long-context needle-in-a-haystack benchmark for LLMs