BABILong

Da Wiki AI.

BABILong è un benchmark progettato per valutare le capacità del modello nell'estrazione ed elaborazione di fatti distribuiti all'interno di testi estesi.

Link

Paper

In Search of Needles in a 11M Haystack:Recurrent Memory Finds What LLMs Miss: paper originale

Github

BABILong: a long-context needle-in-a-haystack benchmark for LLMs