BABILong: differenze tra le versioni
Nessun oggetto della modifica |
Nessun oggetto della modifica |
||
(6 versioni intermedie di 3 utenti non mostrate) | |||
Riga 1: | Riga 1: | ||
BABILong è un benchmark progettato per valutare le capacità del modello nell'estrazione ed elaborazione di fatti distribuiti all'interno di testi estesi. | {{Template benchmark | ||
|Nome=BABILong | |||
|Sigla= | |||
|Anno di creazione=2024 | |||
|URLHomePage=https://github.com/booydar/babilong?tab=readme-ov-file BABILong: a long-context needle-in-a-haystack benchmark for LLMs | |||
|Pubblicazione=[https://arxiv.org/pdf/2402.10790.pdf In Search of Needles in a 11M Haystack:Recurrent Memory Finds What LLMs Miss] | |||
}} | |||
'''BABILong''' è un benchmark progettato per valutare le capacità del modello nell'estrazione ed elaborazione di fatti distribuiti all'interno di testi estesi. | |||
Risolvere compiti con una dimensione di contesto lunga richiede al modello di distinguere informazioni importanti da grandi quantità di dettagli irrilevanti. Per simulare questo comportamento, "nascondiamo" le frasi del compito originale tra le frasi di testo irrilevante che proviene da un'altra distribuzione strettamente correlata (vedi Figura 1). | |||
[[File:Screenshot 2024-03-20 alle 14.17.32.png|centro|miniatura|'''Figura1:''' Esempio di generazione per il dataset BABILong. Le affermazioni rilevanti per la domanda da un campione di bAbILong sono nascoste all'interno di testi più ampi e irrilevanti provenienti da PG19.]] | |||
Questo approccio è basato sui primi test "'''ago nel pagliaio'''". Si tratta di un test che mira a testare la capacità di un sistema AI di '''identificare''', '''estrarre''', o '''riconoscere''' un'informazione molto specifica o un elemento (l'"ago") da un vasto insieme di dati o informazioni non pertinenti (il "pagliaio"). Questo concetto può essere applicato in vari ambiti, come il riconoscimento di pattern, la ricerca di informazioni, il processamento del linguaggio naturale, e altri campi dell'AI dove il sistema deve dimostrare di poter effettivamente "trovare l'ago nel pagliaio". | |||
== Link == | == Link == | ||
Riga 8: | Riga 22: | ||
[https://github.com/booydar/babilong?tab=readme-ov-file BABILong: a long-context needle-in-a-haystack benchmark for LLMs] | [https://github.com/booydar/babilong?tab=readme-ov-file BABILong: a long-context needle-in-a-haystack benchmark for LLMs] | ||
{{#seo: | |||
|title=BABILong | |||
|title_mode=append | |||
|keywords=benchmark, intelligenza artificiale, AI, elaborazione del linguaggio naturale, NLP, modelli linguistici di grandi dimensioni, LLM, ago nel pagliaio, memoria ricorrente, estrazione di informazioni | |||
|description=BABILong è un benchmark per valutare la capacità dei modelli linguistici di estrarre informazioni da testi estesi. Simula la ricerca di un ago nel pagliaio", nascondendo frasi cruciali in mezzo a informazioni irrilevanti per testare la capacità di un modello di distinguere dati importanti da dettagli superflui." | |||
|image=Screenshot 2024-03-20 alle 14.17.32.png | |||
}} |
Versione attuale delle 13:47, 17 ago 2024
BABILong | |
---|---|
Nome | BABILong |
Sigla | |
Anno di creazione | 2024 |
URLHomePage | https://github.com/booydar/babilong?tab=readme-ov-file BABILong: a long-context needle-in-a-haystack benchmark for LLMs |
Pubblicazione | [[Pubblicazione::In Search of Needles in a 11M Haystack:Recurrent Memory Finds What LLMs Miss]] |
BABILong è un benchmark progettato per valutare le capacità del modello nell'estrazione ed elaborazione di fatti distribuiti all'interno di testi estesi.
Risolvere compiti con una dimensione di contesto lunga richiede al modello di distinguere informazioni importanti da grandi quantità di dettagli irrilevanti. Per simulare questo comportamento, "nascondiamo" le frasi del compito originale tra le frasi di testo irrilevante che proviene da un'altra distribuzione strettamente correlata (vedi Figura 1).

Questo approccio è basato sui primi test "ago nel pagliaio". Si tratta di un test che mira a testare la capacità di un sistema AI di identificare, estrarre, o riconoscere un'informazione molto specifica o un elemento (l'"ago") da un vasto insieme di dati o informazioni non pertinenti (il "pagliaio"). Questo concetto può essere applicato in vari ambiti, come il riconoscimento di pattern, la ricerca di informazioni, il processamento del linguaggio naturale, e altri campi dell'AI dove il sistema deve dimostrare di poter effettivamente "trovare l'ago nel pagliaio".
Link
Paper
In Search of Needles in a 11M Haystack:Recurrent Memory Finds What LLMs Miss: paper originale
Github
BABILong: a long-context needle-in-a-haystack benchmark for LLMs