Wiki AI - Contributi dell'utente [it]

WinoGrande

2024-04-11T15:10:49Z

Sara Maserati:

Nome: [[Nome::WinoGrande]]

Anno di creazione: [[AnnoDiCreazione::2019]]

URLHomePage: [https://paperswithcode.com/dataset/winogrande HomePage WinoGrande]

__SHOWFACTBOX__
== Intro ==
Winogrande mira a valutare la capacità dei modelli di IA di applicare il senso comune per risolvere enigmi e compiti di comprensione del testo che richiedono più di una semplice analisi linguistica o statistica. Rispetto a set di dati simili come WSC, Winogrande offre una collezione di problemi più ampia e variata, riducendo la possibilità di sfruttare scorciatoie o bias nei dati per risolvere i problemi. Ogni domanda è formulata attorno a una frase o a un piccolo paragrafo che presenta una situazione ambigua o un enigma che richiede la comprensione del contesto e delle relazioni causali o logiche per essere risolto.

Uno degli aspetti innovativi di Winogrande è l'uso dell'[[Adversarial Filtering (AF)]] nella generazione del dataset. Questo processo seleziona le domande più difficili eliminando quelle che i modelli di IA possono risolvere facilmente attraverso scorciatoie o bias presenti nei dati. L'AF assicura che solo gli esempi più sfidanti, che richiedono un vero ragionamento di senso comune, siano inclusi nel benchmark.

== Esempi ==

* '''Esempio 1'''

'''Frase:'''

"John ha spostato il divano dal garage al giardino per creare spazio. Il _ è piccolo".

'''Opzione 1:'''

"garage"

'''Opzione 2:'''

"giardino"

'''Risposta:'''

"1"

* '''Esempio 2'''

'''Frase:'''

"Il dottore ha diagnosticato a Justin il disturbo bipolare e a Robert l'ansia. _ aveva i nervi a pezzi".

'''Opzione 1:'''

"Justin"

'''Opzione 2:'''

"Robert"

'''Risposta:'''

"2"

==Strategie per risposte mirate nei modelli di linguaggio==
===Procedura di Valutazione su WinoGrande===
La valutazione su WinoGrande segue una metodologia specifica per assicurare che il modello affronti correttamente il problema di ragionamento presentato. Ecco i passaggi chiave:

'''Prompting''': Il modello riceve un prompt che consiste in una narrazione breve con una domanda di ragionamento di senso comune. Il prompt può includere anche delle scelte multiple come possibili risposte.

'''Generazione della Risposta''': Il modello deve selezionare la risposta corretta tra le opzioni fornite. Questo richiede una comprensione approfondita del testo e la capacità di applicare il ragionamento di senso comune.

'''Parsing dell'Output''': Dato che l'output del modello può variare in formato, gli sviluppatori devono implementare metodi per interpretare e valutare correttamente la risposta generata, assicurandosi che corrisponda alla selezione corretta tra le opzioni fornite.

===Generazione di una Specifica Label===
Per indurre il modello a generare una specifica label senza reintrodurre il contesto in ogni risposta, gli sviluppatori possono utilizzare tecniche di addestramento specifiche. Questo può includere l'addestramento del modello con esempi in cui la risposta è limitata a una scelta tra opzioni multiple, rinforzando la capacità del modello di focalizzarsi sulla selezione della risposta corretta basata sul ragionamento di senso comune.

== Link ==
* [https://paperswithcode.com/dataset/winogrande WinoGrande]
* [https://huggingface.co/datasets/winogrande/viewer/winogrande_debiased/train?row=0 Dataset Winogrande]

[[Category:benchmark]]

UCF101 - Action Recognition Data Set

2024-04-11T15:09:16Z

Sara Maserati:

Nome: [[Nome::Action Recognition Data Set]]

Sigla: [[Sigla::UCF101]]

Anno di creazione: [[AnnoDiCreazione::2013]]

URLHomePage: [https://www.crcv.ucf.edu/data/UCF101.php HomePage UCF101]

__SHOWFACTBOX__

== Introduzione ==
UCF101 è un dataset di riconoscimento delle azioni, che comprende video di azioni realistiche raccolti da YouTube, suddivisi in 101 categorie di azioni. Questo dataset è l'estensione del dataset UCF50, che includeva 50 categorie di azioni. Con i suoi 13320 video divisi in 101 categorie, UCF101 offre la più ampia varietà in termini di azioni, presentando notevoli variazioni in termini di movimento della telecamera, aspetto e posa degli oggetti, scala degli oggetti, punto di vista, sfondi disordinati, condizioni di illuminazione, ecc., rendendolo il dataset più sfidante fino ad oggi. A differenza di molti altri dataset di riconoscimento delle azioni, che sono spesso poco realistici e messi in scena da attori, UCF101 mira a stimolare ulteriori ricerche nel campo del riconoscimento delle azioni attraverso l'apprendimento ed esplorazione di nuove categorie di azioni realistiche.

I video sono raggruppati in 25 gruppi, ognuno dei quali può consistere di 4-7 video relativi a una determinata azione. I video dello stesso gruppo possono condividere alcune caratteristiche comuni, come sfondi o punti di vista simili.

Le categorie di azioni possono essere suddivise in cinque tipi:
1) Interazione Uomo-Oggetto
2) Solo Movimento del Corpo
3) Interazione Uomo-Uomo
4) Suonare Strumenti Musicali
5) Sport.

== Categorie di Azione ==
Le categorie di azione per il dataset UCF101 includono: applicare il trucco agli occhi, applicare il rossetto, tiro con l'arco, gattonamento del bambino, trave di equilibrio, marcia della banda, lancio della palla da baseball, tiro a canestro, schiacciata a basket, sollevamento pesi, ciclismo, colpo da biliardo, asciugatura dei capelli, soffiare candeline, squat, bowling, pugilato al sacco, pugilato al speed bag, nuoto a rana, spazzolamento denti, sollevamento pesi, tuffo dalla scogliera, lancio del cricket, colpo di cricket, taglio in cucina, tuffo, suonare la batteria, scherma, penalty di hockey su prato, ginnastica a terra, cattura del frisbee, nuoto stile libero, swing nel golf, taglio dei capelli, lancio del martello, martellare, flessioni in verticale, camminata in verticale, massaggio alla testa, salto in alto, corsa di cavalli, equitazione, hula hoop, danza sul ghiaccio, lancio del giavellotto, giocoleria con le palle, salto della corda, jumping jack, kayak, maglia, salto in lungo, affondi, parata militare, miscelazione dell'impasto, pulizia del pavimento, nunchaku, sbarre parallele, lancio della pizza, suonare la chitarra, suonare il pianoforte, suonare il tabla, suonare il violino, suonare il violoncello, suonare il daf, suonare il dhol, suonare il flauto, suonare il sitar, salto con l'asta, cavallo a dondolo, trazioni, pugno, flessioni, rafting, arrampicata indoor, arrampicata su corda, canottaggio, giri di salsa, rasatura della barba, lancio del peso, skateboard, sci, moto d'acqua, paracadutismo, giocoleria con il calcio, calcio di rigore, anelli di ginnastica, lotta sumo, surf, altalena, tiro a ping pong, tai chi, swing nel tennis, lancio del disco, salto sul trampolino, digitazione, sbarre asimmetriche, schiacciata a pallavolo, camminata con il cane, flessioni al muro, scrittura sulla lavagna, gioco con lo yo-yo.

== Utilizzo e Citazioni ==
UCF101 mira a essere un benchmark principale per la competizione al First International Workshop on Action Recognition

[[File:UCF101.jpg|200px]]

=== Links ===
[https://www.crcv.ucf.edu/data/UCF101.php https://www.crcv.ucf.edu/data/UCF101.php]

[[Category:benchmark]]

Semantic Textual Similarity (STS)

2024-04-11T15:07:22Z

Sara Maserati:

Nome: [[Nome::Semantic Textual Similarity]]

Sigla: [[Sigla::STS]]

Anno di creazione: [[AnnoDiCreazione::2012]]

Misura di somiglianza tra frasi. [[BERT]], [[RoBERTa]] e [[GLoVe]] hanno miglioraro in maniera decisiva questo benchmark

[[Category:Benchmark]]

__SHOWFACTBOX__

QuAC

2024-04-11T15:05:38Z

Sara Maserati:

Nome: [[Nome::Question Answering in Context]]

Sigla: [[Sigla::QuAC]]

Anno di creazione: [[AnnoDiCreazione::2018]]

URLHomePage: [https://quac.ai HomePage QuAC]

Question Answering in Context is a dataset for modeling, understanding, and participating in information seeking dialog.

= Links =
[https://quac.ai Homepage]
[https://paperswithcode.com/sota/question-answering-on-quac Classifica e SOTA]

[[Category:benchmark]]

__SHOWFACTBOX__

SQuAD

2024-04-11T15:05:01Z

Sara Maserati:

Nome: [[Nome::Stanford Question Answering Dataset]]

Sigla: [[Sigla::SQuAD]]

Anno di creazione: [[AnnoDiCreazione::2018]]

URLHomePage: [https://rajpurkar.github.io/SQuAD-explorer/ HomePage SQuAD]

Acronimo per Stanford Question Answering Dataset (SQuAD), è un dataset di domande basate su Wikipedia e crowdsourced

=Link=
[https://rajpurkar.github.io/SQuAD-explorer/ https://rajpurkar.github.io/SQuAD-explorer/]

[[Category:benchmark]]
[[Category:Linguaggio Naturale]]

__SHOWFACTBOX__

QuAC

2024-04-11T15:02:34Z

Sara Maserati:

Nome: [[Nome::Question Answering in Context]]

Sigla: [[Sigla::QuAC]]

Anno di creazione: [[AnnoDiCreazione::2018]]

URLHomePage: [http://esempioarchitettura.com HomePage QuAC]

Question Answering in Context is a dataset for modeling, understanding, and participating in information seeking dialog.

= Links =
[https://quac.ai Homepage]
[https://paperswithcode.com/sota/question-answering-on-quac Classifica e SOTA]

[[Category:benchmark]]

__SHOWFACTBOX__

NaturalQuestions

2024-04-11T15:00:19Z

Sara Maserati:

Nome: [[Nome::NaturalQuestions]]

Anno di creazione: [[AnnoDiCreazione::2019]]

URLHomePage: [https://research.google/pubs/natural-questions-a-benchmark-for-question-answering-research/ HomePage NaturalQuestions]

= Links =

https://research.google/pubs/natural-questions-a-benchmark-for-question-answering-research/

[[Category:benchmark]]

__SHOWFACTBOX__

MS COCO

2024-04-11T14:58:13Z

Sara Maserati:

Nome: [[Nome::Microsoft Common Objects in Context]]

Sigla: [[Sigla::MS COCO]]

Anno di creazione: [[AnnoDiCreazione::2014]]

URLHomePage: [https://cocodataset.org/#home HomePage MS COCO]

== Esempi ==

[[File:Coco-examples.jpg|500px]]

== Links ==
[https://cocodataset.org/#home https://cocodataset.org/#home]

[[Category:benchmark]]

__SHOWFACTBOX__

MS COCO

2024-04-11T14:57:59Z

Sara Maserati:

Nome: [[Nome::Microsoft Common Objects in Context]]

Sigla: [[Sigla::MS COCO]]

Anno di creazione: [[AnnoDiCreazione::2014]]

URLHomePage: [https://cocodataset.org/#home https://cocodataset.org/#home HomePage MS COCO]

== Esempi ==

[[File:Coco-examples.jpg|500px]]

== Links ==
[https://cocodataset.org/#home https://cocodataset.org/#home]

[[Category:benchmark]]

__SHOWFACTBOX__

MS COCO

2024-04-11T14:57:48Z

Sara Maserati:

Nome: [[Nome::Microsoft Common Objects in Context]]

Sigla: [[Sigla::MS COCO]]

Anno di creazione: [[AnnoDiCreazione::2014]]

URLHomePage: [https://cocodataset.org/#home https://cocodataset.org/#home HomePage MS COCO]]

== Esempi ==

[[File:Coco-examples.jpg|500px]]

== Links ==
[https://cocodataset.org/#home https://cocodataset.org/#home]

[[Category:benchmark]]

__SHOWFACTBOX__

Massive Multitask Language Understanding

2024-04-11T14:55:34Z

Sara Maserati: Creata pagina con "Titolo: Titolo::Massive Multitask Language Understanding Anno di pubblicazione: AnnoDiPubblicazione::2021 Autori: Autori::Dan Hendrycks et al. URL: URL::https://arxiv.org/pdf/2009.03300.pdf Category:pubblicazione __SHOWFACTBOX__"

Titolo: [[Titolo::Massive Multitask Language Understanding]]

Anno di pubblicazione: [[AnnoDiPubblicazione::2021]]

Autori: [[Autori::Dan Hendrycks et al.]]

URL: [[URL::https://arxiv.org/pdf/2009.03300.pdf]]

[[Category:pubblicazione]]

__SHOWFACTBOX__

MMLU

2024-04-11T14:53:53Z

Sara Maserati:

Nome: [[Nome::Massive Multitask Language Understanding]]

Sigla: [[Sigla::MMLU]]

Anno di creazione: [[AnnoDiCreazione::2021]]

URLHomePage:[https://paperswithcode.com/sota/multi-task-language-understanding-on-mmlu HomePage MMLU]

Pubblicazione: [[Pubblicazione::Massive Multitask Language Understanding]]

__SHOWFACTBOX__
== Intro ==
'''Il benchmark MMLU (Massive Multitask Language Understanding)''' è stato ideato per valutare le capacità di comprensione dei modelli di linguaggio di grandi dimensioni. Esso misura la capacità di un modello di linguaggio di applicare la sua conoscenza acquisita durante l'addestramento a una vasta gamma di compiti di comprensione del linguaggio, che vanno dalla risposta a domande di conoscenza generale fino alla soluzione di problemi specifici in vari domini. Questi compiti sono suddivisi in diverse categorie, tra cui scienze umane, scienze sociali, scienze fisiche, matematica, tecnologia, e molte altre.

== Esempi ==
'''Esempio 1'''
* '''question'''
Trova tutti gli zeri nel campo finito indicato del polinomio dato con coefficienti in tale campo. x^5 + 3x^3 + x^2 + 2x in Z_5

* '''choises'''
[ "0", "1", "0,1", "0,4" ]

* '''answers'''
3 D (0,4)

'''Esempio 2'''
* '''question'''
"Trova il prodotto dei polinomi dati nell'anello polinomiale specificato. f(x) = 4x - 5, g(x) = 2x^2 - 4x + 2 in Z_8[x]."

* '''choises'''
[ "2x^2 + 5", "6x^2 + 4x + 6", "0", "x^2 + 1" ]

* '''answers'''
1 B ("2x^2+5")

== Strategie per risposte mirate nei Modelli di Linguaggio ==

Per testare i modelli di linguaggio su benchmark come il '''MMLU (Massive Multitask Language Understanding)''', i ricercatori adottano tecniche specifiche per assicurarsi che i modelli generino solo una label specifica come risposta, senza introdurre contenuto aggiuntivo non richiesto. La capacità di generare una risposta concisa e pertinente, limitandosi a una label specifica, è fondamentale per valutare accuratamente le performance del modello in compiti di comprensione del linguaggio su larga scala.

=== Preparazione del Prompt ===
Il prompt o input fornito al modello è formulato con cura per includere tutte le informazioni necessarie affinché il modello comprenda il compito richiesto. Questo può includere:

* '''La domanda''' o lo scenario da valutare.
* '''Le opzioni di risposta''', elencate in modo che il modello possa scegliere tra queste.
* '''Un formato di risposta specifico''', che guida il modello a generare la sua risposta in un formato desiderato, come la selezione di una label.

=== Generazione della Risposta ===
Per indurre il modello a generare solo una label specifica senza introdurre contesto aggiuntivo:

* '''Limitazione della lunghezza''': i ricercatori possono limitare la lunghezza della risposta generata, forzando il modello a produrre output brevi.
* '''Istruzioni esplicite nel prompt''': il prompt può includere istruzioni esplicite che chiedono al modello di selezionare solo una delle opzioni fornite, senza aggiungere ulteriori informazioni.
* '''Post-elaborazione''': in alcuni casi, l'output del modello può essere post-elaborato per estrarre solo la parte pertinente della risposta, come una specifica label.

=== Parsing dell'Output ===
Il parsing dell'output generato dal modello, specialmente quando questo può essere verboso o complesso, richiede metodologie che possono includere:

* '''Analisi sintattica''': estrazione della parte rilevante dell'output basandosi sulla sua struttura grammaticale.
* '''Regole di matching''': applicazione di regole specifiche o espressioni regolari per identificare e selezionare la risposta corretta dall'output.
* '''Machine Learning''': utilizzo di modelli di machine learning secondari per classificare l'output del modello principale e determinare la label corretta.

== Link ==
* [https://paperswithcode.com/sota/multi-task-language-understanding-on-mmlu Benchmark]
* [https://arxiv.org/pdf/2009.03300.pdf Massive Multitask Language Understanding (paper)]

[[Category:benchmark]]

MMLU

2024-04-11T14:53:39Z

Sara Maserati:

Nome: [[Nome::Massive Multitask Language Understanding]]

Sigla: [[Sigla::MMLU]]

Anno di creazione: [[AnnoDiCreazione::2021]]

URLHomePage:[https://paperswithcode.com/sota/multi-task-language-understanding-on-mmlu Benchmark]

Pubblicazione: [[Pubblicazione::Massive Multitask Language Understanding]]

__SHOWFACTBOX__
== Intro ==
'''Il benchmark MMLU (Massive Multitask Language Understanding)''' è stato ideato per valutare le capacità di comprensione dei modelli di linguaggio di grandi dimensioni. Esso misura la capacità di un modello di linguaggio di applicare la sua conoscenza acquisita durante l'addestramento a una vasta gamma di compiti di comprensione del linguaggio, che vanno dalla risposta a domande di conoscenza generale fino alla soluzione di problemi specifici in vari domini. Questi compiti sono suddivisi in diverse categorie, tra cui scienze umane, scienze sociali, scienze fisiche, matematica, tecnologia, e molte altre.

== Esempi ==
'''Esempio 1'''
* '''question'''
Trova tutti gli zeri nel campo finito indicato del polinomio dato con coefficienti in tale campo. x^5 + 3x^3 + x^2 + 2x in Z_5

* '''choises'''
[ "0", "1", "0,1", "0,4" ]

* '''answers'''
3 D (0,4)

'''Esempio 2'''
* '''question'''
"Trova il prodotto dei polinomi dati nell'anello polinomiale specificato. f(x) = 4x - 5, g(x) = 2x^2 - 4x + 2 in Z_8[x]."

* '''choises'''
[ "2x^2 + 5", "6x^2 + 4x + 6", "0", "x^2 + 1" ]

* '''answers'''
1 B ("2x^2+5")

== Strategie per risposte mirate nei Modelli di Linguaggio ==

Per testare i modelli di linguaggio su benchmark come il '''MMLU (Massive Multitask Language Understanding)''', i ricercatori adottano tecniche specifiche per assicurarsi che i modelli generino solo una label specifica come risposta, senza introdurre contenuto aggiuntivo non richiesto. La capacità di generare una risposta concisa e pertinente, limitandosi a una label specifica, è fondamentale per valutare accuratamente le performance del modello in compiti di comprensione del linguaggio su larga scala.

=== Preparazione del Prompt ===
Il prompt o input fornito al modello è formulato con cura per includere tutte le informazioni necessarie affinché il modello comprenda il compito richiesto. Questo può includere:

* '''La domanda''' o lo scenario da valutare.
* '''Le opzioni di risposta''', elencate in modo che il modello possa scegliere tra queste.
* '''Un formato di risposta specifico''', che guida il modello a generare la sua risposta in un formato desiderato, come la selezione di una label.

=== Generazione della Risposta ===
Per indurre il modello a generare solo una label specifica senza introdurre contesto aggiuntivo:

* '''Limitazione della lunghezza''': i ricercatori possono limitare la lunghezza della risposta generata, forzando il modello a produrre output brevi.
* '''Istruzioni esplicite nel prompt''': il prompt può includere istruzioni esplicite che chiedono al modello di selezionare solo una delle opzioni fornite, senza aggiungere ulteriori informazioni.
* '''Post-elaborazione''': in alcuni casi, l'output del modello può essere post-elaborato per estrarre solo la parte pertinente della risposta, come una specifica label.

=== Parsing dell'Output ===
Il parsing dell'output generato dal modello, specialmente quando questo può essere verboso o complesso, richiede metodologie che possono includere:

* '''Analisi sintattica''': estrazione della parte rilevante dell'output basandosi sulla sua struttura grammaticale.
* '''Regole di matching''': applicazione di regole specifiche o espressioni regolari per identificare e selezionare la risposta corretta dall'output.
* '''Machine Learning''': utilizzo di modelli di machine learning secondari per classificare l'output del modello principale e determinare la label corretta.

== Link ==
* [https://paperswithcode.com/sota/multi-task-language-understanding-on-mmlu Benchmark]
* [https://arxiv.org/pdf/2009.03300.pdf Massive Multitask Language Understanding (paper)]

[[Category:benchmark]]

MBPP

2024-04-11T14:51:23Z

Sara Maserati:

Nome: [[Nome::Mostly Basic Programming Problems]]

Sigla: [[Sigla::MBPP]]

Anno di creazione: [[AnnoDiCreazione::2021]]

__SHOWFACTBOX__

[[Category:benchmark]]

MATH

2024-04-11T14:49:32Z

Sara Maserati:

Nome: [[Nome::MATH]]

Anno di creazione: [[AnnoDiCreazione::2021]]

__SHOWFACTBOX__

[[Category:benchmark]]

MATH

2024-04-11T14:49:22Z

Sara Maserati:

Nome: [[Nome: MATH]]

Anno di creazione: [[AnnoDiCreazione::2021]]

__SHOWFACTBOX__

[[Category:benchmark]]

LongAlign: A Recipe for Long Context Alignment of Large Language Models

2024-04-11T14:47:43Z

Sara Maserati: Creata pagina con "Titolo: Titolo::LongAlign: A Recipe for Long Context Alignment of Large Language Models Anno di pubblicazione: AnnoDiPubblicazione::2024 Autori: Autori::Yushi Bai et al. URL: URL::https://arxiv.org/abs/2401.18058 Category:pubblicazione __SHOWFACTBOX__"

Titolo: [[Titolo::LongAlign: A Recipe for Long Context Alignment of Large Language Models]]

Anno di pubblicazione: [[AnnoDiPubblicazione::2024]]

Autori: [[Autori::Yushi Bai et al.]]

URL: [[URL::https://arxiv.org/abs/2401.18058]]

[[Category:pubblicazione]]

__SHOWFACTBOX__

LongAlign

2024-04-11T14:46:08Z

Sara Maserati:

Nome: [[Nome::LongAlign]]

Anno di creazione: [[AnnoDiCreazione::2024]]

URLHomePage: [https://github.com/THUDM/ HomePage LongAlign]

Pubblicazione: [[Pubblicazione::LongAlign: A Recipe for Long Context Alignment of Large Language Models]]

'''LongAlign''' è una tecnica avanzata progettata per aiutare i grandi modelli di intelligenza artificiale a '''comprendere e gestire''' '''testi molto lunghi''' in modo più efficace. Questo metodo introduce un modo nuovo per preparare i modelli a capire meglio le istruzioni complesse e a rispondere in maniera più accurata su argomenti estesi.

Funzionamento di LongAlign:

1. '''Costruzione di un dataset specifico''': Prima di tutto, LongAlign crea un insieme di dati appositamente progettato per addestrare gli LLM su contesti lunghi. Questo set di dati comprende esempi che coprono una vasta gamma di argomenti e formati, assicurando che il modello possa imparare a gestire una varietà di materiali lunghi.

2. '''Tecniche di addestramento efficienti''': LongAlign utilizza strategie di addestramento innovative per accelerare il processo di apprendimento senza sacrificare la qualità. Due approcci chiave sono il "'''packing'''" e il "'''batching ordinato'''". Il '''packing''' consiste nel combinare insieme diversi pezzi di testo fino a raggiungere una lunghezza massima, ottimizzando l'uso delle risorse di calcolo. Il '''batching ordinato''' raggruppa i testi di lunghezza simile per minimizzare i tempi morti. Questi metodi aiutano il modello a imparare in modo più efficiente da grandi volumi di testo.

3. '''Valutazione su compiti complessi''': LongAlign testa i modelli su '''LongBench-Chat''', un benchmark che presenta domande di lunghezza reale da '''10k a 100k caratteri'''. Questo tipo di valutazione assicura che il modello non solo possa gestire testi lunghi, ma che possa anche comprendere e rispondere a domande complesse basate su quei testi.
[[File:Screenshot_2024-03-20_152310.png|centro|miniatura|356x356px|Risultati dei test su LongBench-Chat, che contiene query del mondo reale di lunghezza da 10k a 100k.]]

L'importanza di LongAlign risiede nella sua capacità di spingere i limiti di ciò che gli LLM possono fare. Tradizionalmente, gli LLM lottano con testi lunghi a causa delle limitazioni di memoria e attenzione, ma LongAlign offre un modo per superare tali limiti. Inoltre, il metodo garantisce che i modelli rimangano versatili, mantenendo alte prestazioni su una vasta gamma di compiti, sia che richiedano la gestione di poche righe di testo o l'analisi di interi documenti.

== Link ==

=== Paper ===
[https://arxiv.org/abs/2401.18058 LongAlign: A Recipe for Long Context Alignment of Large Language Models]: paper originale

=== Github ===
https://github.com/THUDM/LongAlign

[[Category: Benchmark]]

__SHOWFACTBOX__

LAION-5B: An open large-scale dataset for training next generation image-text models

2024-04-11T14:29:03Z

Sara Maserati: Creata pagina con "Titolo: Titolo::LAION-5B: An open large-scale dataset for training next generation image-text models Anno di pubblicazione: AnnoDiPubblicazione::2022 Autori: Autori::Christoph Schuhmann et al. URL: URL::https://arxiv.org/abs/2210.08402 Category:pubblicazione __SHOWFACTBOX__"

Titolo: [[Titolo::LAION-5B: An open large-scale dataset for training next generation image-text models]]

Anno di pubblicazione: [[AnnoDiPubblicazione::2022]]

Autori: [[Autori::Christoph Schuhmann et al.]]

URL: [[URL::https://arxiv.org/abs/2210.08402]]

[[Category:pubblicazione]]

__SHOWFACTBOX__

LAION-5B

2024-04-11T14:27:29Z

Sara Maserati:

Nome: [[Nome::Large-scale Artificial Intelligence Open Network-5 Billion]]

Sigla: [[Sigla::LAION-5B]]

Anno di creazione: [[AnnoDiCreazione::2021]]

URLHomePage: [https://laion.ai/blog/laion-5b/ HomePage LAION-5B]

Pubblicazione: [[Pubblicazione::LAION-5B: An open large-scale dataset for training next generation image-text models]]

Dataset di immagini e testo CLIP

[[File:Laion.jpg|senza_cornice|500x500px]]

== Links ==
* [https://laion.ai/blog/laion-5b/ Hopemape Progetto]
* [https://arxiv.org/abs/2210.08402 Paper Originale]

[[Category:benchmark]]

__SHOWFACTBOX__

HumanEval

2024-04-11T14:24:11Z

Sara Maserati:

Nome: [[Nome::HumanEval]]

Anno ci creazione: [[AnnoDiCreazione::2021]]

[[Category:benchmark]]

__SHOWFACTBOX__

HellaSwag: Can a Machine Really Finish Your Sentence?

2024-04-11T13:56:14Z

Sara Maserati: Creata pagina con "Titolo: Titolo::HellaSwag: Can a Machine Really Finish Your Sentence? Anno di pubblicazione: AnnoDiPubblicazione::2019 Autori: Autori::Rowan Zellers et al. URL: URL::https://arxiv.org/pdf/1905.07830.pdf Category:pubblicazione __SHOWFACTBOX__"

Titolo: [[Titolo::HellaSwag: Can a Machine Really Finish Your Sentence?]]

Anno di pubblicazione: [[AnnoDiPubblicazione::2019]]

Autori: [[Autori::Rowan Zellers et al.]]

URL: [[URL::https://arxiv.org/pdf/1905.07830.pdf]]

[[Category:pubblicazione]]

__SHOWFACTBOX__

HellaSwag

2024-04-11T13:54:14Z

Sara Maserati:

Nome: [[Nome::Harder Endings, Longer contexts, and Low-shot Activities for Situations With Adversarial Generations]]

Sigla: [[Sigla::HellaSwag]]

Anno di creazione: [[AnnoDiCreazione::2019]]

URLHomePage:[https://huggingface.co/datasets/Rowan/hellaswag/viewer/default/train?row=1 Dataset HellaSwag]

Pubblicazione: [[Pubblicazione::HellaSwag: Can a Machine Really Finish Your Sentence?]]

== Intro ==
Acronimo per '''"Harder Endings, Longer contexts, and Low-shot Activities for Situations With Adversarial Generations"'''.

È stato progettato per testare la capacità di un modello di prevedere la conclusione logica di una narrazione, spesso in contesti che richiedono un'elevata capacità di ragionamento e comprensione del contesto.
Il benchmark HellaSwag include due tipi principali di contesti: descrizioni di video e situazioni di tipo Wikipedia. Per ogni contesto, vengono fornite diverse scelte di continuazione, e il compito del modello è selezionare quella più logica e coerente con il contesto fornito. Utilizza il concetto di [[Adversarial Endings]].

== Esempi ==

* '''activity_label''' (Questo campo contiene l'etichetta dell'attività che viene svolta):

"Fare i biscotti"

* '''ctx_a''' (Il contesto A fornisce il primo pezzo di informazioni o setup per lo scenario):

"Una chef donna in divisa bianca mostra una pila di teglie da forno in una grande cucina presentandole."

* '''ctx_b''' (Questa frase serve come punto di partenza per la generazione di testo o per la selezione di un finale appropriato):

"Le teglie"

* '''endings''' (Questo campo contiene una lista di possibili finali per la storia presentata nei contesti A e B. Il modello deve scegliere quale tra questi finali sia il più logico e appropriato):

0. contengono tuorli d'uovo e bicarbonato di sodio.
1. poi vengono cosparse di zucchero di canna.
2. vengono poste in un colino sul bancone.
3. vengono riempite con dolci e caricate nel forno.

* '''label''' (Indica la risposta corretta o l'etichetta che il modello dovrebbe prevedere):

In questo caso, il numero '''"3"''' si riferisce all'indice del finale corretto nell'array "endings".

==Strategie per risposte mirate nei modelli di linguaggio==
===Procedure di valutazione su HellaSwag===
La valutazione su HellaSwag solitamente segue questi passaggi:

'''Prompting''': Il modello riceve un prompt che include il contesto e le opzioni di completamento. Il prompt è formulato in modo da indicare chiaramente al modello che il suo compito è selezionare il completamento più plausibile tra le opzioni fornite.

'''Generazione della Risposta''': Diversamente da altri compiti in cui il modello genera liberamente del testo, in HellaSwag il modello deve selezionare tra le opzioni predefinite. Questo può essere realizzato in diversi modi, come ad esempio chiedendo al modello di generare un'etichetta o un indice che corrisponde alla sua scelta.

'''Parsing dell'Output''': Dato che l'output del modello potrebbe essere verboso o presentare informazioni non direttamente legate alla selezione della risposta, gli sviluppatori devono implementare un metodo per estrarre la risposta pertinente dall'output generale. Questo spesso comporta la mappatura dell'output del modello alle opzioni di scelta fornite nel prompt.

===Generazione di una Specifica Label senza Contesto Esplicito===
Per far generare al modello solo una label specifica senza introdurre il contesto in ogni risposta, si possono adottare diverse tecniche, come l'addestramento o il [[fine-tuning]] del modello con un formato di risposta specifico. Questo può includere l'addestramento del modello per riconoscere che, in contesti come HellaSwag, è richiesto di limitare la sua risposta a una delle etichette predefinite, piuttosto che generare una risposta estesa o un testo libero.

== Link ==
*[https://arxiv.org/abs/1905.07830 HellaSwag: Can a Machine Really Finish Your Sentence?]
*[https://huggingface.co/datasets/Rowan/hellaswag/viewer/default/train?row=1 Dataset HellaSwag]

[[Category:benchmark]]

__SHOWFACTBOX__

HMDB: a large human motion database

2024-04-11T13:51:40Z

Sara Maserati:

Nome: [[Nome::A large human motion database]]

Sigla: [[Sigla::HMDB]]

Anno di creazione: [[AnnoDiCreazione::2011]]

URLHomePage: [https://serre-lab.clps.brown.edu/resource/hmdb-a-large-human-motion-database/#overview HomePage HMDB]

== Introduzione ==
L'HMDB, raccolto da diverse fonti principalmente cinematografiche e, in minore misura, da archivi pubblici come l'archivio Prelinger, YouTube e video di Google, comprende 6849 clip suddivise in 51 categorie di azioni, ognuna con almeno 101 clip. Le categorie di azioni si dividono in cinque tipi:

- Azioni facciali generali: sorridere, ridere, masticare, parlare.
- Azioni facciali con manipolazione di oggetti: fumare, mangiare, bere.
- Movimenti corporei generali: fare la ruota, applaudire, arrampicarsi, salire le scale, tuffarsi, cadere a terra, fare la capriola all'indietro, stare in verticale sulle mani, saltare, fare trazioni, flessioni, correre, sedersi, alzarsi, fare la capriola, girarsi, camminare, salutare.
- Movimenti corporei con interazione di oggetti: spazzolarsi i capelli, acchiappare, estrarre una spada, palleggiare, giocare a golf, colpire qualcosa, calciare una palla, raccogliere, versare, spingere qualcosa, andare in bicicletta, cavalcare, tirare a canestro, tirare con l'arco, sparare con una pistola, oscillare con una mazza da baseball, esercitarsi con la spada, lanciare.
- Movimenti corporei per interazione umana: scherma, abbracciare, calciare qualcuno, baciare, pugilare, stringere mani, combattere con la spada.

== Dataset, meta etichette, statistiche e stabilizzazione ==
Oltre all'etichetta della categoria di azione, ogni clip è annotata con un'etichetta di azione e una meta-etichetta che descrive la proprietà della clip. Poiché le sequenze video HMDB51 sono estratte da film commerciali e da YouTube, rappresentano una vasta varietà di condizioni di luce, situazioni e contesti in cui l'azione può apparire, catturati con diversi tipi di telecamere e tecniche di registrazione. Il punto di vista è un altro criterio di suddivisione supportato dall'HMDB. Per una copertura completa, sono distinguibili le prospettive frontale, laterale (destra e sinistra) e posteriore dei movimenti. Inoltre, esistono due categorie distinte, ovvero "nessun movimento" e "movimento della telecamera". La qualità dei video è valutata su tre livelli, e solo i campioni video classificati come "buoni" soddisfano il requisito di identificare le singole dita durante il movimento. I campioni che non soddisfano questo requisito sono valutati come "medi" o "cattivi" se parti del corpo o arti scompaiono durante l'esecuzione dell'azione. Il dataset include anche una sfida maggiore associata all'uso di clip video estratte da video reali: la presenza potenziale di significativi movimenti di telecamera/sfondo, che si presume interferiscano con il calcolo del movimento locale e debbano essere corretti. Per rimuovere il movimento della telecamera, sono state utilizzate tecniche standard di stitching delle immagini per allineare i fotogrammi di una clip.

Nei seguenti file vengono illustrate le 51 azioni

[[File:HMDB_snapshot1.png|200px]]
[[File:HMDB_snapshot2.png|200px]]

=== Links ===
[https://serre-lab.clps.brown.edu/resource/hmdb-a-large-human-motion-database/#overview https://serre-lab.clps.brown.edu/resource/hmdb-a-large-human-motion-database/#overview]

[[Category:benchmark]]

__SHOWFACTBOX__

HMDB: a large human motion database

2024-04-11T13:51:17Z

Sara Maserati:

Nome: [[Nome::A large human motion database]]

Sigla: [[Sigla::HMDB]]

Anno di creazione: [[AnnoDiCreazione::2011]]

URLHomePage: [https://serre-lab.clps.brown.edu/resource/hmdb-a-large-human-motion-database/#overview https://serre-lab.clps.brown.edu/resource/hmdb-a-large-human-motion-database/#overview HomePage HMDB]

== Introduzione ==
L'HMDB, raccolto da diverse fonti principalmente cinematografiche e, in minore misura, da archivi pubblici come l'archivio Prelinger, YouTube e video di Google, comprende 6849 clip suddivise in 51 categorie di azioni, ognuna con almeno 101 clip. Le categorie di azioni si dividono in cinque tipi:

- Azioni facciali generali: sorridere, ridere, masticare, parlare.
- Azioni facciali con manipolazione di oggetti: fumare, mangiare, bere.
- Movimenti corporei generali: fare la ruota, applaudire, arrampicarsi, salire le scale, tuffarsi, cadere a terra, fare la capriola all'indietro, stare in verticale sulle mani, saltare, fare trazioni, flessioni, correre, sedersi, alzarsi, fare la capriola, girarsi, camminare, salutare.
- Movimenti corporei con interazione di oggetti: spazzolarsi i capelli, acchiappare, estrarre una spada, palleggiare, giocare a golf, colpire qualcosa, calciare una palla, raccogliere, versare, spingere qualcosa, andare in bicicletta, cavalcare, tirare a canestro, tirare con l'arco, sparare con una pistola, oscillare con una mazza da baseball, esercitarsi con la spada, lanciare.
- Movimenti corporei per interazione umana: scherma, abbracciare, calciare qualcuno, baciare, pugilare, stringere mani, combattere con la spada.

== Dataset, meta etichette, statistiche e stabilizzazione ==
Oltre all'etichetta della categoria di azione, ogni clip è annotata con un'etichetta di azione e una meta-etichetta che descrive la proprietà della clip. Poiché le sequenze video HMDB51 sono estratte da film commerciali e da YouTube, rappresentano una vasta varietà di condizioni di luce, situazioni e contesti in cui l'azione può apparire, catturati con diversi tipi di telecamere e tecniche di registrazione. Il punto di vista è un altro criterio di suddivisione supportato dall'HMDB. Per una copertura completa, sono distinguibili le prospettive frontale, laterale (destra e sinistra) e posteriore dei movimenti. Inoltre, esistono due categorie distinte, ovvero "nessun movimento" e "movimento della telecamera". La qualità dei video è valutata su tre livelli, e solo i campioni video classificati come "buoni" soddisfano il requisito di identificare le singole dita durante il movimento. I campioni che non soddisfano questo requisito sono valutati come "medi" o "cattivi" se parti del corpo o arti scompaiono durante l'esecuzione dell'azione. Il dataset include anche una sfida maggiore associata all'uso di clip video estratte da video reali: la presenza potenziale di significativi movimenti di telecamera/sfondo, che si presume interferiscano con il calcolo del movimento locale e debbano essere corretti. Per rimuovere il movimento della telecamera, sono state utilizzate tecniche standard di stitching delle immagini per allineare i fotogrammi di una clip.

Nei seguenti file vengono illustrate le 51 azioni

[[File:HMDB_snapshot1.png|200px]]
[[File:HMDB_snapshot2.png|200px]]

=== Links ===
[https://serre-lab.clps.brown.edu/resource/hmdb-a-large-human-motion-database/#overview https://serre-lab.clps.brown.edu/resource/hmdb-a-large-human-motion-database/#overview]

[[Category:benchmark]]

__SHOWFACTBOX__

HMDB: a large human motion database

2024-04-11T13:50:59Z

Sara Maserati:

Nome: [[Nome::A large human motion database]]

Sigla: [[Sigla::HMDB]]

Anno di creazione: [[AnnoDiCreazione::2011]]

URLHomePage: [https://serre-lab.clps.brown.edu/resource/hmdb-a-large-human-motion-database/#overview https://serre-lab.clps.brown.edu/resource/hmdb-a-large-human-motion-database/#overview]

== Introduzione ==
L'HMDB, raccolto da diverse fonti principalmente cinematografiche e, in minore misura, da archivi pubblici come l'archivio Prelinger, YouTube e video di Google, comprende 6849 clip suddivise in 51 categorie di azioni, ognuna con almeno 101 clip. Le categorie di azioni si dividono in cinque tipi:

- Azioni facciali generali: sorridere, ridere, masticare, parlare.
- Azioni facciali con manipolazione di oggetti: fumare, mangiare, bere.
- Movimenti corporei generali: fare la ruota, applaudire, arrampicarsi, salire le scale, tuffarsi, cadere a terra, fare la capriola all'indietro, stare in verticale sulle mani, saltare, fare trazioni, flessioni, correre, sedersi, alzarsi, fare la capriola, girarsi, camminare, salutare.
- Movimenti corporei con interazione di oggetti: spazzolarsi i capelli, acchiappare, estrarre una spada, palleggiare, giocare a golf, colpire qualcosa, calciare una palla, raccogliere, versare, spingere qualcosa, andare in bicicletta, cavalcare, tirare a canestro, tirare con l'arco, sparare con una pistola, oscillare con una mazza da baseball, esercitarsi con la spada, lanciare.
- Movimenti corporei per interazione umana: scherma, abbracciare, calciare qualcuno, baciare, pugilare, stringere mani, combattere con la spada.

== Dataset, meta etichette, statistiche e stabilizzazione ==
Oltre all'etichetta della categoria di azione, ogni clip è annotata con un'etichetta di azione e una meta-etichetta che descrive la proprietà della clip. Poiché le sequenze video HMDB51 sono estratte da film commerciali e da YouTube, rappresentano una vasta varietà di condizioni di luce, situazioni e contesti in cui l'azione può apparire, catturati con diversi tipi di telecamere e tecniche di registrazione. Il punto di vista è un altro criterio di suddivisione supportato dall'HMDB. Per una copertura completa, sono distinguibili le prospettive frontale, laterale (destra e sinistra) e posteriore dei movimenti. Inoltre, esistono due categorie distinte, ovvero "nessun movimento" e "movimento della telecamera". La qualità dei video è valutata su tre livelli, e solo i campioni video classificati come "buoni" soddisfano il requisito di identificare le singole dita durante il movimento. I campioni che non soddisfano questo requisito sono valutati come "medi" o "cattivi" se parti del corpo o arti scompaiono durante l'esecuzione dell'azione. Il dataset include anche una sfida maggiore associata all'uso di clip video estratte da video reali: la presenza potenziale di significativi movimenti di telecamera/sfondo, che si presume interferiscano con il calcolo del movimento locale e debbano essere corretti. Per rimuovere il movimento della telecamera, sono state utilizzate tecniche standard di stitching delle immagini per allineare i fotogrammi di una clip.

Nei seguenti file vengono illustrate le 51 azioni

[[File:HMDB_snapshot1.png|200px]]
[[File:HMDB_snapshot2.png|200px]]

=== Links ===
[https://serre-lab.clps.brown.edu/resource/hmdb-a-large-human-motion-database/#overview https://serre-lab.clps.brown.edu/resource/hmdb-a-large-human-motion-database/#overview]

[[Category:benchmark]]

__SHOWFACTBOX__

General Language Understanding Evaluation (GLUE)

2024-04-11T13:48:37Z

Sara Maserati:

Nome: [[Nome::General Language Understanding Evaluation]]

Sigla: [[Sigla::GLUE]]

Anno di creazione: [[AnnoDiCreazione::2018]]

URLHomePage: [https://gluebenchmark.com Homepage di GLUE]

Famoso benchmark che misura la qualità dei modelli di linguaggio in vari compiti di [[Natural Language Understanding]]

=== Dataset Contenuti ===

==== Corpus of Linguistic Acceptability (COLA) ====
Misura l'accettabilità grammaticale delle frasi
Input: "They caused him to become angry by making him."
Target: 0

==== Stanford Sentiment Treebank (SST-2) ====
Misura il sentiment
Input: "that loves its characters and communicates something rather beautiful about human nature "
Target: 1

==== Quora Question Pairs (QQP) ====
Misura la somiglianza di due domande
Inputs:
1. "What is the best self help book you have read? Why?
How did it change your life?"
2. "What are the top self help books I should read?"
Target: 1

==== Semantic Textual Similarity Benchmark (STS-B) ====
Misura la somiglianza semantica, da 1 a 5. La metrica utilizzata per la alutazione è la <u>correlazione</u>.
Example 1:
Input:
1. "A plane is taking off."
2. "An air plane is taking off."
Target: 5

Example 2:
Input:
1. "A man is slicing a bun."
2. "A man is slicing an onion."
Target: 2.4

==== Microsoft Research Paraphrase Corpus (MRPC) ====
Giudica se una frase è la parafrasi dell'altra
Input:
1. "Revenue in the first quarter of the year dropped 15 percent from the same period a year earlier ."
2. "With the scandal hanging over Stewart 's company , revenue the first quarter of the year dropped 15 percent from the same period a year earlier ."
Target: 1

==== Multi-Genre Natural Language Inference (MNLI) ====

... to be continued -> https://medium.com/@priyankads/evaluate-language-understanding-of-ai-models-66dd56269a45

=== Links ===

[https://gluebenchmark.com Homepage di GLUE]

[[Category:Benchmark]]

__SHOWFACTBOX__

GSM8K

2024-04-11T13:46:13Z

Sara Maserati:

Nome: [[Nome::Grade School Math 8K]]

Sigla: [[Sigla::GSM8K]]

Anno di creazione: [[AnnoDiCreazione::2022]]

[[Category:benchmark]]

__SHOWFACTBOX__

A Large-Scale Document-Level Relation Extraction Dataset

2024-04-11T13:42:47Z

Sara Maserati: Creata pagina con "Titolo: Titolo::A Large-Scale Document-Level Relation Extraction Dataset Anno di Pubblicazione: AnnoDiPubblicazione::2019 Autori: Autori::Yuan Yao et al. URL: URL::https://aclanthology.org/P19-1074/ Category:pubblicazione __SHOWFACTBOX__"

Titolo: [[Titolo::A Large-Scale Document-Level Relation Extraction Dataset]]

Anno di Pubblicazione: [[AnnoDiPubblicazione::2019]]

Autori: [[Autori::Yuan Yao et al.]]

URL: [[URL::https://aclanthology.org/P19-1074/]]

[[Category:pubblicazione]]

__SHOWFACTBOX__

DocRED: A Large-Scale Document-Level Relation Extraction Dataset

2024-04-11T13:40:29Z

Sara Maserati:

Nome: [[Nome::A Large-Scale Document-Level Relation Extraction Dataset]]

Sigla: [[Sigla::DocRED]]

Anno di creazione: [[AnnoDiCreazione::2019]]

URLHomePage: [https://paperswithcode.com/sota/relation-extraction-on-docred Leaderboard su Paperswithcode]

Pubblicazione: [[Pubblicazione::A Large-Scale Document-Level Relation Extraction Dataset]]

Rilasciato nel 2019, dataset per benchmanrking dei modelli di [[Relation Extraction (RE)]].
Annota [[Entità]] e [[Relazioni]] a livello di documento - per estrarle è necessario che l'algoritmo consideri più di una frase alla volta.

Le entità nelle relazioni A->B vengono normalmente rappresentate come:
* head (entità A)
* tail (entità B)

=== Esempio ===

[[File:DocRED.png]]

=== Links ===
* [https://aclanthology.org/P19-1074/ DocRED: A Large-Scale Document-Level Relation Extraction Dataset]
* [https://paperswithcode.com/sota/relation-extraction-on-docred Leaderboard su Paperswithcode]
* [https://github.com/thunlp/DocRED Repo Github]

[[Category:Benchmark]]

__SHOWFACTBOX__

Discrete Reasoning Over Paragraphs (DROP)

2024-04-11T13:38:04Z

Sara Maserati:

Nome: [[Nome::Discrete Reasoning Over Paragraphs]]

Sigla: [[Sigla::DROP]]

Anno di creazione: [[AnnoDiCreazione::2019]]

URLHomePage: [https://paperswithcode.com/dataset/drop DROP (Discrete Reasoning Over Paragraphs)]

== Intro ==
'''Il benchmark "DROP" (Discrete Reasoning Over Paragraphs)''' è stato introdotto per affrontare la sfida della comprensione di testi che richiede un ragionamento discreto. Questo benchmark è stato creato con l'obiettivo di spingere i sistemi di intelligenza artificiale a non solo comprendere il contenuto dei paragrafi ma anche a eseguire operazioni discrete su di essi, come l'addizione, il conteggio o l'ordinamento.

== Esempi ==

'''Esempio 1'''
* '''Passage''' ( è un brano di testo fornito al modello come contesto per le domande che seguiranno.)
Per iniziare la stagione, i Lions sono viaggiati verso sud fino a Tampa, Florida per affrontare i Tampa Bay Buccaneers. I Lions hanno segnato per primi nel primo quarto con un field goal da 23 yard di Jason Hanson. I Buccaneers hanno pareggiato con un field goal da 38 yard di Connor Barth, poi hanno preso il comando quando Aqib Talib ha intercettato un passaggio di Matthew Stafford e l'ha portato in touchdown per 28 yard. I Lions hanno risposto con un field goal da 28 yard. Nel secondo quarto, Detroit ha preso il comando con una ricezione da touchdown di 36 yard da Calvin Johnson, e più tardi hanno aggiunto altri punti quando Tony Scheffler ha ricevuto un passaggio da TD di 11 yard. Tampa Bay ha risposto con un field goal da 31 yard poco prima dell'intervallo. La seconda metà è stata relativamente tranquilla, con ogni squadra che ha segnato solo un touchdown. Prima, Calvin Johnson di Detroit ha ricevuto un passaggio da 1 yard nel terzo quarto. I punti finali del gioco sono arrivati quando Mike Williams di Tampa Bay ha ricevuto un passaggio da 5 yard. I Lions hanno vinto la loro partita inaugurale della stagione regolare per la prima volta dal 2007.

* '''question''' (è una domanda posta in relazione al "passage" di cui sopra.)
Quanti punti avevano bisogno i Buccaneers per pareggiare nel primo quarto?

* '''answer_spans''' (indica la porzione del "passage" che contiene la risposta alla "question".)
3

'''Esempio 2'''
* '''Passage''' ( è un brano di testo fornito al modello come contesto per le domande che seguiranno.)
Cercando di interrompere una serie negativa di due partite, i Bills volarono allo Gillette Stadium per uno scontro divisionale della settimana 3 con i New England Patriots. Nel primo quarto, il QB J. P. Losman fu subito infortunato nella prima azione offensiva della partita. Riuscì a terminare la serie, ma finì in panchina per il resto della partita. Dopo che New England prese il comando con il field goal da 24 yard del kicker Stephen Gostkowski, il QB rookie Trent Edwards giocò per il resto della partita per Buffalo. I Bills ottennero il loro unico punteggio della partita quando il RB Marshawn Lynch fece una corsa da TD di 8 yard, e un punto extra di Rian Lindell mise sorprendentemente avanti i Bills per 7-3. Tuttavia, nel secondo quarto, i Patriots furono in grado di aprire il loro gioco di corsa quando il rookie di spicco dei Bills Paul Posluszny fu perso a causa di un braccio rotto. Ciò lasciò aperte le corsie di passaggio e, per il resto della partita, i Patriots dominarono. Un passaggio da TD di 8 yard del QB Tom Brady al TE Benjamin Watson e un passaggio da TD di 3 yard al WR Randy Moss portarono il punteggio sul 17-7 all'intervallo. Nel terzo quarto, New England continuò la sua conquista con il passaggio da TD di 4 yard di Brady al WR Jabar Gaffney e la corsa da TD di 4 yard del RB Sammy Morris. Nel quarto quarto, i Patriots terminarono la giornata con Brady e Moss che si collegarono di nuovo con un passaggio da TD di 45 yard.

* '''question''' (è una domanda posta in relazione al "passage" di cui sopra.)
Quante partite avevano vinto i Bills prima di questa partita?

* '''answer_spans''' (indica la porzione del "passage" che contiene la risposta alla "question".)
0

== Strategie per risposte mirate nei Modelli di Linguaggio ==

Per testare i modelli di linguaggio di grandi dimensioni (LLM) su benchmark come '''DROP''' (Dataset for Reasoning over Paragraphs), i ricercatori impiegano strategie di prompting e parsing specifiche per assicurarsi che i modelli siano in grado di comprendere e rispondere a domande complesse basate su paragrafi, spesso richiedendo abilità di ragionamento numerico, comprensione del testo, e inferenza.

===Preparazione del Prompt===

Nel caso di DROP, il prompt è particolarmente importante perché le domande possono richiedere al modello di eseguire operazioni complesse, come l'addizione o la sottrazione di numeri trovati nel testo, o di identificare eventi in sequenze temporali. Il prompt fornito al modello include:

* '''Il paragrafo di riferimento''': un testo che contiene le informazioni necessarie per rispondere alla domanda.
* '''La domanda''': formulata in modo chiaro per indicare che tipo di risposta o operazione è richiesta.
* '''Formato di risposta richiesto''': può essere specificato se la risposta deve essere un numero, una data, un evento, ecc.

===Generazione della Risposta===

Per garantire che il modello generi solo la risposta specifica richiesta, senza introdurre contesto non necessario, i ricercatori possono:

* '''Limitare la lunghezza della risposta''': impostare un limite alla lunghezza dell'output del modello per incoraggiarlo a generare risposte concise.
* '''Usare un prompt chiaro e diretto''': formulare il prompt in modo che indichi esplicitamente al modello di fornire solo la risposta richiesta, senza ulteriori elaborazioni o contesto.
* '''Post-elaborazione dell'output''': in alcuni casi, l'output del modello viene post-elaborato per estrarre solo la parte pertinente, specialmente quando si richiede una risposta numerica o una data specifica.

===Parsing dell'Output===

Il parsing dell'output generato dai modelli in contesti come DROP richiede un'attenzione particolare, soprattutto perché le risposte possono essere numeriche o richiedere una forma specifica. Questo processo può includere:

* '''Estrazione di informazioni specifiche''': utilizzare metodi di estrazione dell'informazione per identificare e isolare numeri, date, o altri dettagli specifici richiesti dalla domanda.
* '''Validazione della risposta''': applicare regole di validazione per assicurarsi che l'output sia nel formato corretto e rispetti i vincoli della domanda (ad esempio, che sia effettivamente un numero se la risposta richiede calcoli numerici).
* '''Uso di tecniche di NLP per il parsing''': tecniche di elaborazione del linguaggio naturale possono essere impiegate per analizzare l'output del modello e determinare la correttezza della risposta in base al contesto fornito dalla domanda e dal paragrafo di riferimento.

== Link ==
* [https://paperswithcode.com/dataset/drop DROP (Discrete Reasoning Over Paragraphs)]
* [https://huggingface.co/datasets/drop Dataset DROP]

[[Category:benchmark]]

__SHOWFACTBOX__

XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating Cross-lingual Generalization

2024-04-11T13:35:28Z

Sara Maserati: Creata pagina con "Titolo: Titolo::XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating Cross-lingual Generalization Anno di pubblicazione: AnnoDiPubblicazione::2020 Autori: Autori::Junjie Hu et al. URL: URL::https://arxiv.org/pdf/2003.11080.pdf Category:pubblicazione __SHOWFACTBOX__"

Titolo: [[Titolo::XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating Cross-lingual Generalization]]

Anno di pubblicazione: [[AnnoDiPubblicazione::2020]]

Autori: [[Autori::Junjie Hu et al.]]

URL: [[URL::https://arxiv.org/pdf/2003.11080.pdf]]

[[Category:pubblicazione]]

__SHOWFACTBOX__

Cross-lingual Transfer Evaluation of Multilingual Encoders (XTREME)

2024-04-11T13:33:49Z

Sara Maserati:

Nome: [[Nome::Cross-lingual Transfer Evaluation of Multilingual Encoders]]

Sigla: [[Sigla::XTREME]]

Anno di creazione: [[AnnoDiCreazione::2020]]

Pubblicazione: [[Pubblicazione::XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating Cross-lingual Generalization]]

Chiamato anche WikiANN o PAN-X, è un dataset di articoli Wikipedia in vari linguaggi.
Ogni articolo è annotato con LOC (luogo), PER (persona), ORG (organizzazione) nel formato [[inside-outside-bginning (IOB2)]]

[[File:IOB FORMAT.png|nessuno|miniatura|Formato IOB]]

=== Links ===
https://arxiv.org/abs/2003.11080

[[Category:benchmark]]

__SHOWFACTBOX__

BoolQ

2024-04-11T13:31:26Z

Sara Maserati:

Nome: [[Nome::Boolean Questions]]

Sigla: [[BoolQ]]

Anno di creazione: [[AnnoDiCreazione::2019]]

[[Category:benchmark]]

__SHOWFACTBOX__

Bilingual Evaluation Understudy (BLEU)

2024-04-11T13:29:08Z

Sara Maserati:

Nome: [[Nome::Bilingual Evaluation Understudy]]

Sigla: [[Sigla::BLEU]]

Anno di creazione: [[AnnoDiCreazione::2002]]

Nei task di traduzione automatica o di generazione del testo, indica il grado di somiglianza del testo del candidato rispetto ai testi di riferimento, con valori più vicini a uno che rappresentano testi più simili. Il punteggio BLEU fornisce una valutazione complessiva della qualità del modello.

Per esempio citato in [[Attention Is All You Need (2017)]]

[[Category:benchmark]]

__SHOWFACTBOX__

In Search of Needles in a 11M Haystack:Recurrent Memory Finds What LLMs Miss

2024-04-11T13:26:08Z

Sara Maserati:

Titolo: [[Titolo::In Search of Needles in a 11M Haystack:Recurrent Memory Finds What LLMs Miss]]

Anno di pubblicazione: [[AnnoDiPubblicazione::2024]]

Autori: [[Autori::Yuri Kuratov et al.]]

URL: [[URL::https://arxiv.org/pdf/2402.10790.pdf]]

[[Category:pubblicazione]]

__SHOWFACTBOX__

In Search of Needles in a 11M Haystack:Recurrent Memory Finds What LLMs Miss

2024-04-11T13:25:51Z

Sara Maserati: Creata pagina con "Titolo: Titolo::In Search of Needles in a 11M Haystack:Recurrent Memory Finds What LLMs Miss Anno di pubblicazione: AnnoDiPubblicazione::2024 Autori: Autori::Yuri Kuratov et al. URL: URL::https://arxiv.org/pdf/2402.10790.pdf [Category:pubblicazione] __SHOWFACTBOX__"

BABILong

2024-04-11T13:23:37Z

Sara Maserati:

Nome: [[Nome::BABILong]]

Anno di creazione: [[AnnoDiCreazione::2024]]

URLHomePage: [https://github.com/booydar/babilong?tab=readme-ov-file BABILong: a long-context needle-in-a-haystack benchmark for LLMs]

Pubblicazioni: [[In Search of Needles in a 11M Haystack:Recurrent Memory Finds What LLMs Miss]]

Nome: Il nome ufficiale dell'architettura.
Sigla: Un'abbreviazione o acronimo associato all'architettura.
AnnoDiCreazione: L'anno in cui l'architettura è stata proposta o introdotta per la prima volta.
URLHomePage: http://esempioarchitettura.com Un collegamento all'homepage dell'architettura.
Pubblicazione: Pubblicazione/i

'''BABILong''' è un benchmark progettato per valutare le capacità del modello nell'estrazione ed elaborazione di fatti distribuiti all'interno di testi estesi.

Risolvere compiti con una dimensione di contesto lunga richiede al modello di distinguere informazioni importanti da grandi quantità di dettagli irrilevanti. Per simulare questo comportamento, "nascondiamo" le frasi del compito originale tra le frasi di testo irrilevante che proviene da un'altra distribuzione strettamente correlata (vedi Figura 1).

[[File:Screenshot 2024-03-20 alle 14.17.32.png|centro|miniatura|'''Figura1:''' Esempio di generazione per il dataset BABILong. Le affermazioni rilevanti per la domanda da un campione di bAbILong sono nascoste all'interno di testi più ampi e irrilevanti provenienti da PG19.]]

Questo approccio è basato sui primi test "'''ago nel pagliaio'''". Si tratta di un test che mira a testare la capacità di un sistema AI di '''identificare''', '''estrarre''', o '''riconoscere''' un'informazione molto specifica o un elemento (l'"ago") da un vasto insieme di dati o informazioni non pertinenti (il "pagliaio"). Questo concetto può essere applicato in vari ambiti, come il riconoscimento di pattern, la ricerca di informazioni, il processamento del linguaggio naturale, e altri campi dell'AI dove il sistema deve dimostrare di poter effettivamente "trovare l'ago nel pagliaio".

== Link ==
=== Paper ===
[https://arxiv.org/pdf/2402.10790.pdf In Search of Needles in a 11M Haystack:Recurrent Memory Finds What LLMs Miss]: paper originale

=== Github ===
[https://github.com/booydar/babilong?tab=readme-ov-file BABILong: a long-context needle-in-a-haystack benchmark for LLMs]

[[Category:benchmark]]

__SHOWFACTBOX__

BABILong

2024-04-11T13:23:19Z

Sara Maserati:

Nome: [[Nome::BABILong]]

Anno di creazione: [[AnnoDiCreazione::2024]]

URLHomePage: [https://github.com/booydar/babilong?tab=readme-ov-file BABILong: a long-context needle-in-a-haystack benchmark for LLMs]

Pubblicazioni: [[https://arxiv.org/pdf/2402.10790.pdf In Search of Needles in a 11M Haystack:Recurrent Memory Finds What LLMs Miss]]

Nome: Il nome ufficiale dell'architettura.
Sigla: Un'abbreviazione o acronimo associato all'architettura.
AnnoDiCreazione: L'anno in cui l'architettura è stata proposta o introdotta per la prima volta.
URLHomePage: http://esempioarchitettura.com Un collegamento all'homepage dell'architettura.
Pubblicazione: Pubblicazione/i

'''BABILong''' è un benchmark progettato per valutare le capacità del modello nell'estrazione ed elaborazione di fatti distribuiti all'interno di testi estesi.

Risolvere compiti con una dimensione di contesto lunga richiede al modello di distinguere informazioni importanti da grandi quantità di dettagli irrilevanti. Per simulare questo comportamento, "nascondiamo" le frasi del compito originale tra le frasi di testo irrilevante che proviene da un'altra distribuzione strettamente correlata (vedi Figura 1).

[[File:Screenshot 2024-03-20 alle 14.17.32.png|centro|miniatura|'''Figura1:''' Esempio di generazione per il dataset BABILong. Le affermazioni rilevanti per la domanda da un campione di bAbILong sono nascoste all'interno di testi più ampi e irrilevanti provenienti da PG19.]]

Questo approccio è basato sui primi test "'''ago nel pagliaio'''". Si tratta di un test che mira a testare la capacità di un sistema AI di '''identificare''', '''estrarre''', o '''riconoscere''' un'informazione molto specifica o un elemento (l'"ago") da un vasto insieme di dati o informazioni non pertinenti (il "pagliaio"). Questo concetto può essere applicato in vari ambiti, come il riconoscimento di pattern, la ricerca di informazioni, il processamento del linguaggio naturale, e altri campi dell'AI dove il sistema deve dimostrare di poter effettivamente "trovare l'ago nel pagliaio".

== Link ==
=== Paper ===
[https://arxiv.org/pdf/2402.10790.pdf In Search of Needles in a 11M Haystack:Recurrent Memory Finds What LLMs Miss]: paper originale

=== Github ===
[https://github.com/booydar/babilong?tab=readme-ov-file BABILong: a long-context needle-in-a-haystack benchmark for LLMs]

[[Category:benchmark]]

__SHOWFACTBOX__

An Evaluation Dataset for Intent Classification and Out-of-Scope Prediction (CLINC150)

2024-04-11T13:09:13Z

Sara Maserati:

Nome: [[Nome::An Evaluation Dataset for Intent Classification and Out-of-Scope Prediction]]

Sigla: [[Sigla::CLINC150]]

Anno di creazione: [[AnnoDiCreazione::2019]]

URLHomePage: [https://paperswithcode.com/dataset/clinc150 An Evaluation Dataset for Intent Classification and Out-of-Scope Prediction (CLINC150)]

Dataset per valutare la performance di un classificatore di domande fuori contesto (out-of-scope) per il task di [[classificazione degli intenti]].

=== Links ===
https://paperswithcode.com/dataset/clinc150
https://arxiv.org/abs/1909.02027

[[Category:benchmark]]

__SHOWFACTBOX__

AI2 Reasoning Challenge (Arc C)

2024-04-11T13:06:14Z

Sara Maserati:

Nome: [[Nome::AI2 Reasoning Challenge]]

Sigla: [[Sigla::Arc C]]

Anno di creazione: [[AnnoDiCreazione::2018]]

URLHomePage: [https://paperswithcode.com/dataset/arc ARC (AI2 Reasoning Challenge)]

== Intro ==
'''Il benchmark ARC Challenge ("AI2 Reasoning Challenge")''' è un insieme di test progettato per valutare la capacità dei sistemi di intelligenza artificiale (IA) di eseguire ragionamento complesso e di senso comune. Il benchmark ARC si concentra in particolare sulla capacità dei modelli di AI di rispondere a domande di scienza di livello scolastico, coprendo una vasta gamma di argomenti e richiedendo una comprensione approfondita e il ragionamento oltre la mera capacità di cercare informazioni o utilizzare conoscenze superficiali.

== Esempi ==

* '''Esempio 1'''

'''Domanda:'''

"George vuole riscaldare le sue mani rapidamente strofinandole. Quale superficie della pelle produrrà più calore?"

'''Opzioni di risposta:'''

A) palmi asciutti
B) palmi bagnati
C) palmi coperti di olio
D) palmi coperti di lozione

'''Risposta:'''

"A)"

* '''Esempio 2'''

'''Domanda:'''

"Quale delle seguenti è una caratteristica che un cane NON eredita dai suoi genitori?"

'''Opzioni di risposta:'''

A) la lunghezza del suo pelo
B) la forma del suo naso
C) la grandezza del suo appetito
D) il colore del suo pelo

'''Risposta:'''

"C)"

== Strategie per risposte mirate nei Modelli di Linguaggio ==

Per testare i modelli di linguaggio di grandi dimensioni (LLM) su benchmark come '''ARC Challenge''' (ARC-C), i ricercatori seguono un processo dettagliato che assicura la capacità del modello di generare risposte precise a domande di ragionamento complesso, focalizzandosi sulla generazione di una singola label (risposta) senza introdurre informazioni aggiuntive non necessarie.

=== Preparazione del Prompt ===

La preparazione del prompt è cruciale per indirizzare il modello verso la generazione della risposta desiderata. Il prompt per ARC-C include tipicamente:

* '''La domanda di ragionamento complesso''': Una domanda progettata per testare la capacità di ragionamento astratto del modello.
* '''Opzioni di risposta multiple''': Un elenco di possibili risposte tra cui il modello deve scegliere.
* '''Istruzioni chiare''': Direttive che indicano al modello di selezionare la risposta più appropriata senza fornire ulteriori spiegazioni o contesto.

=== Generazione della Risposta ===

Per assicurarsi che il modello generi solo una label specifica, i ricercatori utilizzano diverse tecniche:

* '''Limitazione della Lunghezza dell'Output''': Impostano limiti sulla lunghezza dell'output per prevenire risposte prolisse e fuori tema.
* '''Formato di Risposta Chiuso''': Specificano un formato di risposta chiuso nel prompt, chiedendo esplicitamente al modello di scegliere tra le opzioni date (ad esempio, "Seleziona la lettera della risposta corretta: A, B, C, o D").
* '''Post-elaborazione''': In alcuni casi, l'output del modello viene post-elaborato per rimuovere qualsiasi contenuto non pertinente e isolare la label di risposta.

=== Parsing dell'Output ===

Il parsing dell'output, specialmente quando potrebbe essere verboso o indiretto, richiede l'uso di metodi specifici per estrarre la risposta corretta:

* '''Estrazione Basata su Regole''': Utilizzo di regole specifiche o espressioni regolari per identificare la label di risposta nell'output.
* '''Analisi del Testo''': Applicazione di tecniche di elaborazione del linguaggio naturale (NLP) per analizzare l'output e determinare la risposta più plausibile basata sul contesto della domanda.

== Link ==
* [https://paperswithcode.com/dataset/arc ARC (AI2 Reasoning Challenge)]
* [https://huggingface.co/datasets/allenai/ai2_arc/viewer/ARC-Challenge/train?row=8 Dataset Arc C]

[[Category:benchmark]]

__SHOWFACTBOX__

Tensore (Informatica)

2024-04-11T13:01:05Z

Sara Maserati:

Nome: [[Nome::Tensore]]

Nome inglese: [[NomeInglese::Tensor]]

Un tensore è una generalizzazione di vettori e matrici ed è un elemento fondamentale nelle moderne architetture di Intelligenza Artificiale. È sostanzialmente un '''array multidimensionale''' che può variare da una dimensione (una linea di numeri, simile a un vettore) a diverse dimensioni (per esempio, matrici per 2D, array tridimensionali, ecc.). I tensori sono utilizzati per organizzare i dati per l'elaborazione di algoritmi di machine learning e possono essere manipolati efficacemente sia su CPU che su GPU.

Un '''vettore''' è un tensore di ordine 1 o una dimensione che si presenta come a un array lineare di numeri. Ad esempio, un vettore contenente i numeri [1,2,3] può essere considerato un tensore unidimensionale.

Una '''matrice''' è un tensore di ordine 2 o due dimensioni. Questo significa che ha due assi: righe e colonne. Ad esempio, una matrice 2×3 è composta da due righe e tre colonne ed è un tensore bidimensionale.

Un tensore può avere anche tre, quattro, o più dimensioni. Queste dimensioni superiori sono spesso utilizzate in applicazioni di deep learning per rappresentare dati più complessi, come immagini (che possono essere rappresentate come tensori 3D per altezza, larghezza e canali di colore) o video (che possono essere rappresentati come tensori 4D aggiungendo la dimensione temporale ai tensori 3D delle immagini).

== Tutorial ==
[[Come creare un tensore su Pytorch]]

[[Category:concetto]]

__SHOWFACTBOX__

Temperatura (Apprendimento Automatico)

2024-04-11T13:00:11Z

Sara Maserati:

Nome: [[Nome::Temperatura]]

Nome inglese: [NomeInglese::Temperature]]

La temperatura è un parametro nell'ambito dell'apprendimento automatico, specialmente nei modelli sequenziali come le [[Recurrent Neural Network (RNN)|RNN]] e i [[transformer]]. Questo parametro è un numero strettamente maggiore di zero e normalmente inferiore a 2 o 3, con impatti diretti sulla selezione del token successivo durante il processo di generazione del testo.

La temperatura è utilizzata per modulare la distribuzione di probabilità dei token generati dai modelli. Invece di optare per una [[Metodi di Decoding|decodifica Greedy]], che seleziona sempre il token con la massima probabilità calcolata tramite [[Negative log-likelihood|log-likelihood]], l'introduzione della temperatura agisce sul risultato della [[Metodi di Decoding|decodifica a campionamento]]: questo approccio estrae un token casuale basandosi sulla distribuzione di probabilità (modificata dalla temperatura) dei possibili token successivi.

Durante il processo di generazione, la temperatura agisce sui [[Logit (Reti Neurali)|logit]], i quali sono i valori emessi dall'ultimo [[layer totalmente connesso]] del modello prima dell'applicazione della funzione softmax per ottenere le probabilità. La modifica consiste nel dividere i logit per il valore della temperatura prima di calcolare la distribuzione di probabilità finale. Un valore di temperatura più alto genera una distribuzione più uniforme, aumentando così la varietà e la casualità nella scelta dei token. Al contrario, una temperatura più bassa rende la distribuzione più "affilata", favorendo la scelta dei token con probabilità più alta e riducendo la varietà, e dando più spesso il token che "ci si aspetta di più" avere nella generazione autoregressiva.

In pratica, l'uso della temperatura permette agli sviluppatori e ai ricercatori di bilanciare tra diversità e precisione nelle generazioni testuali dei modelli. Una temperatura vicina a 1 tende a mantenere un buon equilibrio, mentre valori superiori o inferiori possono essere sperimentati per ottenere risultati più creativi o più conservativi, rispettivamente.

[[Category:concetto]]

__SHOWFACTBOX__

Teacher Forcing (Reti Neurali)

2024-04-11T12:59:12Z

Sara Maserati:

Nome inglese: [[NomeInglese::Teacher Forcing]]

Una tecnica di ottimizzazione per i modelli autoregressivi in cui l'output del time-step precedente viene sostituito con l'output atteso, nel caso in cui questo sia conosciuto, aumentando le probabilità che il modello converga e diminuendo il tempo di training.

=== Links ===

https://machinelearningmastery.com/teacher-forcing-for-recurrent-neural-networks/

[[Category:concetto]]

__SHOWFACTBOX__

Step by Step

2024-04-11T12:57:29Z

Sara Maserati:

Nome inglese: [[NomeInglese::Step by Step]]

Lo ''Step by Step reasoning'' è una tecnica impiegata nei Large Language Models (LLM) per migliorare la capacità di questi modelli di gestire compiti complessi di ragionamento, scomponendoli in '''passaggi più piccoli e gestibili'''. Questo approccio consente ai modelli di affrontare problemi in maniera più strutturata e di fornire spiegazioni più dettagliate sul loro processo decisionale.

==Paper e link==
* '''[[Why think step by step? Reasoning emerges from the locality of experience (2023)]]'''
* '''https://arxiv.org/pdf/2304.03843.pdf'''

[[Category:concetto]]

__SHOWFACTBOX__

Softmax

2024-04-11T12:56:54Z

Sara Maserati:

Nome inglese: [[NomeInglese::Softmax]]

Softmax, anche chiamata ''softargmax'' o ''funzione esponenziale normalizzata,'' è una [[Funzione di Attivazione]] che viene utilizzata dopo l'ultimo layer delle reti neurali per trasformare i [[Logit (Reti Neurali)|logit]] in probabilità, nell'ambito di classificazione multiclasse (per la classificazione binaria si usa la funzione [[Sigmoide|sigmoide]].

La funzione Softmax mette in evidenza i valori più grandi e "nasconde" quelli che sono significativamente più piccoli del valore massimo: la somma dei valori tornati dalla funzione è uguale a 1.0.

Spesso viene utilizzato logaritmo di Softmax, chiamato log-softmax, in quanto presenta caratteristiche di trattabilità matematica migliori: log softmax va da -inf (probabilità 0) a zero (prob 1), e questa sua estensione permette al processo di ottimizzazione di non dover agire sui valori con una gamma piccola come quelli di probabilità (0-1).

[[File:Softmax.png|senza_cornice|500x500px]]

Un esempio in pytorch:
x = torch.randn(1, 3, 224, 224)
logits = m(x)
logits

>> tensor(<nowiki>[[-0.2135, -0.0248, 3.985, -4.235, -0.1831]]</nowiki>, grad_fn=<AddmmBackward0>)

scores = torch.softmax(logits)
scores

>> tensor(<nowiki>[[0.0096, 0.0117, 0.9765, 0.0002, 0.0020]]</nowiki>, grad_fn=<SoftmaxBackward0>)

=== Links ===
https://en.wikipedia.org/wiki/Activation_function
[[Category:concetto]]

__SHOWFACTBOX__

Sigmoide

2024-04-11T12:56:25Z

Sara Maserati:

Nome: [[Nome::Sigmoide]]

Nome inglese: [[NomeInglese::Sigmoid]]

Il Sigmoide, anche chiamata ''funzione logistica'', è una [[funzione di attivazione]] utilizzata per trasformare i [[Logit (Reti Neurali)|logit]] in probabilità, in un contesto di classificazione binaria

[[File:Sigmoide.png|senza_cornice|500x500px]]
[[Category:concetto]]

__SHOWFACTBOX__

Scaling Laws

2024-04-11T12:55:36Z

Sara Maserati:

Nome: [[Nome::Leggi di Scaling]]

Nome inglese: [[NomeInglese::Scaling Laws]]

Proposte da Hoffman et al nel 2022

=== Links ===
[https://arxiv.org/abs/2203.15556 https://arxiv.org/abs/2203.15556]

[[Category:concetto]]

__SHOWFACTBOX__

Scaling Laws

2024-04-11T12:55:23Z

Sara Maserati:

Nome: [[Nome::Leggi di Scaling]]

Nome inglese: [[NomeInglese::Scaling Laws]

Proposte da Hoffman et al nel 2022

=== Links ===
[https://arxiv.org/abs/2203.15556 https://arxiv.org/abs/2203.15556]

[[Category:concetto]]

__SHOWFACTBOX__

SOTA

2024-04-11T12:51:15Z

Sara Maserati:

Nome: [[Nome::Stato dell'Arte]]

Nome inglese: [[NomeInglese::State Of The Art]]

Sigla: [[Sigla::SOTA]]

Acronimo per State Of The Art

[[Category:concetto]]

__SHOWFACTBOX__