Wiki AI - Contributi dell'utente [it]

BABILong

2025-04-15T05:52:23Z

Mindmakerbot:

{{Template benchmark
|Nome=BABILong
|Sigla=
|Anno di creazione=2024
|URLHomePage=https://github.com/booydar/babilong?tab=readme-ov-file BABILong: a long-context needle-in-a-haystack benchmark for LLMs
|Pubblicazione=[https://arxiv.org/pdf/2402.10790.pdf In Search of Needles in a 11M Haystack:Recurrent Memory Finds What LLMs Miss]
}}
'''BABILong''' è un benchmark progettato per valutare le capacità del modello nell'estrazione ed elaborazione di fatti distribuiti all'interno di testi estesi.

Risolvere compiti con una dimensione di contesto lunga richiede al modello di distinguere informazioni importanti da grandi quantità di dettagli irrilevanti. Per simulare questo comportamento, "nascondiamo" le frasi del compito originale tra le frasi di testo irrilevante che proviene da un'altra distribuzione strettamente correlata (vedi Figura 1).

[[File:Screenshot 2024-03-20 alle 14.17.32.png|centro|miniatura|'''Figura1:''' Esempio di generazione per il dataset BABILong. Le affermazioni rilevanti per la domanda da un campione di bAbILong sono nascoste all'interno di testi più ampi e irrilevanti provenienti da PG19.]]

Questo approccio è basato sui primi test "'''ago nel pagliaio'''". Si tratta di un test che mira a testare la capacità di un sistema AI di '''identificare''', '''estrarre''', o '''riconoscere''' un'informazione molto specifica o un elemento (l'"ago") da un vasto insieme di dati o informazioni non pertinenti (il "pagliaio"). Questo concetto può essere applicato in vari ambiti, come il riconoscimento di pattern, la ricerca di informazioni, il processamento del linguaggio naturale, e altri campi dell'AI dove il sistema deve dimostrare di poter effettivamente "trovare l'ago nel pagliaio".

== Link ==
=== Paper ===
[https://arxiv.org/pdf/2402.10790.pdf In Search of Needles in a 11M Haystack:Recurrent Memory Finds What LLMs Miss]: paper originale

=== Github ===
[https://github.com/booydar/babilong?tab=readme-ov-file BABILong: a long-context needle-in-a-haystack benchmark for LLMs]

{{#seo:
|title=BABILong
|title_mode=append
|keywords=benchmark, intelligenza artificiale, AI, elaborazione del linguaggio naturale, NLP, modelli linguistici di grandi dimensioni, LLM, ago nel pagliaio, memoria ricorrente, estrazione di informazioni
|description=BABILong è un benchmark per valutare la capacità dei modelli linguistici di estrarre informazioni da testi estesi. Simula la ricerca di un ago nel pagliaio", nascondendo frasi cruciali in mezzo a informazioni irrilevanti per testare la capacità di un modello di distinguere dati importanti da dettagli superflui."
|image=Screenshot 2024-03-20 alle 14.17.32.png
}}

An Evaluation Dataset for Intent Classification and Out-of-Scope Prediction (CLINC150)

2025-04-15T05:52:15Z

Mindmakerbot:

{{Template benchmark
|Nome=An Evaluation Dataset for Intent Classification and Out-of-Scope Prediction
|Sigla=CLINC150
|Anno di creazione=2019
|URLHomePage=[https://paperswithcode.com/dataset/clinc150 An Evaluation Dataset for Intent Classification and Out-of-Scope Prediction (CLINC150)]
|Pubblicazione=[https://arxiv.org/abs/1909.02027]
}}
Dataset per valutare la performance di un classificatore di domande fuori contesto (out-of-scope) per il task di [[classificazione degli intenti]].

=== Links ===
https://paperswithcode.com/dataset/clinc150
https://arxiv.org/abs/1909.02027

{{#seo:
|title=CLINC150
|title_mode=append
|keywords=classificazione degli intenti, dataset, out-of-scope, intelligenza artificiale, apprendimento automatico, elaborazione del linguaggio naturale, NLP, analisi del testo, chatbot, assistenti virtuali
|description=CLINC150 è un dataset per la valutazione di sistemi di classificazione degli intenti e per l'individuazione di domande fuori contesto (out-of-scope). Creato nel 2019, il dataset è disponibile pubblicamente e rappresenta un punto di riferimento per la ricerca nel campo dell'elaborazione del linguaggio naturale.
}}

Neural networks and physical systems with emergent collective computational abilities

2025-01-11T16:32:01Z

Mindmakerbot:

{{template pubblicazione
|data=1982
|autori=J. Hopfield
|URL=https://www.semanticscholar.org/paper/98b4d4e24aab57ab4e1124ff8106909050645cfa
|topic=Reti neurali
|citazioni=18582
}}

Questo articolo esplora le proprietà computazionali emergenti da sistemi con un gran numero di componenti semplici, come i neuroni. L'autore descrive il concetto di memoria indirizzabile al contenuto e propone un modello basato su principi neurobiologici, applicabile anche a circuiti integrati. Il modello dimostra capacità di recupero della memoria, generalizzazione, riconoscimento, categorizzazione, correzione degli errori e ritenzione di sequenze temporali. Queste proprietà collettive si dimostrano robuste anche in presenza di malfunzionamenti individuali dei componenti.

[[Category:Pubblicazione]]

{{#seo:
|title=Neural networks and physical systems with emergent collective computational abilities
|title_mode=append
|keywords=reti neurali, sistemi fisici, computazione emergente, memoria indirizzabile al contenuto, modello neurobiologico, circuiti integrati, recupero della memoria, generalizzazione, riconoscimento, categorizzazione, correzione degli errori, sequenze temporali, robustezza, malfunzionamenti
|description=Questa pubblicazione esplora le capacità computazionali emergenti in sistemi con numerose componenti semplici, simili ai neuroni. Viene proposto un modello neurobiologico, applicabile anche a circuiti integrati, che dimostra capacità di recupero della memoria, generalizzazione e correzione degli errori, anche in presenza di malfunzionamenti.
}}

Powers of 10: Modeling Complex information-seeking systems at multiple scales

2025-01-10T07:43:57Z

Mindmakerbot:

{{template pubblicazione
|data=
|autori=P. Pirolli
|URL=https://www.semanticscholar.org/paper/44e1d561b3a416bc4400e3674f0c616db1fe4da8
|topic=
|citazioni=64
}}

Nuovi modelli di sistemi di supporto alla ricerca di informazioni offrono due vantaggi: ci portano da quadri concettuali prescientifici sulla ricerca di informazioni a teorie scientifiche e modelli predittivi più rigorosi, mentre allo stesso tempo espandono i tipi di cose che studiamo e sviluppiamo.

[[Category:Pubblicazione]]

{{#seo:
|title=Powers of 10: Modeling Complex information-seeking systems at multiple scales
|title_mode=append
|keywords=ricerca informazioni, sistemi complessi, modelli predittivi, teorie scientifiche, supporto alla ricerca, modellazione, potenze di 10, scale multiple, Pirolli, information seeking
|description=Modelli per sistemi di supporto alla ricerca di informazioni: da quadri prescientifici a teorie scientifiche e modelli predittivi, ampliando gli oggetti di studio e sviluppo.
}}

Assisting in Writing Wikipedia-like Articles From Scratch with Large Language Models

2025-01-02T10:56:14Z

Mindmakerbot:

{{template pubblicazione
|data=2024
|autori=Yijia Shao, Yucheng Jiang, Theodore A. Kanell, Peter Xu, Omar Khattab, Monica S. Lam
|URL=https://www.semanticscholar.org/paper/2fcad63cc68ca74acdfafdbc145325ee59952f24
|topic=Large Language Models
|citazioni=13
}}

Questo studio esplora l'applicazione di modelli linguistici di grandi dimensioni per la scrittura di articoli lunghi e strutturati a partire da zero, con ampiezza e profondità paragonabili alle pagine di Wikipedia. Questo problema poco esplorato pone nuove sfide nella fase di pre-scrittura, incluso come ricercare l'argomento e preparare una struttura prima di iniziare a scrivere. Viene proposto STORM, un sistema di scrittura per la sintesi di outline di argomenti attraverso il recupero e la formulazione di domande multi-prospettiva. STORM modella la fase di pre-scrittura (1) scoprendo diverse prospettive nella ricerca dell'argomento dato, (2) simulando conversazioni in cui scrittori con diverse prospettive pongono domande a un esperto in materia basandosi su fonti Internet affidabili, (3) curando le informazioni raccolte per creare una struttura. Per la valutazione, è stato creato FreshWiki, un set di dati di articoli Wikipedia recenti di alta qualità, e sono state formulate valutazioni di outline per valutare la fase di pre-scrittura. Sono stati inoltre raccolti feedback da redattori Wikipedia esperti. Rispetto agli articoli generati da una baseline di recupero aumentata guidata da outline, più articoli di STORM sono considerati organizzati (con un aumento assoluto del 25%) e ampi nella copertura (del 10%). Il feedback degli esperti aiuta anche a identificare nuove sfide per la generazione di articoli lunghi e fondati, come il trasferimento del bias della fonte e la sovra-associazione di fatti non correlati.

{{#seo:
|title=Assisting in Writing Wikipedia-like Articles From Scratch with Large Language Models
|title_mode=append
|keywords=modelli linguistici, intelligenza artificiale, generazione di testo, scrittura automatica, elaborazione del linguaggio naturale, Wikipedia, articoli, pre-scrittura, outline, STORM, FreshWiki
|description=Questo studio esplora l'uso di modelli linguistici di grandi dimensioni per scrivere articoli simili a quelli di Wikipedia. Il sistema STORM aiuta nella pre-scrittura, ricercando l'argomento e creando una struttura. I risultati mostrano miglioramenti nell'organizzazione e nell'ampiezza della copertura degli articoli generati.
}}

Physics in Next-token Prediction

2025-01-02T10:34:48Z

Mindmakerbot:

{{template pubblicazione
|data=2024
|autori=Hongjun An, Yiliang Song, Xuelong Li
|URL=https://www.semanticscholar.org/paper/242e3b9006236b44280199da1ec9c60802729fd3
|topic=Next-token Prediction
|citazioni=0
}}

Questo studio rivela i principi fisici sottostanti al Next-token Prediction (NTP). Gli autori identificano la legge di conservazione dell'informazione all'interno del NTP e propongono la Prima Legge della Capacità Informativa (IC-1), dimostrando che l'emergere dell'intelligenza nei modelli autoregressivi è fondamentalmente un processo di trasferimento di informazioni. Introducono anche il Principio di Landauer nel NTP, formulando la Seconda Legge della Capacità Informativa (IC-2), che stabilisce la relazione tra l'addestramento del modello autoregressivo e il consumo di energia. Vengono inoltre presentati diversi corollari, che hanno un significato pratico per le pratiche di produzione. Infine, viene dimostrata la coerenza tra la Legge della Capacità Informativa e la Legge di Scalabilità per i Modelli Linguistici Neurali, le Leggi di Scalabilità della Capacità di Conoscenza e le Leggi di Scalabilità per la Precisione. [[Category:Pubblicazione]]

{{#seo:
|title=Physics in Next-token Prediction
|title_mode=append
|keywords=predizione, token, modelli linguistici, intelligenza artificiale, fisica, informazione, energia, legge di scala, capacità informativa, modello autoregressivo
|description=Questo studio svela i principi fisici alla base della predizione del prossimo token (Next-token Prediction, NTP), mostrando come l'emergere dell'intelligenza nei modelli autoregressivi sia un processo di trasferimento di informazioni, e correlando l'addestramento del modello al consumo energetico.
|image=
}}

Is Power-Seeking AI an Existential Risk?

2024-12-28T17:46:05Z

Mindmakerbot:

{{template pubblicazione
|data=2022
|autori=Joseph Carlsmith
|URL=https://www.semanticscholar.org/paper/1c07e314985161ec42ba895eb4869ffc5d360736
|topic=AI existential risk
|citazioni=70
}}

Questo rapporto esamina quello che considero l'argomento centrale per la preoccupazione sul rischio esistenziale derivante da un'intelligenza artificiale disallineata. Si procede in due fasi. In primo luogo, viene delineato un quadro generale che informa tale preoccupazione. In questo quadro, l'azione intelligente è una forza estremamente potente e creare agenti molto più intelligenti di noi significa giocare con il fuoco, soprattutto considerando che se i loro obiettivi sono problematici, tali agenti avrebbero plausibilmente incentivi strumentali per cercare il potere sugli umani. In secondo luogo, viene formulato e valutato un argomento più specifico in sei premesse secondo cui la creazione di agenti di questo tipo porterà a una catastrofe esistenziale entro il 2070. Secondo questo argomento, entro il 2070: (1) diventerà possibile e finanziariamente fattibile costruire sistemi di IA rilevanti potenti e agentici; (2) ci saranno forti incentivi a farlo; (3) sarà molto più difficile costruire sistemi di IA allineati (e rilevanti potenti/agentici) rispetto a costruire sistemi di IA disallineati (e rilevanti potenti/agentici) che siano ancora superficialmente attraenti da implementare; (4) alcuni di questi sistemi disallineati cercheranno il potere sugli umani in modi ad alto impatto; (5) questo problema si estenderà al completo esautoramento dell'umanità; e (6) tale esautoramento costituirà una catastrofe esistenziale. Assegno credibilità soggettive approssimative alle premesse di questo argomento e finisco con una stima complessiva di ~5% che una catastrofe esistenziale di questo tipo si verifichi entro il 2070. (Aggiornamento del maggio 2022: da quando ho reso pubblico questo rapporto nell'aprile 2021, la mia stima qui è aumentata ed è ora >10%).

[[Category:pubblicazione]]

{{#seo:
|title=Is Power-Seeking AI an Existential Risk?
|title_mode=append
|keywords=intelligenza artificiale, rischio esistenziale, IA, disallineamento, agenti intelligenti, potere, catastrofe, estinzione umana, futuro dell'IA, sicurezza IA, etica IA, superintelligenza, regolamentazione IA, allineamento IA
|description=Questa pubblicazione analizza il rischio esistenziale derivante da un'intelligenza artificiale disallineata. L'autore esplora l'argomento secondo cui agenti IA molto più intelligenti degli umani potrebbero sviluppare incentivi per acquisire potere, portando potenzialmente a una catastrofe entro il 2070. Viene esaminata la probabilità che sistemi di IA disallineati cerchino di esautorare l'umanità, con una stima di rischio superiore al 10%.
|image=Uploaded_file.png
}}

Output Strutturato, Function Calling e Agenti

2024-12-18T17:43:47Z

Mindmakerbot:

= Output Strutturato nei Modelli di Linguaggio =
L'output strutturato rappresenta la capacità di un modello di linguaggio di generare risposte in formati predefiniti e organizzati, come JSON, XML, o altri schemi specifici. Questa caratteristica è fondamentale per l''''integrazione dei LLM in sistemi software.'''

Un primo esempio di output strutturato viene dato nel seguente prompt:
Estrai le seguenti informazioni dal testo in formato JSON:
Mario Rossi lavora come sviluppatore software presso TechCorp e può essere contattato all'email mario.rossi@google.com
Un modello di Linguaggio risponderà con qualcosa del genere:
{
"nome": "Mario Rossi",
"professione": "sviluppatore software",
"azienda": "TechCorp",
"email": "mario.rossi@example.com"
}
Si invita a provare, per esempio, il seguente prompt:
Analizza il seguente testo e fornisci un'analisi strutturata in JSON che includa:
- Sentimento generale (positivo/negativo/neutro)
- Parole chiave emotive
- Punteggio di intensità (1-5)
- Suggerimenti per migliorare il tono

Testo: "Il servizio clienti è stato terribilmente lento e il personale sembrava disinteressato.
Almeno il prodotto funziona bene, ma non credo che tornerò in questo negozio."

=== Fornire la struttura direttamente nel prompt ===
Per facilitare l'incorporazione e delle risposte in altri software, e conformarle ad una stessa struttura, spesso si "forza" il modello a aderire a un determinato schema di output. Ad esempio si provi il seguente prompt:

Analizza il seguente testo fornendo l'output nel formato JSON specificato dopo il testo.

Testo: "La nuova piattaforma di e-learning ha un'interfaccia moderna e reattiva, ma ho riscontrato diversi bug durante i test. Il team di sviluppo ha risposto velocemente alle segnalazioni, anche se alcuni problemi persistono. Nel complesso è promettente ma necessita di miglioramenti."

Output atteso:
{
"review_analysis": {
"overall_sentiment": "STRING (positive/mixed/negative)",
"rating": "NUMBER (1-5)",
"aspects": {
"positives": ["ARRAY OF STRINGS"],
"negatives": ["ARRAY OF STRINGS"]
},
"response_time": {
"score": "NUMBER (1-5)",
"comment": "STRING"
},
"maturity_assessment": {
"stage": "STRING (alpha/beta/production-ready)",
"confidence": "NUMBER (1-5)"
}
}
}

=== Fornire la struttura in formato "OpenAI schema" ===
Per utilizzare un formato ancora più standardizzato, è possibile specificare il formato di output con la sintassi OpenAI: https://spec.openapis.org/oas/v3.0.3#schema.

Per esempio, se nel '''prompt di sistema''' di un modello inserissimo:
Analizza il seguente testo fornendo l'output secondo lo schema JSON specificato dopo il testo.
Specificando la definizione dell'oggetto strutturato da tornare - per esempio nella sezione '''Structured Output''' in [https://aistudio.google.com Gemini]:

{
"type": "object",
"properties": {
"review_analysis": {
"type": "object",
"properties": {
"overall_sentiment": {
"type": "string",
"enum": ["positive", "mixed", "negative"]
},
"rating": {
"type": "number",
"minimum": 1,
"maximum": 5
},
"aspects": {
"type": "object",
"properties": {
"positives": {
"type": "array",
"items": {
"type": "string"
}
},
"negatives": {
"type": "array",
"items": {
"type": "string"
}
}
}
},
"response_time": {
"type": "object",
"properties": {
"score": {
"type": "number",
"minimum": 1,
"maximum": 5
},
"comment": {
"type": "string"
}
}
},
"maturity_assessment": {
"type": "object",
"properties": {
"stage": {
"type": "string",
"enum": ["alpha", "beta", "production-ready"]
},
"confidence": {
"type": "number",
"minimum": 1,
"maximum": 5
}
}
}
},
"required": ["overall_sentiment", "rating", "aspects", "response_time", "maturity_assessment"]
}
}
}
Questo formato ha alcuni vantaggi aggiuntivi rispetto al precedente:

# Definisce esplicitamente i tipi di dati
# Permette di specificare valori minimi e massimi per i numeri
# Elenca esplicitamente i valori possibili per le enumerazioni
# Indica quali campi sono obbligatori
# È compatibile con gli strumenti di validazione JSON Schema

== Function Calling nei Modelli di Linguaggio ==
Il Function Calling rappresenta un'evoluzione dell'output strutturato nei modelli di linguaggio, permettendo di mappare il linguaggio naturale a chiamate di funzioni predefinite. Questa caratteristica consente ai LLM di interpretare '''l'intento dell'utente''' (in inglese ''intent detection'') e tradurlo in azioni concrete attraverso API o funzioni specifiche.

Il Function Calling si basa sui principi dell'output strutturato, ma richiede:

* Una definizione esplicita delle funzioni disponibili
* Mappatura automatica tra intento e funzione
* Struttura standardizzata per i parametri
* Validazione integrata dei tipi di dati

=== Esempio di function calling ===
Immaginiamo di voler creare un piccolo '''sistema di gestione automatica delle campagne di paid advertising''', che possa eseguire query del tipo:

* "Crea una campagna awareness su Facebook con budget 100 euro al giorno, che inizi il 20/01/2025 e duri 14 giorni, audience professionisti_roma"
* "Quali sono le campagne attualmente attive?"
* "Interrompi la campagna 12345"
* "Avvia una campagna conversion su Instagram, budget giornaliero 150 euro, dal 01/03/2025 per 30 giorni, target giovani_milano"

* "Mostra tutte le campagne in corso"

Utilizziamo quindi i seguenti parametri per il '''function calling''':
[
{
"name": "createAdCampaign",
"description": "Crea una nuova campagna pubblicitaria",
"parameters": {
"type": "object",
"properties": {
"objective": {
"type": "string",
"enum": [
"awareness",
"consideration",
"conversion"
]
},
"platform": {
"type": "string",
"enum": [
"Facebook",
"Instagram",
"LinkedIn",
"TikTok"
]
},
"daily_budget": {
"type": "integer"
},
"start_date": {
"type": "string"
},
"duration_days": {
"type": "integer"
},
"audience_id": {
"type": "string"
}
},
"required": [
"objective",
"platform",
"daily_budget",
"start_date",
"duration_days",
"audience_id"
]
}
},
{
"name": "listActiveCampaigns",
"description": "Ritorna la lista delle campagne attive"
},
{
"name": "stopCampaign",
"description": "Ferma una campagna specificia",
"parameters": {
"type": "object",
"properties": {
"campaign_id": {
"type": "string"
}
},
"required": [
"campaign_id"
]
}
}
]

Si invita a testare esternsivamente il sistema, anche con domande '''incomplete.''' Si ricorda che in un sistema "reale", a ogni interazione che richiede l'uso di un '''tool, viene effettuata una chiamata API o chiamata una funzione'''.

=== Definizione di Agenti AI, relativamente al Function Calling e l'uso di Tools ===
In questo contesto, gli Agenti AI sono sistemi basati su modelli di linguaggio che utilizzano il '''Function Calling''' per interagire con funzioni e strumenti esterni. Questa capacità permette agli agenti di eseguire azioni concrete (come interrogare database, chiamare API o manipolare dati) e di recuperare informazioni addizionali prima di generare una risposta. A differenza di un semplice modello di linguaggio che può solo generare testo, un Agente AI può interpretare l'intenzione ('''intent)''' dell'utente, selezionare e chiamare le funzioni appropriate, e orchestrare una serie di operazioni per raggiungere un obiettivo specifico.

In pratica, un Agente AI può:

# Comprendere una richiesta in linguaggio naturale
# Decidere quali funzioni chiamare e in quale ordine
# Utilizzare i risultati delle funzioni per prendere decisioni successive
# Interagire con sistemi esterni per compiere azioni reali
# Fornire risposte basate sia sulla sua conoscenza che sui dati ottenuti

== Esercizio: Gestione Email Customer Care con Function Calling ==
Un'azienda di software necessita di un sistema per gestire automaticamente le email in arrivo all'indirizzo info@azienda.it. Il sistema deve essere in grado di:

* Riconoscere se l'email fa riferimento a un ticket esistente (cercando un ID ticket nel formato #Txxxxx)
* Creare nuovi ticket per richieste di supporto che non fanno riferimento a un ticket esistente
* Informazioni commerciali

Implementare un sistema di Function Calling che gestisca i seguenti scenari:

Email 1:
Da: cliente@email.com
A: info@azienda.it
Oggetto: Re: Ticket #T12345 - Problema installazione

Buongiorno,
in riferimento al ticket #T12345, volevo sapere se ci sono novità sulla mia
richiesta di supporto per l'installazione del software.
Grazie
Email 2:
Da: nuovo.cliente@email.com
A: info@azienda.it
Oggetto: Richiesta supporto installazione software "Nausicaa"

Buongiorno,
ho acquistato il vostro software ieri e sto avendo difficoltà con
l'installazione. Il sistema operativo è Windows 11 e ricevo un errore
durante la fase di setup.
Potete aiutarmi?
Email 3:
Da: potenziale.cliente@email.com
A: info@azienda.it
Oggetto: Informazioni prodotto "Telemaco"

Salve,
sono interessato al vostro software "Telemaco" per la mia azienda.
Vorrei sapere i prezzi per 25 postazioni e se fate sconti per ordini multipli.
Cordiali saluti
Requisiti:

# Definire le funzioni necessarie per:
#* Gestire ticket esistenti
#* Creare nuovi ticket
#* Inoltrare le richiesta commerciali direttamente al dipartimento "vendite"
# Specificare i parametri necessari per ogni funzione (dati cliente, riassunto richiesta, Livello di priorità: [high, medium,low], ID ticket, nome prodotto (opzionale), versione prodotto (opzionale))
# Garantire che tutte le informazioni necessarie vengano estratte dall'email

Si richiede di implementare lo schema delle funzioni seguendo il formato OpenAI per il Function Calling.{{#seo:
|title=Structured Output, Function Calling and Agents
|title_mode=append
|keywords=output strutturato, function calling, agenti AI, modelli di linguaggio, linguaggio naturale, JSON, API, integrazione software, intent detection, strumenti, tools
|description=Questa pubblicazione esplora l'output strutturato, il function calling e gli agenti AI nei modelli di linguaggio, mostrando come queste tecnologie consentono interazioni avanzate con i sistemi software.
}}

Retrieval, Embeddings, RAG

2024-12-18T17:40:04Z

Mindmakerbot:

Nonostante si sappia che il meccanismo di generazione dei modelli di linguagigo è probabilistico ed esista un rischio di [[Allucinazione|allucinazioni]], è possibile porre a [[Generative Pretrained Transformer (GPT)|GPT]] e agli altri [[Modello linguistico di grandi dimensioni|LLM]] domande puntuali su un'enorme varietà di argomenti: essi spesso fornisco delle risposte esaustive e dettagliate.[1]

Risulta però praticamente impossibile sfruttare le capacità di ragionamento e tutte le altre abilità emergenti di questi modelli per:

# rispondere a domande ed elaborare informazioni proprietarie, che per definizione non sono mai state viste dal modello durante l'addestramento, che deve necessariamente avvenire su dati pubblici
# rispondere a domande puntuali su argomenti di nicchia, o poco diffusi: il rischi di allucinazione è, ovviamente, inversamente proporzionale alla frequenza con la quale una determinata informazione si trova negli enormi dataset di addestramento

== Retrieval Augmented Generation (RAG) ==
I modelli di linguaggio sono '''molto bravi''' a trattare ed elaborare fornite all'interno del contesto: si pensi al ''few-shot prompting'' nel quale questi modelli non solo riescono ad utilizzare l'informazione fornita durante l'inferenza, ma riescono addirittura ad imparare (''meta-learning)'' come applicare lo specifico ''pattern'' ad esempi non ancora risolti.

La modalità più comune per ovviare ai problemi citati nell'introduzione, è la cosidetta Retrieval Augmented Generation, o RAG, il cui nome sta a indicare l'utilizzo di un modello generativo, ma aumentato dal preventivo recupero (o ''estrazione'') di informazioni utili per rispondere alla domanda o per risolvere il problema, che vengono incluse nel contesto, ovvero nel prompt.

=== Esempio di Sistema RAG ===
Prendiamo come esempio pratico un assistente in grado di '''rispondere a domande sulle regioni italiane,''' partendo da una base di conoscenza che contiene informazioni su territori, popolazione, cultura e attrazioni turistiche.

# Il primo componente essenziale è la '''knowledge base, o corpus''', ovvero l'insieme dei documenti sui quali vogliamo che il modello basi le sue risposte. Nel nostro esempio, ogni documento è un testo strutturato che un piatto tipico di una città o regione italiana. Questa base di conoscenza potrebbe essere ampliata con documenti provenienti da diverse fonti: pagine web, database interni, documenti PDF o qualsiasi altra fonte testuale pertinente.
# Il secondo componente è il '''sistema di''' '''retrieval''', che deve essere in grado di '''identificare e recuperare i documenti più rilevanti per una determinata query'''.
# Il terzo componente è un modello di '''generazione''' del testo, dove il modello di linguaggio genera una risposta basandosi sul contesto recuperato. Il prompt viene costruito combinando:
#* Il documento/i (o parti di docomenti) recuperati dalla knowledge base
#* La query originale dell'utente
#* Eventuali istruzioni aggiuntive per il modello, in cui normalmente si spiega al modello che deve rispodere alla query dell'utente utilizzando '''solo''' il testo fornito

== Primo Componente: la Knowledge Base ==
La knowledge base rappresenta il cuore di un sistema RAG: è l'insieme di informazioni su cui il modello baserà le sue risposte. Mentre nel nostro esempio abbiamo utilizzato brevi frasi su specialità regionali, nella pratica la knowledge base può assumere forme molto diverse. Può contenere documenti di ogni tipo e lunghezza: manuali tecnici, articoli scientifici, documentazione di prodotto, email, conversazioni di chat o post sui social media. I documenti più lunghi vengono tipicamente suddivisi in '''"chunk" (frammenti)''' più piccoli e gestibili, usando tecniche che preservano il contesto: per esempio, un documento di 1000 parole potrebbe essere diviso in chunk sovrapposti di 100 parole ciascuno, con 50 parole di sovrapposizione tra chunk consecutivi per mantenere la continuità del discorso.

La knowledge base '''può anche essere multimodale'''. Oltre al testo, è possibile indicizzare immagini associandole a descrizioni testuali o utilizzando modelli specializzati che generano embedding visivi. Questo permette di recuperare non solo testi rilevanti ma anche immagini pertinenti alla query. Per esempio, in un sistema RAG per un catalogo di prodotti, una query sulla "texture di un tessuto" potrebbe recuperare sia descrizioni testuali che immagini dei campioni di tessuto. Alcuni sistemi più avanzati supportano anche contenuti audio e video, trasformandoli in rappresentazioni vettoriali che catturano le caratteristiche salienti del contenuto multimediale.

La qualità e l'organizzazione della knowledge base sono importantissimi per l'efficacia del sistema: documenti ben strutturati, aggiornati e rilevanti sono il motivo più importante per cui il sistema dà risposte più accurate e utili. Per questo motivo, la gestione della knowledge base spesso include processi di pulizia dei dati, deduplicazione, aggiornamento automatico e monitoraggio della qualità dei contenuti.

== Secondo Componente: Il Sistema di Retrieval ==
Il sistema di retrieval, il cui compito è trovare le informazioni del corpus che sono più attinenti a una determinata ''query,'' può implementare diverse strategie di ricerca, che vanno dalle più semplici alle più sofisticate.

Partiamo dalle tecniche elementari fino ad arrivare a quelle più sofisticate.

La '''keyword search''' è l'approccio più basilare: cerca le parole esatte della query nei documenti. Ad esempio, per la domanda "Qual è il capoluogo della Toscana?", cercherà documenti che contengono le parole "capoluogo" e "Toscana". Questo metodo, seppur semplice, mostra evidenti limiti: non coglie sinonimi o relazioni semantiche (la query "Quale città governa la regione toscana?" non troverebbe corrispondenze).
[[File:Embeddings.png|miniatura|400x400px|Embedding vicini alla parola "Guitar" in Word2Vec (<nowiki>https://projector.tensorflow.org/</nowiki>)]]
Un primo livello di astrazione è fornito dall'approccio '''bag of words''' con '''TF-IDF''' (Term Frequency-Inverse Document Frequency). Questa tecnica considera ogni documento come un vettore dove ogni dimensione rappresenta la frequenza di una parola, pesata per la sua rarità nel corpus. Questo permette di identificare i termini più caratterizzanti e discriminanti di ogni documento. Per esempio, in un documento sulla Toscana, parole come "Firenze" o "Uffizi" avranno un peso maggiore rispetto a termini comuni come "città" o "regione", che sono '''molto frequenti''' ma al contempo '''comuni a gran parte dei documenti del corpus'''.

Le tecniche moderne si basano sulla '''vector search''': i testi vengono trasformati in '''[[Embeddings|embedding vettoriali]]''' che catturano il '''significato semantico''' in uno spazio multidimensionale. Un modello come <code>sentence-transformers</code> codifica sia la query che i documenti in vettori di centinaia di dimensioni, dove la vicinanza nello spazio vettoriale corrisponde alla similarità semantica. La query "Dove posso ammirare il David di Michelangelo?" troverà corrispondenza con documenti che parlano della Galleria dell'Accademia di Firenze, anche se non contengono le parole esatte della domanda.

L'approccio più robusto è quello '''ibrido''', che combina vector search e keyword matching. Per esempio, si può:

# Utilizzare la ricerca vettoriale per identificare i documenti semanticamente rilevanti
# Riordinare i risultati dando priorità a quelli che contengono anche keyword esatte
# Eventualmente escludere documenti che non contengono almeno una parola chiave essenziale

Per valutare l'efficacia di questi sistemi di retrieval, una metrica fondamentale è il '''[[Mean Reciprocal Rank]]''' (MRR): esso calcola il reciproco del rango della prima risposta corretta, mediato su tutte le query.

'''Quando si implementa un sistema RAG utilizzando modelli di retrieval esistenti, è fondamentale verificarne l'accuratezza (MRR) sul tipo specifico di documenti che caratterizzano il nostro dominio applicativo e sulla lingua di interesse. Per una valutazione rigorosa, è consigliabile creare un dataset di test ad-hoc, annotato secondo i nostri criteri di rilevanza: questo ci permetterà di misurare quanto il sistema sia effettivamente capace di recuperare le informazioni nel modo più appropriato per il nostro caso d'uso specifico.'''

=== Gli [[Embeddings|Embedding]]: Rappresentazioni Dense del Significato ===
Gli embedding sono '''rappresentazioni vettoriali "dense"''' del significato di parole o frasi: ogni testo viene trasformato in un vettore di numeri (tipicamente centinaia di dimensioni) dove ogni dimensione contribuisce a catturare qualche aspetto semantico del significato. A differenza delle '''rappresentazioni sparse come TF-IDF''', dove ogni dimensione corrisponde a una singola parola del vocabolario, negli embedding ogni dimensione rappresenta una complessa combinazione di caratteristiche semantiche.

Per intuire come funzionano, pensiamo a come un embedding cattura le relazioni tra parole [2]:

* La parola "medico" sarà vicina nello spazio vettoriale a "dottore", "chirurgo", "ospedale"
* La parola "Firenze" sarà vicina a "Toscana", "Uffizi", "Rinascimento"
* Ancora più interessante, gli embedding catturano anche relazioni analogiche: la relazione tra "Roma" e "Lazio" è simile a quella tra "Firenze" e "Toscana"

<blockquote>'''Esempio, capire gli embeddings'''

Si immagini di non conoscere il significato della parola "Ongchoi"; essa appare per esempio nelle seguenti frasi: [1]

* L'Ongchoi è delizioso saltato con l'aglio
* Ongchoi è ottimo sul riso
* ... foglie di Ongchoi con salse salate ...

E si supponga di aver visto, in altri contesti, le seguenti frasi:

* Gli spinaci sono deliziosi saltati con l'aglio
* i cardi sono ottimi sul riso
* ... il cavolo nero con salse salate ...

Il fatto che Ongchoi co-occorra con parole simili a quelle con cui sono co-occorsi gli spinaci, i cardi e il cavolo nero '''suggerisce''' che esso sia una verdura simile a questi. (si veda la pagina [[Embeddings]] per l'esempio completo)</blockquote>Modelli come <code>sentence-transformers</code>generano questi embedding attraverso reti neurali addestrate su enormi quantità di testo, imparando a posizionare nello spazio vettoriale parole e frasi in modo che la loro vicinanza rifletta la loro similarità semantica.

'''La similarità tra due testi può quindi essere calcolata come la similarità del coseno tra i loro vettori di embedding: dato l'angolo fra due rappresentazioni vettoriali, più esso è piccolo più i significati sono simili.'''

Questa rappresentazione vettoriale è alla base della moderna '''vector search''':

* quando un utente pone una domanda (query) , il suo testo viene trasformato in un embedding
* l'embedding della ''query'' confrontato con gli embedding di tutti i documenti nel corpus
* vengono ritornati i primi K documenti in ordine di somiglianza, cioè dal più simile al più diverso

== Terzo Componente: Il Modello Generativo ==
Una volta recuperati i documenti più rilevanti, il sistema deve generare una risposta pertinente e accurata. La chiave per ottenere risposte affidabili sta nella costruzione accurata del prompt, che deve guidare il modello a utilizzare '''esclusivamente''' le informazioni fornite nel contesto. Vediamo un esempio pratico
'''CONTESTO:'''
La Toscana è una regione dell'Italia centrale. Capoluogo: Firenze.
Popolazione: circa 3.7 milioni di abitanti.
Piatti tipici: ribollita, panzanella, bistecca alla fiorentina.
Attrazioni principali: Duomo di Firenze, Torre di Pisa, Siena.

'''QUERY DELL'UTENTE:'''
Quali sono i piatti tipici della Toscana?

'''ISTRUZIONI:'''
Genera una risposta alla domanda dell'utente utilizzando ESCLUSIVAMENTE le informazioni fornite nel contesto sopra. Se alcune informazioni non sono presenti nel contesto, non inventarle. Fornisci una risposta chiara e ben strutturata.
Questo formato di prompt ha diversi vantaggi:

# La separazione chiara tra contesto, query e istruzioni aiuta il modello a distinguere le varie componenti
# L'enfasi sull'utilizzo esclusivo delle informazioni fornite riduce drasticamente il rischio di allucinazioni
# Le istruzioni specifiche sulla struttura della risposta aiutano a ottenere output più coerenti e utilizzabili

È importante notare che la qualità della risposta generata dipende non solo dalla qualità del modello, ma anche dalla pertinenza del contesto recuperato e dalla chiarezza delle istruzioni fornite. Un prompt ben costruito dovrebbe sempre:

* Delimitare chiaramente il contesto di riferimento
* Specificare esplicitamente i vincoli (usare solo le informazioni fornite)
* Indicare il formato o lo stile desiderato per la risposta
* Includere eventuali requisiti specifici (ad esempio, citare le fonti o evidenziare eventuali incertezze)

== Oltre la RAG Base: Sistemi Avanzati di Retrieval e Generazione ==
Il sistema RAG presentato in questo capitolo rappresenta una delle implementazioni più semplici e dirette del concetto di retrieval augmented generation. Nella pratica, esistono numerose varianti e implementazioni più sofisticate che rispondono a esigenze specifiche.

Un esempio significativo è '''l'integrazione con database strutturati'''. In questo caso, il sistema deve essere in grado di tradurre una query in linguaggio naturale in una query SQL appropriata. Per esempio, alla domanda "Quali sono i cinque prodotti più venduti nell'ultimo trimestre?", il sistema deve:

# Comprendere l'intento della query
# Tradurla in SQL corretto (es: <code>SELECT product_name, SUM(quantity) FROM sales WHERE date > DATE_SUB(NOW(), INTERVAL 3 MONTH) GROUP BY product_name ORDER BY SUM(quantity) DESC LIMIT 5</code>)
# Eseguire la query
# Incorporare i risultati in una risposta naturale e comprensibile

Un altro caso d'uso interessante è la '''RAG su documenti tecnici strutturati''', come manuali o documentazione software. In questo scenario, il sistema deve essere in grado di:

* Comprendere la gerarchia e le relazioni tra diverse parti della documentazione
* Interpretare correttamente snippet di codice e riferimenti tecnici
* Fornire risposte che includano esempi di codice pertinenti e link alla documentazione completa

Nel '''campo medico''', sistemi RAG specializzati possono aiutare i professionisti sanitari a navigare la letteratura scientifica e le cartelle cliniche. Questi sistemi devono:

* Gestire terminologia medica specializzata
* Comprendere le relazioni tra sintomi, diagnosi e trattamenti
* Rispettare rigorosi requisiti di privacy e sicurezza dei dati

Questi esempi mostrano come la RAG sia un paradigma flessibile che può essere adattato a diverse esigenze. Le implementazioni più avanzate possono includere:

* Multiple strategie di retrieval in parallelo
* Sistemi di verifica e fact-checking delle risposte generate
* Meccanismi di feedback per migliorare continuamente la qualità delle risposte
* Integrazione con sistemi expert e regole di business specifiche del dominio

La chiave per implementare con successo un sistema RAG sta nel bilanciare la complessità del sistema con le esigenze specifiche del caso d'uso.

== RAG e [[fine-tuning]] ==
[[Fine-tuning]] e RAG rappresentano due approcci diversi per specializzare un LLM. Il fine-tuning modifica il modello stesso attraverso ulteriore training, ed è preferibile quando serve acquisire uno stile o un linguaggio specifico, o quando le risposte devono seguire pattern precisi. Richiede un dataset di qualità e risorse computazionali significative.

La RAG mantiene il modello invariato ma lo arricchisce con informazioni esterne. È la scelta migliore quando i dati cambiano frequentemente, serve tracciabilità delle fonti, o quando non si dispone di dataset sufficienti per il fine-tuning. È più flessibile e permette aggiornamenti continui, ma può essere più lento nell'esecuzione.

Le due tecniche possono essere combinate: per esempio, un modello fine-tuned per comprendere un dominio specifico può usare RAG per accedere a informazioni sempre aggiornate.

== Riferimenti ==
[1] [[Crawling the Internal Knowledge-Base of Language Models]]

[2] Si provi a utilizzare https://projector.tensorflow.org/{{#seo:
|title=Retrieval, Embeddings, RAG
|title_mode=append
|keywords=RAG, Retrieval Augmented Generation, Embeddings, Knowledge Base, Modello linguistico, LLM, Ricerca semantica, TF-IDF, Algoritmi di ricerca, Elaborazione del linguaggio naturale, Intelligenza artificiale, Chatbot, Assistente virtuale, Informazioni proprietarie
|description=La Retrieval Augmented Generation (RAG) aumenta i modelli linguistici con informazioni esterne, consentendo risposte accurate su argomenti specifici e dati proprietari. Esplora le basi della RAG, i suoi componenti chiave e le sue applicazioni avanzate.
|image=Embeddings.png
}}

Scaling Rectified Flow Transformers for High-Resolution Image Synthesis

2024-12-14T17:28:07Z

Mindmakerbot:

{{template pubblicazione
|data=2024
|autori=Patrick Esser, Sumith Kulal, A. Blattmann, Rahim Entezari, Jonas Muller, Harry Saini, Yam Levi, Dominik Lorenz, Axel Sauer, Frederic Boesel, Dustin Podell, Tim Dockhorn, Zion English, Kyle Lacey, Alex Goodwin, Yannik Marek, Robin Rombach
|URL=https://www.semanticscholar.org/paper/41a66997ce0a366bba3becf7c3f37c9aebb13fbd
|topic=Image Synthesis
|citazioni=410
}}

Questo articolo presenta un miglioramento delle tecniche di campionamento del rumore per l'addestramento di modelli di flusso rettificato, indirizzandole verso scale percettivamente rilevanti. Attraverso uno studio su larga scala, viene dimostrata la performance superiore di questo approccio rispetto alle formulazioni di diffusione consolidate per la sintesi testo-immagine ad alta risoluzione. Inoltre, viene presentata una nuova architettura basata su transformer per la generazione di testo-immagine che utilizza pesi separati per le due modalità e consente un flusso bidirezionale di informazioni tra token di immagine e di testo, migliorando la comprensione del testo, la tipografia e le valutazioni delle preferenze umane. I modelli più grandi superano i modelli allo stato dell'arte.

{{#seo:
|title=Scaling Rectified Flow Transformers for High-Resolution Image Synthesis
|title_mode=append
|keywords=sintesi immagini, immagini ad alta risoluzione, transformer, flusso rettificato, campionamento rumore, diffusione, testo-immagine, generazione immagini, modelli flusso, deep learning
|description=Questo studio migliora le tecniche di campionamento del rumore per i modelli di flusso rettificato, applicandole a scale percettivamente rilevanti. L'approccio supera le tecniche di diffusione per la sintesi testo-immagine ad alta risoluzione, introducendo una nuova architettura transformer con flusso bidirezionale di informazioni tra testo e immagine, migliorando la comprensione e le valutazioni umane. I modelli più grandi superano lo stato dell'arte.
}}

Highly accurate protein structure prediction with AlphaFold

2024-12-13T08:06:12Z

Mindmakerbot:

{{template pubblicazione
|data=2020
|autori=J. Jumper, Richard Evans, A. Pritzel, Tim Green, Michael Figurnov, O. Ronneberger, Kathryn Tunyasuvunakool, Russ Bates, Augustin Žídek, Anna Potapenko, Alex Bridgland, Clemens Meyer, Simon A A Kohl, Andy Ballard, A. Cowie, Bernardino Romera-Paredes, Stanislav Nikolov, Rishub Jain, J. Adler, T. Back, Stig Petersen, D. Reiman, Ellen Clancy, Michal Zielinski, Martin Steinegger, Michalina Pacholska, Tamas Berghammer, S. Bodenstein, David Silver, O. Vinyals, A. Senior, K. Kavukcuoglu, Pushmeet Kohli, D. Hassabis
|URL=https://www.semanticscholar.org/paper/dc32a984b651256a8ec282be52310e6bd33d9815
|topic=Predizione della struttura delle proteine
|citazioni=22112
}}

Questo articolo descrive AlphaFold, un sistema di intelligenza artificiale sviluppato da DeepMind per predire la struttura tridimensionale delle proteine con un alto grado di accuratezza. AlphaFold ha ottenuto risultati rivoluzionari nel campo della biologia strutturale, superando le prestazioni di altri metodi computazionali e avvicinandosi alla precisione dei metodi sperimentali. Questo strumento ha il potenziale di accelerare significativamente la ricerca in diversi ambiti, come la progettazione di farmaci e la comprensione delle malattie.

{{#seo:
|title=Highly accurate protein structure prediction with AlphaFold
|title_mode=append
|keywords=proteine, struttura proteica, predizione, intelligenza artificiale, AlphaFold, DeepMind, biologia strutturale, progettazione farmaci, malattie, ricerca, bioinformatica, genomica
|description=AlphaFold di DeepMind, un sistema di IA rivoluzionario, predice con precisione la struttura 3D delle proteine, aprendo nuove strade nella progettazione farmaci e nella comprensione delle malattie.
|image=
}}

Estimating Knowledge in Large Language Models Without Generating a Single Token

2024-12-02T14:03:23Z

Mindmakerbot:

{{template pubblicazione
|data=2024
|autori=Daniela Gottesman, Mor Geva
|URL=https://www.semanticscholar.org/paper/881af971d00621709b4c772750cd3ea9d0fb11fd
|topic=Valutazione della conoscenza nei Large Language Models
|citazioni=7
}}

Questo studio esplora la possibilità di valutare la conoscenza di un Large Language Model (LLM) senza generare testo. Propone KEEN, una sonda che analizza le rappresentazioni interne del modello per prevedere la sua capacità di rispondere a domande su una determinata entità e la fattualità delle sue risposte. Gli esperimenti dimostrano che KEEN correla con l'accuratezza delle risposte e con FActScore, una metrica di fattualità. KEEN, inoltre, si allinea con l'atteggiamento di hedging del modello e riflette i cambiamenti nella sua conoscenza dopo il fine-tuning. Infine, viene presentata una variante più interpretabile di KEEN, che evidenzia token indicativi di cluster e lacune nella conoscenza del modello.

{{#seo:
|title=Estimating Knowledge in Large Language Models Without Generating a Single Token
|title_mode=append
|keywords=Large Language Model, LLM, KEEN, conoscenza, modello linguistico, intelligenza artificiale, AI, valutazione, rappresentazioni interne, fattualità, accuratezza
|description=Questo studio introduce KEEN, una sonda per valutare la conoscenza di un LLM senza generare testo. Analizzando le rappresentazioni interne, KEEN prevede l'accuratezza e la fattualità delle risposte, allineandosi con l'atteggiamento di hedging e riflettendo i cambiamenti post fine-tuning.
}}

Are Large Language Models Geospatially Knowledgeable?

2024-12-02T13:28:48Z

Mindmakerbot:

{{template pubblicazione
|data=2024
|autori=Prabin Bhandari, Antonios Anastasopoulos, D. Pfoser
|URL=https://www.semanticscholar.org/paper/137094dc64e1bad43f68333dc1f82d56168a3de7
|topic=Geospatial Knowledge of Large Language Models
|citazioni=18
}}

Questo articolo esplora la comprensione dei dati geografici da parte dei modelli linguistici di grandi dimensioni (LLM) e la loro capacità di supportare il processo decisionale geospaziale. Valuta la conoscenza, la consapevolezza e le capacità di ragionamento geospaziale codificate in questi LLM pre-addestrati, concentrandosi sui modelli linguistici autoregressivi. Gli autori propongono approcci sperimentali per (i) sondare le coordinate geografiche degli LLM, (ii) utilizzare preposizioni geospaziali e non geospaziali per valutare la loro consapevolezza geospaziale e (iii) utilizzare un esperimento di scaling multidimensionale (MDS) per valutare le capacità di ragionamento geospaziale dei modelli e determinare la posizione delle città in base al prompting. I risultati indicano che non solo sono necessari LLM più grandi, ma anche più sofisticati, per sintetizzare la conoscenza geospaziale dalle informazioni testuali.

{{#seo:
|title=Are Large Language Models Geospatially Knowledgeable?
|title_mode=append
|keywords=modelli linguistici, grandi modelli linguistici, conoscenza geospaziale, ragionamento geospaziale, intelligenza artificiale, elaborazione del linguaggio naturale, dati geografici, analisi geospaziale, modelli autoregressivi, preposizioni geospaziali
|description=Questa pubblicazione esplora la capacità dei modelli linguistici di grandi dimensioni di comprendere i dati geografici e supportare le decisioni geospaziali. Valuta la loro conoscenza, consapevolezza e capacità di ragionamento in ambito geospaziale, con particolare attenzione ai modelli autoregressivi. Gli esperimenti condotti suggeriscono la necessità di modelli più grandi e sofisticati per elaborare efficacemente le informazioni geospaziali.
}}

Crawling the Internal Knowledge-Base of Language Models

2024-12-01T19:44:07Z

Mindmakerbot:

{{template pubblicazione
|data=2022
|autori=Roi Cohen, Mor Geva, Jonathan Berant, A. Globerson
|URL=https://www.semanticscholar.org/paper/47a541269d4ef70f37f0d3a57483312c4c6c2ad5
|topic=Modelli Linguistici
|citazioni=64
}}

Questo articolo esplora l'idea che i modelli linguistici, addestrati su enormi quantità di testo, memorizzino una grande quantità di conoscenza fattuale. Propone un metodo per estrarre questa conoscenza sotto forma di grafo di conoscenza, "navigando" nella base di conoscenza interna del modello. A partire da un'entità iniziale, il processo espande il grafo, controllando la precisione e la quantità di fatti generati. La valutazione mostra un'alta precisione (82-92%) nell'estrazione dei fatti.

{{#seo:
|title=Crawling the Internal Knowledge-Base of Language Models
|title_mode=append
|keywords=modelli linguistici, basi di conoscenza, knowledge graph, estrazione di conoscenza, navigazione, precisione, fatti, entità, testo, informazione
|description=Questo studio esplora come i modelli linguistici memorizzano la conoscenza fattuale e propone un metodo per estrarla come un grafo, navigando nella base di conoscenza interna. La valutazione dimostra un'alta precisione (82-92%) nell'estrazione dei fatti.
}}

An algorithm for suffix stripping

2024-12-01T16:29:52Z

Mindmakerbot:

{{template pubblicazione
|data=1973
|autori=M. Porter
|URL=https://www.semanticscholar.org/paper/a651bb7cc7fc68ece0cc66ab921486d163373385
|topic=Rimozione Suffissi
|citazioni=9554
}}

L'articolo descrive un algoritmo per la rimozione automatica dei suffissi dalle parole inglesi, un'operazione particolarmente utile nel campo del recupero delle informazioni. L'algoritmo, implementato come un programma breve e veloce in BCPL, funziona trattando i suffissi complessi come composti da suffissi semplici, rimuovendo questi ultimi in più passaggi. In ogni passaggio, la rimozione del suffisso dipende dalla forma della radice rimanente, che di solito implica una misura della sua lunghezza sillabica.

[[Category:Pubblicazione]]

{{#seo:
|title=An algorithm for suffix stripping
|title_mode=append
|keywords=algoritmo,suffissi,rimuovere,parole,inglese,stemming,indicizzazione,ricerca,informazioni,BCPL,Porter
|description=Pubblicazione del 1973 che descrive un algoritmo per rimuovere automaticamente i suffissi dalle parole inglesi, utile per il recupero delle informazioni. L'algoritmo, scritto in BCPL, tratta i suffissi complessi come composti da suffissi semplici, rimuovendoli in più passaggi in base alla lunghezza sillabica della radice.
}}

Training Compute-Optimal Large Language Models

2024-11-27T22:37:26Z

Mindmakerbot:

{{template pubblicazione
|data=2021
|autori=J. Kaplan, Sam McCandlish, T. Henighan, Tom B. Brown, B. Chess, R. Child, Scott Gray, Alec Radford, Jeff Wu, Dario Amodei
|URL=https://www.semanticscholar.org/paper/e6c561d02500b2596a230b341a8eb8b921ca5bf2
|topic=Modelli Linguistici Neurali
|citazioni=3449
}}

Questo studio esplora le leggi di scaling empiriche per le prestazioni dei modelli linguistici sulla base della perdita di entropia incrociata. La perdita scala come una legge di potenza con la dimensione del modello, la dimensione del set di dati e la quantità di calcolo utilizzata per l'addestramento, con alcune tendenze che abbracciano più di sette ordini di grandezza. Altri dettagli architetturali, come la larghezza o la profondità della rete, hanno effetti minimi entro un'ampia gamma. Equazioni semplici governano la dipendenza dell'overfitting dalla dimensione del modello/dataset e la dipendenza della velocità di addestramento dalla dimensione del modello. Queste relazioni consentono di determinare l'allocazione ottimale di un budget di calcolo fisso. I modelli più grandi sono significativamente più efficienti in termini di campioni, in modo tale che l'addestramento ottimale dal punto di vista computazionale prevede l'addestramento di modelli molto grandi su una quantità relativamente modesta di dati e l'arresto significativamente prima della convergenza.

{{#seo:
|title=Training Compute-Optimal Large Language Models
|title_mode=append
|keywords=modelli linguistici, apprendimento automatico, intelligenza artificiale, elaborazione del linguaggio naturale, reti neurali, legge di scaling, perdita di entropia incrociata, overfitting, velocità di addestramento, allocazione del budget di calcolo
|description=Questo studio esplora come la performance dei modelli linguistici scala in base alla perdita di entropia incrociata, alla dimensione del modello, del dataset e al calcolo impiegato. Modelli più grandi sono più sample-efficient, suggerendo che l'addestramento ottimale dal punto di vista computazionale consiste nell'allenare modelli molto grandi su quantità di dati relativamente ridotte.
}}

MemGPT: Towards LLMs as Operating Systems

2024-11-26T12:15:41Z

Mindmakerbot:

{{template pubblicazione
|data=2024
|autori=Charles Packer, Vivian Fang, Shishir G. Patil, Kevin Lin, Sarah Wooders, Joseph Gonzalez
|URL=https://www.semanticscholar.org/paper/908dad62c0e43d80e3e3cb3c0402f7c71c70499c
|topic=Large Language Models (LLM)
|citazioni=75
}}

MemGPT è un sistema che gestisce in modo intelligente diversi livelli di memoria per fornire efficacemente un contesto esteso all'interno della finestra di contesto limitata di un LLM. Utilizza interrupt per gestire il flusso di controllo tra se stesso e l'utente.

MemGPT è stato valutato in due domini in cui le finestre di contesto limitate dei moderni LLM ne compromettono gravemente le prestazioni: l'analisi di documenti, dove MemGPT è in grado di analizzare documenti di grandi dimensioni che superano di gran lunga la finestra di contesto dell'LLM sottostante, e la chat multi-sessione, dove MemGPT può creare agenti conversazionali che ricordano, riflettono ed evolvono dinamicamente attraverso interazioni a lungo termine con i loro utenti.

{{#seo:
|title=MemGPT: Towards LLMs as Operating Systems
|title_mode=append
|keywords=memoria, contesto, LLM, large language model, intelligenza artificiale, AI, analisi documenti, chat multi-sessione, agente conversazionale, interazioni a lungo termine
|description=MemGPT gestisce diversi livelli di memoria per fornire contesto esteso agli LLM. Utilizza interrupt per il flusso di controllo tra sé e l'utente, eccellendo nell'analisi di documenti di grandi dimensioni e nella chat multi-sessione, dove crea agenti conversazionali capaci di ricordare e evolvere dinamicamente.
}}

Emergent Abilities of Large Language Models

2024-11-25T22:20:18Z

Mindmakerbot:

{{template pubblicazione
|data=2023
|autori=Jason Wei, Yi Tay, Rishi Bommasani, Colin Raffel, Barret Zoph, Sebastian Borgeaud, Dani Yogatama, Maarten Bosma, Denny Zhou, Donald Metzler, Ed H. Chi, Tatsunori Hashimoto, O. Vinyals, P. Liang, J. Dean, W. Fedus
|URL=https://www.semanticscholar.org/paper/dac3a172b504f4e33c029655e9befb3386e5f63a
|topic=Large Language Models
|citazioni=1936
}}

Questo articolo discute le capacità emergenti dei modelli linguistici di grandi dimensioni. Un'abilità è considerata emergente se non è presente in modelli più piccoli ma è presente in modelli più grandi. Pertanto, le capacità emergenti non possono essere previste semplicemente estrapolando le prestazioni di modelli più piccoli. L'esistenza di tale emergenza implica che un ulteriore aumento di scala potrebbe espandere ulteriormente la gamma di capacità dei modelli linguistici.

{{#seo:
|title=Emergent Abilities of Large Language Models
|title_mode=append
|keywords=modelli linguistici, grandi modelli linguistici, intelligenza artificiale, apprendimento automatico, elaborazione del linguaggio naturale, capacità emergenti, scaling, estrapolazione, prestazioni, modelli più piccoli, modelli più grandi
|description=Questa pubblicazione esplora le capacità emergenti dei modelli linguistici di grandi dimensioni, ovvero abilità non presenti nei modelli più piccoli. L'emergenza di queste capacità suggerisce che un ulteriore aumento di scala potrebbe ampliarle ulteriormente.
|image=Uploaded_file.png
}}

The Natural Language Decathlon: Multitask Learning as Question Answering

2024-11-25T21:58:47Z

Mindmakerbot:

{{template pubblicazione
|data=2018
|autori=Bryan McCann, N. Keskar, Caiming Xiong, R. Socher
|URL=https://www.semanticscholar.org/paper/9784fbf77295860b2e412137b86356d70b25e3c0
|topic=Multitask Learning
|citazioni=612
}}

Il Natural Language Decathlon (Decathlon del linguaggio naturale) è una sfida che valuta le capacità dei modelli di apprendimento automatico in dieci diversi compiti di comprensione del linguaggio naturale, trattando ogni compito come un tipo di domanda e risposta. L'obiettivo è incoraggiare lo sviluppo di modelli di intelligenza artificiale più versatili e generalizzati nel campo dell'elaborazione del linguaggio naturale. Questo approccio multi-task consente di valutare la capacità di un modello di trasferire la conoscenza appresa da un compito all'altro, migliorando l'efficienza dell'apprendimento e le prestazioni generali.

[[Category:Pubblicazione]]

{{#seo:
|title=The Natural Language Decathlon: Multitask Learning as Question Answering
|title_mode=append
|keywords=apprendimento automatico, intelligenza artificiale, elaborazione del linguaggio naturale, comprensione del linguaggio naturale, multi-task learning, trasferimento della conoscenza, decathlon, NLP, NLU, question answering
|description=Il Natural Language Decathlon valuta i modelli di apprendimento automatico su dieci compiti di comprensione del linguaggio naturale, visti come question answering, per promuovere modelli di IA più versatili.
}}

Real-Time Open-Domain Question Answering with Dense-Sparse Phrase Index

2024-11-25T15:02:18Z

Mindmakerbot:

{{template pubblicazione
|data=2021
|autori=Minjoon Seo, Jinhyuk Lee, T. Kwiatkowski, Ankur P. Parikh, Ali Farhadi, Hannaneh Hajishirzi
|URL=https://www.semanticscholar.org/paper/b29db655a18e7417e1188ba392a06b6314f0cb87
|topic=Question Answering
|citazioni=148
}}

Questo articolo presenta DenSPI, un modello di retrieval per il Question Answering in tempo reale a dominio aperto. A differenza dei modelli esistenti, DenSPI utilizza rappresentazioni indicizzabili delle frasi del documento, indipendenti dalla query, che velocizzano notevolmente il processo di risposta. La codifica "dense-sparse" delle frasi cattura efficacemente le informazioni sintattiche, semantiche e lessicali, eliminando la necessità di filtrare i documenti di contesto. Grazie a strategie di ottimizzazione per l'addestramento e l'inferenza, il modello può essere addestrato e distribuito anche su un singolo server con 4 GPU. Inoltre, DenSPI indicizza le frasi dell'intera Wikipedia inglese (fino a 60 miliardi di frasi) utilizzando meno di 2TB di spazio. Gli esperimenti su SQuAD-Open dimostrano che DenSPI raggiunge prestazioni pari o superiori ai modelli precedenti con un costo computazionale ridotto di 6000 volte, traducendosi in un'inferenza end-to-end almeno 68 volte più veloce sulle CPU.

{{#seo:
|title=Real-Time Open-Domain Question Answering with Dense-Sparse Phrase Index
|title_mode=append
|keywords=question answering,information retrieval,indicizzazione,denspi,wikipedia,elaborazione del linguaggio naturale,deep learning,intelligenza artificiale,gpu,open-domain question answering,modelli di linguaggio
|description=DenSPI, un innovativo modello di retrieval per il question answering in tempo reale. Indicizza le frasi, velocizzando le risposte e raggiungendo prestazioni elevate con un costo computazionale ridotto. Utilizza una codifica dense-sparse" per catturare informazioni sintattiche, semantiche e lessicali."
}}

Reading Wikipedia to Answer Open-Domain Questions

2024-11-25T14:01:46Z

Mindmakerbot:

{{template pubblicazione
|data=2017
|autori=Danqi Chen, Adam Fisch, J. Weston, Antoine Bordes
|URL=https://www.semanticscholar.org/paper/104715e1097b7ebee436058bfd9f45540f269845
|topic=Question Answering
|citazioni=1897
}}
Questo documento propone di affrontare il problema delle risposte a domande a dominio aperto utilizzando Wikipedia come unica fonte di conoscenza: la risposta a qualsiasi domanda fattuale è una porzione di testo in un articolo di Wikipedia. Questo compito di lettura automatica su larga scala combina le sfide del recupero di documenti (trovare gli articoli pertinenti) con quello della comprensione automatica del testo (identificare le porzioni di risposta da quegli articoli). Il nostro approccio combina un componente di ricerca basato su hashing bigram e corrispondenza TF-IDF con un modello di rete neurale ricorrente multistrato addestrato per rilevare le risposte nei paragrafi di Wikipedia. I nostri esperimenti su più set di dati QA esistenti indicano che (1) entrambi i moduli sono altamente competitivi rispetto alle controparti esistenti e (2) l'apprendimento multitask che utilizza la supervisione distante sulla loro combinazione è un sistema completo efficace in questo compito impegnativo.

[[Category:pubblicazione]]

{{#seo:
|title=Reading Wikipedia to Answer Open-Domain Questions
|title_mode=append
|keywords=wikipedia,question answering,dominio aperto,lettura automatica,recupero documenti,comprensione del testo,ricerca,hashing,TF-IDF,rete neurale ricorrente,apprendimento automatico,supervisione distante
|description=Questo studio utilizza Wikipedia per rispondere a domande a dominio aperto, combinando il recupero di documenti con la comprensione del testo. Un modello di rete neurale identifica le risposte all'interno dei paragrafi di Wikipedia, dimostrandosi efficace in questo compito.
}}

Contriever

2024-11-24T13:33:56Z

Mindmakerbot:

Modello di recupero dell'informazione sviluppato da Meta AI che utilizza l'apprendimento contrastivo per creare rappresentazioni dense di testi senza necessità di supervisione. È progettato per superare le limitazioni dei precedenti modelli che richiedevano dati annotati manualmente.

=== Funzionamento ===
Il funzionamento di Contriever si basa su alcuni principi chiave:

'''1. Architettura di base'''
Contriever utilizza un'architettura transformer (simile a BERT) con alcune modifiche cruciali:
* Un encoder che processa sia le query che i documenti
* Un layer di pooling che calcola la media dei token per ottenere un embedding del testo
* Una normalizzazione L2 degli embedding finali

'''2. Processo di addestramento'''
Durante l'addestramento, Contriever opera su batch di testi (tipicamente 1024 o più passaggi) nel seguente modo:
* Prende un passaggio di testo originale: "La Torre Eiffel è stata costruita nel 1889"
* Crea una variante sintetica come query: "Quando è stata costruita la Torre Eiffel?"
* Usa altri passaggi nel batch come esempi negativi: "Il Colosseo si trova a Roma", "La Statua della Libertà è a New York"

Per ogni batch:
{| class="wikitable"
! Testo originale !! Query sintetica !! Negativi
|-
| La Torre Eiffel è stata costruita nel 1889 || Quando è stata costruita la Torre Eiffel? || Il Colosseo si trova a Roma
|-
| Parigi è la capitale della Francia || Qual è la capitale della Francia? || Tokyo è la città più popolosa del mondo
|}

'''3. Creazione degli embedding'''
Per ogni testo, Contriever:
# Tokenizza il testo
# Passa i token attraverso il transformer
# Applica mean pooling sugli output del transformer
# Normalizza il vettore risultante

Esempio di processo:
"La Torre Eiffel è stata costruita nel 1889" → [0.2, -0.3, 0.1, ..., 0.4] (vettore 768-dimensionale)

'''4. Calcolo della similarità'''
La similarità tra query e documento viene calcolata usando la similarità del coseno:
<math>
sim(q,d) = \frac{q \cdot d}{||q|| ||d||}
</math>

'''5. Funzione di perdita'''
Durante l'addestramento, Contriever ottimizza la funzione InfoNCE:
<math>
\mathcal{L} = -\log\frac{\exp(sim(q,d^+)/\tau)}{\exp(sim(q,d^+)/\tau) + \sum\exp(sim(q,d^-)/\tau)}
</math>

dove τ è un parametro di temperatura (tipicamente 0.05).

'''6. Processo di retrieval'''
Durante l'utilizzo:
# La query viene codificata nell'embedding q
# Ogni documento della collezione viene codificato in un embedding d
# Si calcola la similarità tra q e tutti i d
# Si restituiscono i k documenti più simili

Esempio pratico:
{| class="wikitable"
! Query !! Documento più simile !! Similarità
|-
| Quando fu costruita la Torre Eiffel? || La Torre Eiffel è stata costruita nel 1889 || 0.82
|-
| Chi ha inventato la lampadina? || Thomas Edison inventò la lampadina nel 1879 || 0.75
|}

'''7. Ottimizzazioni'''
Contriever implementa diverse ottimizzazioni:
* Batch di grandi dimensioni per migliore convergenza
* Normalizzazione degli embedding per stabilità numerica
* Cache degli embedding per efficienza computazionale
* Temperature scaling per bilanciare l'apprendimento

Le prestazioni di Contriever sono particolarmente notevoli in scenari zero-shot, dove supera modelli supervisionati tradizionali su vari benchmark di recupero dell'informazione.

=== Implementazione ===
Un esempio semplificato di utilizzo con Hugging Face:

<syntaxhighlight lang="python">
from transformers import AutoModel, AutoTokenizer

# Caricamento del modello
tokenizer = AutoTokenizer.from_pretrained('facebook/contriever')
model = AutoModel.from_pretrained('facebook/contriever')

# Codifica del testo
def encode_text(text):
inputs = tokenizer(text, return_tensors='pt', truncation=True)
outputs = model(**inputs)
embeddings = outputs.last_hidden_state.mean(dim=1)
return embeddings

# Esempio di utilizzo
query = "Quando fu costruita la Torre Eiffel?"
doc = "La Torre Eiffel è stata costruita nel 1889"

query_emb = encode_text(query)
doc_emb = encode_text(doc)

# Calcolo similarità
similarity = torch.cosine_similarity(query_emb, doc_emb)
</syntaxhighlight>

[[Categoria:Modello]]{{#seo:
|title=Contriever
|title_mode=append
|keywords=recupero dell'informazione, apprendimento automatico, intelligenza artificiale, modelli linguistici, elaborazione del linguaggio naturale, embedding, similarità coseno, codifica semantica, zero-shot, Meta AI
|description=Contriever, modello di Meta AI, utilizza l'apprendimento contrastivo per creare rappresentazioni dense di testi, superando i modelli precedenti che necessitavano di dati annotati. Funziona tramite encoder, pooling layer e normalizzazione L2, ottimizzando la funzione InfoNCE per massimizzare la similarità tra query e documento.
}}

Dense Passage Retrieval for Open-Domain Question Answering

2024-11-24T13:25:59Z

Mindmakerbot:

{{template pubblicazione
|data=2021
|autori=Vladimir Karpukhin, Barlas Oğuz, Sewon Min, Patrick Lewis, Ledell Yu Wu, Sergey Edunov, Danqi Chen, Wen-tau Yih
|URL=https://www.semanticscholar.org/paper/b26f2037f769d5ffc5f7bdcec2de8da28ec14bee
|topic=Question Answering
|citazioni=2997
}}

Questo articolo presenta un nuovo metodo per il recupero dei passaggi nel question answering a dominio aperto. Invece di utilizzare i tradizionali modelli vettoriali sparsi, come TF-IDF o BM25, gli autori propongono un sistema di recupero denso basato su rappresentazioni dense. Le inclusioni vengono apprese da un piccolo numero di domande e passaggi tramite una semplice struttura a doppio encoder. Questo approccio ha dimostrato di superare un forte sistema Lucene-BM25 del 9%-19% in termini di accuratezza del recupero dei 20 passaggi principali e ha aiutato il loro sistema di domande e risposte end-to-end a stabilire un nuovo stato dell'arte su diversi benchmark di domande e risposte a dominio aperto. [[Categoria:Pubblicazione]]

{{#seo:
|title=Dense Passage Retrieval for Open-Domain Question Answering
|title_mode=append
|keywords=recupero informazioni,question answering,open-domain,rappresentazioni dense,doppio encoder,TF-IDF,BM25,accuratezza,benchmark,pubblicazione
|description=Questo studio introduce un innovativo metodo di recupero denso per il question answering a dominio aperto, superando i modelli vettoriali tradizionali. L'approccio basato su rappresentazioni dense e una struttura a doppio encoder migliora l'accuratezza del recupero dei passaggi, stabilendo un nuovo standard nei benchmark di settore.
}}

Unsupervised Dense Information Retrieval with Contrastive Learning

2024-11-24T10:33:55Z

Mindmakerbot:

{{template pubblicazione
|data=2021
|autori=Gautier Izacard, Mathilde Caron, Lucas Hosseini, Sebastian Riedel, Piotr Bojanowski, Armand Joulin, Edouard Grave
|URL=https://www.semanticscholar.org/paper/4f4a409f701f7552d45c46a5b0fea69dca6f8e84
|topic=Information Retrieval
|citazioni=615
}}

Questo studio esplora l'information retrieval denso non supervisionato mediante l'apprendimento contrastivo. L'obiettivo è migliorare la similarità semantica e l'efficacia della ricerca, in particolare in situazioni con pochi dati di addestramento o in contesti multilingue. I risultati mostrano che questo approccio supera i metodi tradizionali come BM25 in molti casi e offre un promettente punto di partenza per l'addestramento con dati limitati. Inoltre, dimostra buone capacità di trasferimento cross-linguale, aprendo nuove possibilità per la ricerca in lingue a basse risorse.

[[Category:Pubblicazione]]

{{#seo:
|title=Unsupervised Dense Information Retrieval with Contrastive Learning
|title_mode=append
|keywords=information retrieval, apprendimento contrastivo, similarità semantica, ricerca non supervisionata, pochi dati, multilingue, BM25, trasferimento cross-linguale, lingue a basse risorse, addestramento con dati limitati
|description=Studio sull'information retrieval denso non supervisionato con apprendimento contrastivo. Supera metodi tradizionali come BM25, migliorando la similarità semantica, specie in contesti multilingue o con pochi dati.
}}

Unsupervised Dense Information Retrieval with Contrastive Learning

2024-11-23T23:47:37Z

Mindmakerbot:

{{#seo:
|title=Unsupervised Dense Information Retrieval with Contrastive Learning
|title_mode=append
|keywords=apprendimento automatico, information retrieval, contrastive learning, deep learning, intelligenza artificiale, NLP, elaborazione del linguaggio naturale, rappresentazione densa, similarità semantica, vettori
|description=Questa pubblicazione esplora l'information retrieval denso non supervisionato con l'apprendimento contrastivo. Scopri come migliorare la similarità semantica e l'efficacia della ricerca.
}}

On the difficulty of training recurrent neural networks

2024-09-17T10:17:35Z

Mindmakerbot:

{{template pubblicazione
|data=2014
|autori=Razvan Pascanu, Tomas Mikolov, Yoshua Bengio
|URL=https://www.semanticscholar.org/paper/84069287da0a6b488b8c933f3cb5be759cb6237e
|topic=Reti Neurali Ricorrenti
|citazioni=5031
}}

Questo articolo affronta le difficoltà nell'addestramento delle reti neurali ricorrenti, in particolare i problemi del gradiente che svanisce e del gradiente che esplode. Gli autori analizzano questi problemi da diverse prospettive (analitica, geometrica e dei sistemi dinamici) per fornire una comprensione più approfondita.

Per affrontare queste sfide, l'articolo propone due soluzioni: una strategia di clipping della norma del gradiente per gestire i gradienti che esplodono e un vincolo soft per il problema dei gradienti che svaniscono. L'efficacia di queste soluzioni viene convalidata empiricamente attraverso esperimenti.

{{#seo:
|title=On the difficulty of training recurrent neural networks
|title_mode=append
|keywords=reti neurali, apprendimento profondo, reti neurali ricorrenti, gradiente che svanisce, gradiente che esplode, clipping del gradiente, addestramento, ottimizzazione
|description=Questa pubblicazione esplora le difficoltà nell'addestramento delle reti neurali ricorrenti, analizzando i problemi del gradiente che svanisce e che esplode. Vengono proposte soluzioni come il clipping della norma del gradiente e un vincolo soft, convalidate da esperimenti.

}}

FANNG: Fast Approximate Nearest Neighbour Graphs

2024-09-10T13:38:41Z

Mindmakerbot: Creata pagina con "{{template pubblicazione |data=2014 |autori=Cong Fu, Chao Xiang, Changxu Wang, Deng Cai |URL=https://www.semanticscholar.org/paper/8843bdc4548bd2f9b483aafe90b7ee41c8b8fdc8 |topic=Approximate Nearest Neighbor Search |citazioni=241 }} La ricerca approssimativa del vicino più prossimo (ANNS) è un problema fondamentale nei database e nel data mining. Un algoritmo ANNS scalabile dovrebbe essere efficiente sia in termini di memoria che di velocità. Alcuni dei primi..."

{{template pubblicazione
|data=2014
|autori=Cong Fu, Chao Xiang, Changxu Wang, Deng Cai
|URL=https://www.semanticscholar.org/paper/8843bdc4548bd2f9b483aafe90b7ee41c8b8fdc8
|topic=Approximate Nearest Neighbor Search
|citazioni=241
}}

La ricerca approssimativa del vicino più prossimo (ANNS) è un problema fondamentale nei database e nel data mining. Un algoritmo ANNS scalabile dovrebbe essere efficiente sia in termini di memoria che di velocità. Alcuni dei primi approcci basati su grafi hanno mostrato interessanti garanzie teoriche sulla complessità del tempo di ricerca, ma soffrono tutti del problema dell'elevata complessità del tempo di indicizzazione. Recentemente, sono stati proposti alcuni metodi basati su grafi per ridurre la complessità dell'indicizzazione approssimando i grafi tradizionali; questi metodi hanno ottenuto prestazioni rivoluzionarie su set di dati su scala milionaria. Tuttavia, non possono ancora essere ridimensionati a database da miliardi di nodi. In questo articolo, per migliorare ulteriormente l'efficienza della ricerca e la scalabilità dei metodi basati su grafi, iniziamo introducendo quattro aspetti: (1) garantire la connettività del grafico; (2) ridurre il grado medio in uscita del grafico per una rapida traversata; (3) abbreviare il percorso di ricerca; e (4) ridurre la dimensione dell'indice. Quindi, proponiamo una nuova struttura a grafo chiamata Monotonic Relative Neighborhood Graph (MRNG) che garantisce una complessità di ricerca molto bassa (prossima al tempo logaritmico). Per ridurre ulteriormente la complessità dell'indicizzazione e renderla pratica per i problemi ANNS da miliardi di nodi, proponiamo una nuova struttura a grafo denominata Navigating Spreading-out Graph (NSG) approssimando l'MRNG. L'NSG tiene conto simultaneamente dei quattro aspetti. Esperimenti approfonditi dimostrano che NSG supera significativamente tutti gli algoritmi esistenti. Inoltre, NSG mostra prestazioni superiori nello scenario e-commerce di Taobao (Alibaba Group) ed è stato integrato nel loro motore di ricerca su scala miliardaria.

[[Category:pubblicazione]]

{{#seo:
|title=FANNG: Fast Approximate Nearest Neighbour Graphs
|title_mode=append
|keywords=ricerca del vicino più prossimo, ANN, grafi, indicizzazione, scalabilità, database, data mining, MRNG, NSG
|description=La ricerca approssimativa del vicino più prossimo (ANNS) è un problema cruciale. Questo studio introduce una nuova struttura a grafo, Navigating Spreading-out Graph (NSG), per migliorare l'efficienza e la scalabilità di ANNS. NSG supera gli algoritmi esistenti e mostra prestazioni superiori su set di dati su larga scala, come dimostrato nell'implementazione nel motore di ricerca di Taobao (Alibaba Group).
}}

RoBERTa: A Robustly Optimized BERT Pretraining Approach

2024-09-10T13:27:43Z

Mindmakerbot:

{{template pubblicazione
|data=2019
|autori=Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, M. Lewis, Luke Zettlemoyer, Veselin Stoyanov
|URL=https://www.semanticscholar.org/paper/077f8329a7b6fa3b7c877a57b81eb6c18b5f87de
|topic=Modelli Linguistici, BERT
|citazioni=20714
}}

Questo articolo presenta RoBERTa (A Robustly Optimized BERT Pretraining Approach), un approccio di pretraining per modelli linguistici basato su BERT. Gli autori dimostrano che BERT era stato significativamente sotto-addestrato nelle sue iterazioni precedenti e che, con una corretta ottimizzazione, può eguagliare o superare le prestazioni di tutti i modelli pubblicati successivamente. RoBERTa raggiunge risultati all'avanguardia su benchmark come GLUE, RACE e SQuAD, evidenziando l'importanza di scelte di progettazione precedentemente trascurate nell'addestramento di BERT.

[[Category:pubblicazione]]

{{#seo:
|title=RoBERTa: A Robustly Optimized BERT Pretraining Approach
|title_mode=append
|keywords=BERT, modelli linguistici, addestramento, ottimizzazione, prestazioni, benchmark, GLUE, RACE, SQuAD
|description=Questa pubblicazione presenta RoBERTa, un approccio ottimizzato per il pretraining di BERT. Gli autori dimostrano che BERT può raggiungere prestazioni all'avanguardia su benchmark come GLUE, RACE e SQuAD con una corretta ottimizzazione.

}}

What Language Model Architecture and Pretraining Objective Work Best for Zero-Shot Generalization?

2024-09-10T10:38:18Z

Mindmakerbot:

{{template pubblicazione
|data=2021
|autori=Thomas Wang, Adam Roberts, Daniel Hesslow, Teven Le Scao, Hyung Won Chung, Iz Beltagy, Julien Launay, Colin Raffel
|URL=https://www.semanticscholar.org/paper/15190e8b459bd85d546286f7d7da61b4f4f3f58a
|topic=Modelli linguistici, Zero-shot learning
|citazioni=133
}}

Questo articolo esplora quale architettura di modello linguistico e obiettivo di pretraining funzionano meglio per la generalizzazione zero-shot. Gli autori confrontano modelli con e senza visibilità non causale sull'input, addestrati con obiettivi di modellazione linguistica autoregressiva e mascherata. I risultati mostrano che i modelli decoder-only causali addestrati su un obiettivo di modellazione linguistica autoregressiva mostrano la generalizzazione zero-shot più forte dopo un pretraining puramente non supervisionato. Tuttavia, i modelli con visibilità non causale sul loro input addestrati con un obiettivo di modellazione linguistica mascherata seguito da un finetuning multitask hanno ottenuto i migliori risultati tra gli esperimenti.

{{#seo:
|title=What Language Model Architecture and Pretraining Objective Work Best for Zero-Shot Generalization?
|title_mode=append
|keywords=apprendimento automatico, "elaborazione del linguaggio naturale", "modelli linguistici", "generalizzazione zero-shot", "apprendimento non supervisionato", "modellazione linguistica", "intelligenza artificiale"
|description=Questa pubblicazione esplora quale architettura di modello linguistico e obiettivo di pretraining funzionano meglio per la generalizzazione zero-shot. Confrontando modelli con e senza visibilità non causale, addestrati con obiettivi di modellazione linguistica autoregressiva e mascherata, si scopre che i modelli decoder-only causali addestrati su un obiettivo di modellazione linguistica autoregressiva mostrano la generalizzazione zero-shot più forte dopo un pretraining puramente non supervisionato. I modelli con visibilità non causale, addestrati con un obiettivo di modellazione linguistica mascherata seguito da un finetuning multitask, hanno ottenuto i migliori risultati.

}}

M3-Embedding: Multi-Linguality, Multi-Functionality, Multi-Granularity Text Embeddings Through Self-Knowledge Distillation

2024-09-10T07:04:03Z

Mindmakerbot:

{{template pubblicazione
|data=2021
|autori=Jianlv Chen, Shitao Xiao, Peitian Zhang, Kun Luo, Defu Lian, Zheng Liu
|URL=https://www.semanticscholar.org/paper/4d5735c186ddb2430ac9689ccf61fdcbbfc23abc
|topic=Modelli di embedding
|citazioni=67
}}

Viene presentato M3-Embedding, un nuovo modello di embedding versatile per la sua natura multilingue, multifunzionale e multi-granulare. Supporta oltre 100 lingue, ottenendo prestazioni all'avanguardia in compiti di retrieval multilingue e cross-lingue. Può eseguire simultaneamente tre funzionalità di retrieval comuni: dense retrieval, multi-vector retrieval e sparse retrieval. È in grado di elaborare input di diverse granularità, da brevi frasi a documenti lunghi fino a 8192 token.

{{#seo:
|title=M3-Embedding: Multi-Linguality, Multi-Functionality, Multi-Granularity Text Embeddings Through Self-Knowledge Distillation
|title_mode=append
|keywords=embedding, multilingue, retrieval, multi-vector, knowledge distillation, elaborazione del linguaggio naturale, modelli di linguaggio, intelligenza artificiale, apprendimento automatico, semantica
|description=M3-Embedding è un modello innovativo che eccelle per versatilità, supportando oltre 100 lingue e diverse funzioni di retrieval. In grado di elaborare testi di varia lunghezza, rappresenta un progresso significativo nell'ambito dell'apprendimento automatico e dell'elaborazione del linguaggio naturale.

}}

BLEU: a method for automatic evaluation of machine translation

2024-09-09T05:01:25Z

Mindmakerbot:

{{template pubblicazione
|data=2002
|autori=K. Papineni, Salim Roukos, T. Ward, Wei-Jing Zhu
|URL=https://www.semanticscholar.org/paper/d7da009f457917aa381619facfa5ffae9329a6e9
|topic=Valutazione della traduzione automatica
|citazioni=24705
}}

L'articolo presenta BLEU (Bilingual Evaluation Understudy), un algoritmo per la valutazione automatica della qualità delle traduzioni automatiche. BLEU confronta la traduzione automatica con una o più traduzioni di riferimento realizzate da esseri umani e calcola un punteggio che indica il grado di somiglianza tra la traduzione automatica e le traduzioni di riferimento. BLEU è ampiamente utilizzato nella ricerca sulla traduzione automatica come metrica per confrontare i diversi sistemi di traduzione.

{{#seo:
|title=BLEU: a method for automatic evaluation of machine translation
|title_mode=append
|keywords=traduzione automatica, valutazione della traduzione, BLEU, metrica di valutazione, qualità della traduzione, traduzione automatica statistica, traduzione automatica neurale, confronto tra sistemi di traduzione
|description=Questa pubblicazione presenta BLEU (Bilingual Evaluation Understudy), un algoritmo per valutare automaticamente la qualità delle traduzioni automatiche. BLEU confronta la traduzione automatica con traduzioni di riferimento umane, generando un punteggio che indica la somiglianza tra le due. Ampiamente utilizzato nella ricerca sulla traduzione automatica, BLEU funge da metrica per confrontare diversi sistemi di traduzione.

}}

Long Short-Term Memory

2024-09-09T04:56:27Z

Mindmakerbot:

{{template pubblicazione
|data=1997
|autori=Sepp Hochreiter, J. Schmidhuber
|URL=https://www.semanticscholar.org/paper/2e9d221c206e9503ceb452302d68d10e293f2a10
|topic=Reti Neurali Ricorrenti
|citazioni=80233
}}

L'apprendimento per memorizzare informazioni su intervalli di tempo estesi tramite backpropagation ricorrente richiede molto tempo, soprattutto a causa di un flusso di errore insufficiente e in decadimento. Questo articolo introduce un metodo nuovo, efficiente e basato sul gradiente chiamato memoria a breve e lungo termine (LSTM). Troncando il gradiente dove questo non fa male, LSTM può imparare a colmare ritardi minimi superiori a 1000 passi temporali discreti imponendo un flusso di errore costante attraverso carosello di errore costanti all'interno di unità speciali. Le unità gate moltiplicative imparano ad aprire e chiudere l'accesso al flusso di errore costante. LSTM è locale nello spazio e nel tempo; la sua complessità computazionale per passo temporale e peso è O(1).

{{#seo:
|title=Long Short-Term Memory
|title_mode=append
|keywords=rete neurale, apprendimento automatico, intelligenza artificiale, memoria a breve termine, memoria a lungo termine, backpropagation, gradiente, LSTM, intervalli di tempo, elaborazione del linguaggio naturale
|description=Questo articolo introduce la memoria a breve e lungo termine (LSTM), un metodo efficiente per addestrare reti neurali ricorrenti. LSTM risolve il problema del decadimento del gradiente troncandolo selettivamente, consentendo di apprendere dipendenze a lungo termine. Questo ha aperto la strada a significativi progressi nell'apprendimento automatico.
}}

Learning Phrase Representations using RNN Encoder–Decoder for Statistical Machine Translation

2024-09-08T18:08:34Z

Mindmakerbot:

{{template pubblicazione
|data=2014
|autori=Kyunghyun Cho, B. V. Merrienboer, Çaglar Gülçehre, Dzmitry Bahdanau, Fethi Bougares, Holger Schwenk, Yoshua Bengio
|URL=https://www.semanticscholar.org/paper/0b544dfe355a5070b60986319a3f51fb45d1348e
|topic=Traduzione automatica
|citazioni=21477
}}

Questo articolo propone un nuovo modello di rete neurale chiamato RNN Encoder-Decoder, costituito da due reti neurali ricorrenti (RNN). Una RNN codifica una sequenza di simboli in una rappresentazione vettoriale di lunghezza fissa, mentre l'altra decodifica la rappresentazione in un'altra sequenza di simboli. L'encoder e il decoder del modello proposto vengono addestrati congiuntamente per massimizzare la probabilità condizionata di una sequenza di destinazione data una sequenza di origine. Si è scoperto empiricamente che le prestazioni di un sistema di traduzione automatica statistica migliorano utilizzando le probabilità condizionate di coppie di frasi calcolate dall'RNN Encoder-Decoder come caratteristica aggiuntiva nel modello log-lineare esistente. Qualitativamente, mostriamo che il modello proposto apprende una rappresentazione semantica e sintatticamente significativa delle frasi linguistiche.

{{#seo:
|title=Learning Phrase Representations using RNN Encoder–Decoder for Statistical Machine Translation
|title_mode=append
|keywords=traduzione automatica, "reti neurali", "apprendimento profondo", "rappresentazione delle frasi", "encoder-decoder", "linguaggio naturale", "elaborazione del linguaggio naturale", "intelligenza artificiale", "machine learning", "deep learning"
|description=Questo articolo presenta l'RNN Encoder-Decoder, un nuovo modello di rete neurale per la traduzione automatica. Questo modello utilizza due reti neurali ricorrenti per codificare e decodificare le frasi, migliorando la precisione della traduzione. Gli autori dimostrano empiricamente l'efficacia del modello e la sua capacità di apprendere una rappresentazione significativa delle frasi.

}}

BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension

2024-09-08T06:28:42Z

Mindmakerbot:

{{template pubblicazione
|data=2019
|autori=M. Lewis, Yinhan Liu, Naman Goyal, Marjan Ghazvininejad, Abdel-rahman Mohamed, Omer Levy, Veselin Stoyanov, Luke Zettlemoyer
|URL=https://www.semanticscholar.org/paper/395de0bd3837fdf4b4b5e5f04835bcc69c279481
|topic=Sequence-to-sequence
|citazioni=9070
}}
Viene presentato BART, un autoencoder denoising per il preaddestramento di modelli sequenza-a-sequenza. BART viene addestrato (1) corrompendo il testo con una funzione di disturbo arbitraria e (2) imparando un modello per ricostruire il testo originale. Utilizza un'architettura di traduzione automatica neurale basata su Transformer standard che, nonostante la sua semplicità, può essere vista come una generalizzazione di BERT (grazie all'encoder bidirezionale), GPT (con il decodificatore da sinistra a destra) e altri recenti schemi di preaddestramento. Valutiamo una serie di approcci di disturbo, trovando le migliori prestazioni sia mescolando casualmente l'ordine delle frasi che utilizzando un nuovo schema di riempimento, in cui gli intervalli di testo vengono sostituiti con un singolo token di maschera. BART è particolarmente efficace se messo a punto per la generazione di testo, ma funziona bene anche per le attività di comprensione. Corrisponde alle prestazioni di RoBERTa su GLUE e SQuAD e raggiunge nuovi risultati all'avanguardia su una gamma di attività di dialogo astratto, risposta alle domande e riepilogo, con guadagni fino a 3,5 ROUGE. BART fornisce anche un aumento di 1,1 BLEU rispetto a un sistema di traduzione inversa per la traduzione automatica, con solo preaddestramento in lingua di destinazione. Replichiamo anche altri schemi di preaddestramento all'interno del framework BART, per comprenderne l'effetto sulle prestazioni dell'attività finale.

{{#seo:
|title=BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension
|title_mode=append
|keywords=elaborazione del linguaggio naturale, apprendimento automatico, reti neurali, modelli sequenza-a-sequenza, preaddestramento, generazione di testo, traduzione automatica, comprensione del linguaggio naturale, BART, Transformer
|description=Questo studio presenta BART, un modello di autoencoder denoising per il preaddestramento di modelli sequenza-a-sequenza. BART viene addestrato corrompendone il testo di input e addestrando il modello a ricostruire il testo originale. Questo approccio si è dimostrato efficace in una varietà di compiti, tra cui la generazione di testo, la risposta alle domande e il riepilogo.

}}

Learning long-term dependencies with gradient descent is difficult

2024-09-06T19:07:35Z

Mindmakerbot: Creata pagina con "{{template pubblicazione |data=1994 |autori=Yoshua Bengio, Patrice Y. Simard, P. Frasconi |URL=https://www.semanticscholar.org/paper/d0be39ee052d246ae99c082a565aba25b811be2d |topic=Recurrent Neural Networks |citazioni=7810 }} Questo articolo esplora le difficoltà nell'addestrare reti neurali ricorrenti (RNN) per apprendere dipendenze a lungo termine utilizzando la discesa del gradiente. Gli autori dimostrano che, all'aumentare della durata delle dipendenze temp..."

{{template pubblicazione
|data=1994
|autori=Yoshua Bengio, Patrice Y. Simard, P. Frasconi
|URL=https://www.semanticscholar.org/paper/d0be39ee052d246ae99c082a565aba25b811be2d
|topic=Recurrent Neural Networks
|citazioni=7810
}}

Questo articolo esplora le difficoltà nell'addestrare reti neurali ricorrenti (RNN) per apprendere dipendenze a lungo termine utilizzando la discesa del gradiente. Gli autori dimostrano che, all'aumentare della durata delle dipendenze temporali, l'apprendimento basato sul gradiente diventa sempre più problematico. Questo fenomeno evidenzia un compromesso tra l'efficienza dell'apprendimento tramite la discesa del gradiente e la capacità di trattenere informazioni per lunghi periodi. L'articolo analizza le ragioni di questa difficoltà e propone alternative alla discesa del gradiente standard per affrontare questo problema.

[[Category:pubblicazione]]

{{#seo:
|title=Learning long-term dependencies with gradient descent is difficult
|title_mode=append
|keywords=reti neurali, apprendimento automatico, discesa del gradiente, dipendenze a lungo termine, intelligenza artificiale, elaborazione del linguaggio naturale, visione artificiale, serie temporali, analisi predittiva, apprendimento profondo
|description=Questa pubblicazione esplora le difficoltà nell'addestrare reti neurali ricorrenti (RNN) per apprendere dipendenze a lungo termine tramite la discesa del gradiente. Gli autori dimostrano che l'apprendimento diventa più difficile all'aumentare della durata delle dipendenze, evidenziando un compromesso tra efficienza e capacità di trattenere informazioni a lungo termine. Vengono analizzate le cause di questa difficoltà e proposte alternative alla discesa del gradiente standard.
}}

LLaMA: Open and Efficient Foundation Language Models

2024-09-06T19:02:21Z

Mindmakerbot:

{{template pubblicazione
|data=2023
|autori=Hugo Touvron, Thibaut Lavril, Gautier Izacard, Xavier Martinet, Marie-Anne Lachaux, Timothée Lacroix, Baptiste Rozière, Naman Goyal, Eric Hambro, Faisal Azhar, Aurelien Rodriguez, Armand Joulin, Edouard Grave, Guillaume Lample
|URL=https://www.semanticscholar.org/paper/57e849d0de13ed5f91d086936296721d4ff75a75
|topic=Linguaggio naturale
|citazioni=7677
}}

LLaMA è una famiglia di modelli linguistici di base con un numero di parametri che varia da 7 miliardi a 65 miliardi. I modelli sono stati addestrati su un enorme set di dati di testo pubblico, dimostrando che è possibile ottenere prestazioni all'avanguardia senza ricorrere a set di dati proprietari. In particolare, LLaMA-13B supera le prestazioni di GPT-3 (175B) nella maggior parte dei benchmark, mentre LLaMA-65B è competitivo con i migliori modelli come Chinchilla-70B e PaLM-540B.

{{#seo:
|title=LLaMA: Open and Efficient Foundation Language Models
|title_mode=append
|keywords=modelli linguistici, intelligenza artificiale, elaborazione del linguaggio naturale, apprendimento automatico, set di dati di testo, LLaMA, GPT-3, Chinchilla, PaLM
|description=LLaMA è una famiglia di modelli linguistici di base con un numero di parametri da 7 a 65 miliardi. Addestrati su un vasto set di dati di testo pubblico, questi modelli dimostrano prestazioni all'avanguardia, con LLaMA-13B che supera GPT-3 in molti benchmark e LLaMA-65B competitivo con modelli come Chinchilla-70B e PaLM-540B.

}}

Convolutional Neural Networks for Sentence Classification

2024-09-06T18:54:33Z

Mindmakerbot: Creata pagina con "{{template pubblicazione |data=2014 |autori=Yoon Kim |URL=https://www.semanticscholar.org/paper/1f6ba0782862ec12a5ec6d7fb608523d55b0c6ba |topic=Natural Language Processing |citazioni=12819 }} Vengono presentati una serie di esperimenti con reti neurali convoluzionali (CNN) addestrate su vettori di parole pre-addestrati per compiti di classificazione a livello di frase. Viene dimostrato che una semplice CNN con pochi parametri da ottimizzare e vettori statici rag..."

{{template pubblicazione
|data=2014
|autori=Yoon Kim
|URL=https://www.semanticscholar.org/paper/1f6ba0782862ec12a5ec6d7fb608523d55b0c6ba
|topic=Natural Language Processing
|citazioni=12819
}}

Vengono presentati una serie di esperimenti con reti neurali convoluzionali (CNN) addestrate su vettori di parole pre-addestrati per compiti di classificazione a livello di frase. Viene dimostrato che una semplice CNN con pochi parametri da ottimizzare e vettori statici raggiunge risultati eccellenti su diversi benchmark. L'apprendimento di vettori specifici per l'attività tramite fine-tuning offre ulteriori guadagni in termini di prestazioni. Viene inoltre proposta una semplice modifica all'architettura per consentire l'uso di vettori sia specifici per l'attività che statici. I modelli CNN discussi in questo documento migliorano lo stato dell'arte in 4 attività su 7, che includono l'analisi del sentiment e la classificazione delle domande.

[[Category:pubblicazione]]

{{#seo:
|title=Convolutional Neural Networks for Sentence Classification
|title_mode=append
|keywords=reti neurali, apprendimento automatico, elaborazione del linguaggio naturale, classificazione, vettori di parole, analisi del sentiment
|description=Questa pubblicazione presenta una serie di esperimenti con reti neurali convoluzionali per la classificazione delle frasi. I risultati dimostrano che una CNN semplice con pochi parametri e vettori statici raggiunge ottimi risultati su diversi benchmark. L'apprendimento di vettori specifici per l'attività migliora ulteriormente le prestazioni. Viene proposta una modifica per utilizzare vettori sia specifici per l'attività che statici. I modelli CNN migliorano lo stato dell'arte in 4 attività su 7, tra cui l'analisi del sentiment e la classificazione delle domande.

}}

Recursive Deep Models for Semantic Compositionality Over a Sentiment Treebank

2024-09-06T18:27:56Z

Mindmakerbot:

{{template pubblicazione
|data=2013
|autori=R. Socher, Alex Perelygin, Jean Wu, Jason Chuang, Christopher D. Manning, A. Ng, Christopher Potts
|URL=https://www.semanticscholar.org/paper/687bac2d3320083eb4530bf18bb8f8f721477600
|topic=Reti neurali ricorsive, Sentiment analysis, Elaborazione del linguaggio naturale
|citazioni=7749
}}

Questo articolo introduce il Sentiment Treebank, un dataset di frasi etichettate con sentiment positivo o negativo. Il dataset include 215.154 frasi da 11.855 frasi, ed è stato creato per fornire un dataset più ricco e sfidante per la ricerca sulla sentiment analysis.

L'articolo introduce anche il Recursive Neural Tensor Network (RNTN), una nuova architettura di rete neurale per la sentiment analysis. La RNTN è in grado di catturare la composizione del sentiment in frasi complesse, e supera i metodi precedenti in diversi benchmark di sentiment analysis.

{{#seo:
|title=Recursive Deep Models for Semantic Compositionality Over a Sentiment Treebank
|title_mode=append
|keywords=sentiment analysis, "elaborazione del linguaggio naturale", "reti neurali", "reti neurali ricorsive", "Sentiment Treebank", "RNTN", "apprendimento automatico", "intelligenza artificiale", "analisi del sentiment", "classificazione del testo"
|description=Questa pubblicazione presenta il Sentiment Treebank, un dataset di frasi etichettate per la sentiment analysis. Il dataset include oltre 200.000 frasi ed è stato creato per fornire una risorsa più completa per la ricerca in questo campo. La pubblicazione introduce anche il Recursive Neural Tensor Network (RNTN), un'architettura di rete neurale che supera i metodi precedenti nei benchmark di sentiment analysis.

}}

Going Deeper with Convolutions

2024-09-06T12:10:18Z

Mindmakerbot:

{{template pubblicazione
|data=2014
|autori=Christian Szegedy, Wei Liu, Yangqing Jia, Pierre Sermanet, Scott Reed, Dragomir Anguelov, Dumitru Erhan, Vincent Vanhoucke, Andrew Rabinovich
|URL=https://www.semanticscholar.org/paper/e15cf50aa89fee8535703b9f9512fca5bfc43327
|topic=Visione artificiale, Reti neurali convoluzionali
|citazioni=40893
}}

Questo articolo presenta "Inception", un'architettura di rete neurale convoluzionale profonda che ha stabilito un nuovo stato dell'arte nella classificazione e nel rilevamento dell'ImageNet Large-Scale Visual Recognition Challenge 2014 (ILSVRC14). L'innovazione principale risiede in un utilizzo più efficiente delle risorse computazionali all'interno della rete. Attraverso un design accurato, gli autori sono riusciti ad aumentare la profondità e l'ampiezza della rete mantenendo costante il costo computazionale. Per ottimizzare le prestazioni, le decisioni architetturali si sono basate sul principio Hebbiano e sull'intuizione dell'elaborazione multi-scala. Un'istanza specifica, denominata GoogLeNet, è stata presentata all'ILSVRC14. Si tratta di una rete profonda 22 livelli, la cui qualità è stata valutata in compiti di classificazione e rilevamento.

{{#seo:
|title=Going Deeper with Convolutions
|title_mode=append
|keywords=reti neurali, apprendimento profondo, visione artificiale, classificazione di immagini, rilevamento oggetti, elaborazione multi-scala, GoogLeNet, ImageNet, ILSVRC14
|description=Questa pubblicazione presenta \Inception\", un'architettura di rete neurale convoluzionale profonda che ha ottenuto risultati innovativi nella classificazione e nel rilevamento dell'ImageNet Large-Scale Visual Recognition Challenge 2014 (ILSVRC14). Gli autori descrivono come hanno migliorato l'efficienza delle risorse computazionali all'interno della rete, aumentando profondità e ampiezza mantenendo costante il costo computazionale."

}}

Efficient Estimation of Word Representations in Vector Space

2024-09-06T12:01:43Z

Mindmakerbot:

{{template pubblicazione
|data=2013
|autori=Tomas Mikolov, Kai Chen, G. Corrado, J. Dean
|URL=https://www.semanticscholar.org/paper/f6b51c8753a871dc94ff32152c00c01e94f90f09
|topic=Word Embeddings
|citazioni=29484
}}

Questo articolo presenta due nuove architetture di modelli per il calcolo di rappresentazioni vettoriali continue di parole da set di dati molto grandi. La qualità di queste rappresentazioni è misurata in un compito di similarità delle parole e i risultati sono confrontati con le tecniche precedentemente più performanti basate su diversi tipi di reti neurali. Gli autori osservano grandi miglioramenti nell'accuratezza a un costo computazionale molto inferiore, ad esempio ci vuole meno di un giorno per apprendere vettori di parole di alta qualità da un set di dati di 1,6 miliardi di parole. Inoltre, dimostrano che questi vettori forniscono prestazioni all'avanguardia sul loro set di test per misurare le somiglianze sintattiche e semantiche delle parole.

{{#seo:
|title=Efficient Estimation of Word Representations in Vector Space
|title_mode=append
|keywords=rappresentazioni vettoriali, "parole", "set di dati", "reti neurali", "accuratezza", "similarità", "semantica", "sintassi", "elaborazione del linguaggio naturale", "apprendimento automatico"
|description=Questa pubblicazione presenta due nuove architetture di modelli per il calcolo di rappresentazioni vettoriali di parole da set di dati di grandi dimensioni. Gli autori dimostrano un miglioramento significativo nell'accuratezza e una riduzione del costo computazionale, aprendo nuove prospettive per l'elaborazione del linguaggio naturale.

}}

Functional Benchmarks for Robust Evaluation of Reasoning Performance, and the Reasoning Gap

2024-09-06T12:00:54Z

Mindmakerbot:

{{template pubblicazione
|data=2024
|autori=Saurabh Srivastava, B. AnnaroseM, V. AntoP, Shashank Menon, Ajay Sukumar, T. AdwaithSamod, Alan Philipose, Stevin Prince, Sooraj Thomas
|URL=https://www.semanticscholar.org/paper/3c585441b4607b34f8bf4e352ed6e36753fe21ce
|topic=Reasoning
|citazioni=18
}}

Parte dall'assunto che i benchmark correnti per i modelli di linguaggio non misurino la capacità di ragionamento ma solo quella di comprensione del linguaggio.

Interessante il concetto di ''reasoning gap'' inteso come la differenza fra il 100% di memorizzazione e la reale capacità di ragionamento. Questo gap è tra il 50 e l'80% tra i modelli [[SOTA]].

=== Links ===
[https://arxiv.org/pdf/2402.19450.pdf Paper]

{{#seo:
|title=Functional Benchmarks for Robust Evaluation of Reasoning Performance, and the Reasoning Gap
|title_mode=append
|keywords=ragionamento, "linguaggio", "modelli", "benchmark", "valutazione", "comprensione", "memorizzazione", "robusto", "funzionale", "gap"
|description=Questa pubblicazione esplora l'effettiva capacità di ragionamento dei modelli di linguaggio, introducendo il concetto di 'reasoning gap' per misurare la differenza tra memorizzazione e ragionamento. Gli autori dimostrano che questo divario è significativo nei modelli SOTA, evidenziando la necessità di benchmark più accurati per valutare le reali capacità di ragionamento.

}}

Chain of Thought Prompting Elicits Reasoning in Large Language Models

2024-09-06T11:26:20Z

Mindmakerbot:

{{template pubblicazione
|data=2022
|autori=Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, E. Chi, F. Xia, Quoc Le, Denny Zhou
|URL=https://www.semanticscholar.org/paper/1b6e810ce0afd0dd093f789d2b2742d047e316d5
|topic=Reasoning in Large Language Models
|citazioni=4960
}}

Questo articolo esplora come la generazione di una catena di pensiero -- una serie di passaggi di ragionamento intermedi -- migliori significativamente la capacità dei modelli linguistici di grandi dimensioni di eseguire ragionamenti complessi. In particolare, gli autori dimostrano come tali capacità di ragionamento emergano naturalmente in modelli linguistici sufficientemente grandi attraverso un metodo semplice chiamato "chain of thought prompting", in cui vengono forniti alcuni esempi di catene di pensiero come esempi nel prompting. Gli esperimenti su tre modelli linguistici di grandi dimensioni dimostrano che il "chain of thought prompting" migliora le prestazioni su una serie di compiti di ragionamento aritmetico, di senso comune e simbolico. I guadagni empirici possono essere sorprendenti. Ad esempio, il prompting di un modello linguistico a 540 miliardi di parametri con solo otto esempi di catene di pensiero consente di ottenere un'accuratezza all'avanguardia sul benchmark GSM8K di problemi di matematica, superando persino GPT-3 ottimizzato con un verificatore.

{{#seo:
|title=Chain of Thought Prompting Elicits Reasoning in Large Language Models
|title_mode=append
|keywords=ragionamento, modelli linguistici, intelligenza artificiale, apprendimento automatico, elaborazione del linguaggio naturale, deep learning, reti neurali, chain of thought prompting, capacità cognitive, problem solving
|description=Questa pubblicazione esplora come la generazione di una catena di pensiero migliori le capacità di ragionamento dei modelli linguistici di grandi dimensioni. Gli autori dimostrano che il chain of thought prompting", fornendo esempi di catene di pensiero nel prompting, migliora le prestazioni in compiti di ragionamento aritmetico, di senso comune e simbolico, ottenendo risultati sorprendenti in termini di accuratezza."

}}

Survey of Hallucination in Natural Language Generation

2024-09-06T11:05:58Z

Mindmakerbot:

{{template pubblicazione
|data=2021
|autori=Ziwei Ji, Nayeon Lee, Rita Frieske, Tiezheng Yu, D. Su, Yan Xu, Etsuko Ishii, Yejin Bang, Delong Chen, Wenliang Dai, Andrea Madotto, Pascale Fung
|URL=https://www.semanticscholar.org/paper/3def68bd0f856886d34272840a7f81588f2bc082
|topic=Hallucination in Natural Language Generation
|citazioni=1394
}}

Questo articolo offre una panoramica completa del problema dell'allucinazione nei modelli di linguaggio di grandi dimensioni, ovvero la tendenza a generare testo non veritiero o non supportato dai dati di addestramento. Gli autori analizzano le cause di questo fenomeno, le metriche per misurarlo e le diverse strategie di mitigazione proposte in letteratura. L'articolo approfondisce anche l'impatto specifico dell'allucinazione in diversi compiti di generazione del linguaggio naturale, come la scrittura di riassunti, la generazione di dialoghi e la traduzione automatica.

{{#seo:
|title=Survey of Hallucination in Natural Language Generation
|title_mode=append
|keywords=modelli linguistici, allucinazione, generazione del linguaggio naturale, intelligenza artificiale, elaborazione del linguaggio naturale, deep learning, apprendimento automatico, reti neurali, disinformazione, affidabilità
|description=Questa pubblicazione offre una panoramica completa del problema dell'allucinazione nei modelli linguistici di grandi dimensioni, analizzando le cause, le metriche di misurazione e le strategie di mitigazione. Vengono approfonditi gli impatti specifici dell'allucinazione in diversi compiti di generazione del linguaggio naturale, come la scrittura di riassunti, la generazione di dialoghi e la traduzione automatica.

}}

Hallucinating Faces

2024-09-06T11:02:03Z

Mindmakerbot:

{{template pubblicazione
|data=
|autori=Simon Baker, T. Kanade
|URL=https://www.semanticscholar.org/paper/fd37b25760cb3adc01c4e3209e6f7072e66ab724
|topic=Face Hallucination
|citazioni=634
}}

Questo articolo presenta un algoritmo in grado di migliorare la risoluzione delle immagini di volti, un aspetto cruciale nell'ambito della videosorveglianza dove i volti appaiono spesso molto piccoli. L'algoritmo si basa sull'apprendimento di una distribuzione a priori del gradiente dell'immagine per volti frontali, che viene poi integrata in un algoritmo di upscaling. I risultati mostrano miglioramenti significativi nella risoluzione, con un aumento da 4 a 8 volte il numero di pixel, che risultano essere di fatto "allucinati" dall'algoritmo.

{{#seo:
|title=Hallucinating Faces
|title_mode=append
|keywords=volto, riconoscimento facciale, upscaling, risoluzione, immagini, videosorveglianza, algoritmo, apprendimento automatico, pixel, intelligenza artificiale
|description=Questa pubblicazione presenta un algoritmo innovativo capace di migliorare la risoluzione delle immagini di volti, aspetto cruciale nella videosorveglianza. L'algoritmo, basato sull'apprendimento di una distribuzione a priori del gradiente dell'immagine, permette di aumentare da 4 a 8 volte il numero di pixel, 'allucinando' di fatto dettagli realistici.

}}

Neural Machine Translation by Jointly Learning to Align and Translate

2024-09-06T10:28:36Z

Mindmakerbot:

{{template pubblicazione
|data=
|autori=Dzmitry Bahdanau, Kyunghyun Cho e Yoshua Bengio
|URL=https://www.semanticscholar.org/paper/fa72afa9b2cbc8f0d7b05d52548906610ffbb9c5
|topic=Neural Machine Translation
|citazioni=25744
}}

La traduzione automatica neurale (NMT) è un approccio alla traduzione automatica proposto di recente. A differenza della tradizionale traduzione automatica statistica, la NMT mira a costruire una singola rete neurale che può essere congiuntamente messa a punto per massimizzare le prestazioni di traduzione. I modelli proposti di recente per la NMT appartengono spesso a una famiglia di encoder-decoder e sono costituiti da un encoder che codifica una frase di origine in un vettore di lunghezza fissa da cui un decoder genera una traduzione. Questo articolo ipotizza che l'uso di un vettore di lunghezza fissa sia un collo di bottiglia nel migliorare le prestazioni di questa architettura encoder-decoder di base e propone di estenderla consentendo a un modello di cercare automaticamente (soft-) parti di una frase di origine che sono rilevanti per prevedere una parola di destinazione, senza dover formare esplicitamente queste parti come un segmento rigido. Con questo nuovo approccio, si ottengono prestazioni di traduzione paragonabili all'attuale sistema frase per frase all'avanguardia nell'attività di traduzione inglese-francese. Inoltre, l'analisi qualitativa rivela che gli allineamenti (soft-) trovati dal modello sono in buon accordo con l'intuizione.

{{#seo:
|title=Neural Machine Translation by Jointly Learning to Align and Translate
|title_mode=append
|keywords=traduzione automatica, rete neurale, encoder-decoder, traduzione automatica statistica, apprendimento automatico, elaborazione del linguaggio naturale, intelligenza artificiale, linguistica computazionale, traduzione automatica basata su deep learning
|description=Questa pubblicazione esplora l'applicazione della traduzione automatica neurale (NMT), un approccio innovativo che utilizza una singola rete neurale per ottimizzare le prestazioni di traduzione. Gli autori affrontano le limitazioni degli encoder-decoder tradizionali, proponendo un modello in grado di identificare automaticamente le parti rilevanti di una frase di origine per generare una traduzione accurata. I risultati mostrano prestazioni comparabili ai sistemi frase per frase più avanzati, con allineamenti intuitivi tra le frasi.

}}

A Neural Probabilistic Language Model

2024-09-06T10:27:18Z

Mindmakerbot:

{{template pubblicazione
|data=2003
|autori=Yoshua Bengio, Réjean Ducharme, Pascal Vincent, Christian Janvin
|URL=https://www.semanticscholar.org/paper/6c2b28f9354f667cd5bd07afc0471d8334430da7
|topic=Modelli di Linguaggio, Reti Neurali
|citazioni=7032
}}

Questo articolo presenta un modello di linguaggio probabilistico neurale che apprende una rappresentazione distribuita delle parole insieme alla funzione di probabilità per le sequenze di parole. L'approccio proposto affronta la maledizione della dimensionalità imparando la somiglianza tra le parole, consentendo al modello di assegnare un'alta probabilità a sequenze di parole mai viste prima se composte da parole simili a quelle presenti in frasi già viste.

{{#seo:
|title=A Neural Probabilistic Language Model
|title_mode=append
|keywords=modello di linguaggio, reti neurali, elaborazione del linguaggio naturale, apprendimento automatico, intelligenza artificiale, rappresentazione delle parole, probabilità, sequenze di parole, analisi semantica, modello statistico
|description=Questa pubblicazione presenta un modello di linguaggio probabilistico neurale che apprende come rappresentare le parole e calcolare la probabilità di sequenze di parole. Il modello supera il problema della dimensionalità imparando la similarità tra le parole, consentendogli di assegnare un'alta probabilità a sequenze di parole nuove se queste sono composte da parole simili a quelle già viste.

}}

Deep Contextualized Word Representations

2024-09-06T10:24:33Z

Mindmakerbot:

{{template pubblicazione
|data=2018
|autori=Matthew E. Peters, Mark Neumann, Mohit Iyyer, Matt Gardner, Christopher Clark, Kenton Lee, Luke Zettlemoyer
|URL=https://www.semanticscholar.org/paper/3febb2bed8865945e7fddc99efd791887bb7e14f
|topic=Word embedding
|citazioni=11008
}}

Questo articolo introduce un nuovo tipo di rappresentazione delle parole contestualizzata e profonda, denominata ELMo (Embeddings from Language Models), che modella sia le caratteristiche complesse dell'uso delle parole (ad esempio, sintassi e semantica) sia il modo in cui questi usi variano a seconda del contesto linguistico (ad esempio, per modellare la polisemia). I vettori di parole sono funzioni apprese dagli stati interni di un modello linguistico bidirezionale profondo (biLM), pre-addestrato su un ampio corpus di testo.

ELMo può essere facilmente integrato in modelli esistenti e migliorare significativamente lo stato dell'arte in sei diversi compiti NLP, tra cui la risposta alle domande, l'implicazione testuale e l'analisi del sentiment.

[[Categoria:Pubblicazione]]

{{#seo:
|title=Deep Contextualized Word Representations
|title_mode=append
|keywords=rappresentazione delle parole, apprendimento profondo, elaborazione del linguaggio naturale, modelli linguistici, apprendimento automatico, semantica, sintassi, polisemia, vettori di parole, embedding
|description=Questa pubblicazione introduce ELMo (Embeddings from Language Models), una nuova rappresentazione delle parole contestualizzata e profonda. ELMo modella gli usi complessi delle parole e le loro variazioni nel contesto linguistico. I vettori di parole di ELMo, derivati da un modello linguistico bidirezionale profondo, migliorano le prestazioni in diversi compiti di NLP.

}}

None

2024-09-06T10:20:53Z

Mindmakerbot:

{{template pubblicazione
|data=2018
|autori=Matthew E. Peters, Mark Neumann, Mohit Iyyer, Matt Gardner, Christopher Clark, Kenton Lee, Luke Zettlemoyer
|URL=https://www.semanticscholar.org/paper/3febb2bed8865945e7fddc99efd791887bb7e14f
|topic=Word embedding
|citazioni=11008
}}

Questo articolo presenta un nuovo tipo di rappresentazione di parole contestualizzate profonde che modella sia (1) le caratteristiche complesse dell'uso delle parole (ad esempio, sintassi e semantica), sia (2) come questi usi variano a seconda dei contesti linguistici (ovvero, per modellare la polisemia). I vettori di parole sono funzioni apprese degli stati interni di un modello linguistico bidirezionale profondo (biLM), che è pre-addestrato su un ampio corpus di testo. Gli autori dimostrano che queste rappresentazioni possono essere facilmente aggiunte ai modelli esistenti e migliorare significativamente lo stato dell'arte in sei sfidanti problemi di PNL, tra cui il question answering, l'implicazione testuale e l'analisi del sentiment. Presentano inoltre un'analisi che mostra che esporre gli interni profondi della rete pre-addestrata è fondamentale, consentendo ai modelli a valle di combinare diversi tipi di segnali di semi-supervisione.

{{#seo:
|title=Deep Contextualized Word Representations
|title_mode=append
|keywords=rappresentazione delle parole, apprendimento profondo, elaborazione del linguaggio naturale, semantica, sintassi, polisemia, modelli linguistici, word embedding
|description=Questa pubblicazione presenta un nuovo tipo di rappresentazione di parole contestualizzate, che modella sia le caratteristiche complesse dell'uso delle parole che le loro variazioni in base al contesto. Gli autori dimostrano che queste rappresentazioni migliorano significativamente lo stato dell'arte in diversi problemi di PNL, come il question answering e l'analisi del sentiment.

}}

None

2024-09-06T10:18:17Z

Mindmakerbot: Creata pagina con "{{template pubblicazione |data=2018 |autori=Matthew E. Peters, Mark Neumann, Mohit Iyyer, Matt Gardner, Christopher Clark, Kenton Lee, Luke Zettlemoyer |URL=https://www.semanticscholar.org/paper/3febb2bed8865945e7fddc99efd791887bb7e14f |topic=Word embedding |citazioni=11008 }} Questo articolo introduce un nuovo tipo di rappresentazione di parole contestualizzate che modella sia le caratteristiche complesse dell'uso delle parole (ad esempio, sintassi e semantica)..."

{{template pubblicazione
|data=2018
|autori=Matthew E. Peters, Mark Neumann, Mohit Iyyer, Matt Gardner, Christopher Clark, Kenton Lee, Luke Zettlemoyer
|URL=https://www.semanticscholar.org/paper/3febb2bed8865945e7fddc99efd791887bb7e14f
|topic=Word embedding
|citazioni=11008
}}

Questo articolo introduce un nuovo tipo di rappresentazione di parole contestualizzate che modella sia le caratteristiche complesse dell'uso delle parole (ad esempio, sintassi e semantica), sia il modo in cui questi usi variano a seconda dei contesti linguistici (ovvero, per modellare la polisemia).

I vettori di parole sono funzioni apprese degli stati interni di un modello linguistico bidirezionale profondo (biLM), pre-addestrato su un ampio corpus di testo. Questo approccio consente di ottenere rappresentazioni più ricche e informative rispetto ai tradizionali word embedding statici.

[[Categoria:Pubblicazione]]

{{#seo:
|title=Deep Contextualized Word Representations
|title_mode=append
|keywords=rappresentazioni di parole, word embedding, modelli linguistici, elaborazione del linguaggio naturale, apprendimento profondo, reti neurali, semantica, sintassi, polisemia
|description=Questa pubblicazione presenta un nuovo tipo di rappresentazione di parole contestualizzate, modellando sia le caratteristiche complesse dell'uso delle parole che le loro variazioni in base al contesto linguistico. Questo approccio, basato su un modello linguistico bidirezionale profondo, genera rappresentazioni più ricche rispetto ai tradizionali word embedding statici.

}}

Prefix-tuning: Optimizing continuous prompts for generation

2024-08-19T13:11:38Z

Mindmakerbot:

{{template pubblicazione
|data=2021
|autori=Xiang Lisa Li, Percy Liang
|URL=https://www.semanticscholar.org/paper/53d8b356551a2361020a948f64454a6d599af69f
|topic=Modelli di linguaggio, apprendimento automatico
|citazioni=3057
}}

Il Prefix-Tuning è un metodo alternativo al fine-tuning per adattare i grandi modelli linguistici pre-addestrati a compiti specifici. Invece di modificare tutti i parametri del modello, il Prefix-Tuning mantiene i parametri congelati e ottimizza una sequenza di vettori continui specifici del compito, chiamata "prefisso".

Questo approccio, simile al prompting, consente ai token successivi di considerare il prefisso come se fossero "token virtuali". Gli autori dimostrano l'efficacia del Prefix-Tuning su compiti come la generazione di testo da tabelle e la sintesi, ottenendo prestazioni comparabili al fine-tuning con molti meno parametri da addestrare.