Pagina principale: differenze tra le versioni

Versione delle 11:58, 6 set 2024

"I want to understand the big questions, the really big ones that you normally go into philosophy or physics if you’re interested in. I thought building AI would be the fastest route to answer some of those questions" - Demis Hassabis

Benvenuti nella Wiki di mindmaker.it, dove i concetti complessi diventano accessibili in una wiki semantica e basata su di un ontologia strutturata.

Aiuto

Linee Guida della Wiki

Guida utente: Una risorsa completa per i nuovi utenti di MediaWiki.
Aiuto:Categorie_di_Wiki_AI_Lab: Guida alle categorie specifiche del Wiki AI Lab.
Aiuto:Utilizzo_API: Utilizzo dell'API.
S peciale:TutteLePagine
S peciale:PagineSpeciali
Ontologia della Wiki
Semantic Search
Contatti

Introduzione all'Intelligenza Artificiale Moderna

Appunti per la parte di Intelligenza Artificiale del corso per l'A.A. 2024/25.


Capitolo	Titolo
1	GPT e la Nuova Generazione di Modelli AI
2	Obiettivi, Addestramento e Valutazione dei Modelli di Linguaggio

Architetture

Le Architetture sono configurazioni strutturali, schemi e metodi utilizzati per costruire modelli di intelligenza artificiale.

	NomeInglese	Sigla	AnnoDiCreazione
Autoencoder	Autoencoder		1993
BART	Bidirectional and Auto-Regressive Transformers	BART	29 ottobre 2019
Contrastive Language-Image Pretraining (CLIP)	Contrastive Language-Image Pretraining	CLIP	2021
ControlNet	ControlNet	ControlNet	febbraio 2023
Detection Transformer	Detection Transformer	DeTr	2020
Extended Long Short-Term Memory	Extended Long Short-Term Memory	xLSTM	2024
Long Short-Term Memory (LSTM)	Long Short-Term Memory	LSTM	1997
Macchine di Boltzmann Restrittive (RBM)	Restricted Boltzmann Machine	RBM	1986
MiDaS	Multi-scale Deep Stereo	MiDaS	2019
Mixture of Experts
Modello di Diffusione Latente (LDM)	Latent Diffusion Model	LDM	2021
Modello linguistico di grandi dimensioni per il linguaggio parlato
Rete Generativa Avversaria	Generative Adversarial Network	GAN	2014
Rete Neurale Artificiale (ANN)	Artificial Neural Network	ANN	1957
Rete Neurale Feed-Forward (FNN)	Feed-Forward Neural Network	FNN	1958
Rete Neurale Residua (ResNet)	Residual Neural Network	ResNet	2015
Rete Neurale Ricorrente (RNN)	Recurrent Neural Networks	RNN	1990
Reti Neurali Convoluzionali (CNN)	Convolutional Neural Networks	CNN	1995
Sequence to Sequence (seq2seq)	Sequence to Sequence Model	seq2seq	2014
Transformer (Architettura di Deep Learning)	Transformer		2017
Vision Transformer (ViT)	Vision Transformer	ViT	2021

Modelli

I Modelli sono implementazioni specifiche delle Architetture di IntelligenzaAartificiale, proprietarie o open source.

	Sigla	AnnoDiCreazione	VersioneCorrente
AlexNet		2012
Alpaca	Alpaca	2023
AlphaFold
BERT	BERT	2018
Biaxial LSTM (DeepJ - musica)	Biaxial LSTM
ConceptNet
Contriever
DeepDream		18 giugno 2015
GLoVe	GLoVe	2014	GLoVe v.1.2 (2015)
Generative Pretrained Transformer (GPT)	GPT	2018	GPT-4o (2024)
GoogLeNet
Gorilla OpenFunctions		2023
InstructGPT	InstructGPT	27 gennaio 2022
InstructPix2Pix: Learning to Follow Image Editing Instructions		2023
LeNet		1995	LeNet-5
Llama	LLaMA	2021	3.0
Mistral	Mistral	2023
NETtalk		1993
O1
OpenAI o1
PaLM	PaLM	2022	PaLM 2 (2023)
SPLADE
Stable Diffusion		2022	SD3 (2023)
StyleGAN	StyleGAN	2019	StyleGAN 3 (2021)
VGG16 (ConvNet)	VGG16	2014
XLM-RoBERTa	XLM-RoBERTa	2020
Zero 1-to-3		2023

Benchmark

Un benchmark, nel contesto dell'IA, è tipicamente un test o un insieme di test progettati per valutare le prestazioni di un modello o di un algoritmo di intelligenza artificiale in compiti specifici. Questo spesso include l'uso di uno o più dataset standardizzati su cui diversi modelli possono essere addestrati e valutati, ma va oltre alla mera disponibilità di dati. Il concetto di benchmark incorpora anche metriche di valutazione specifiche, criteri e, a volte, l'ambiente software/hardware per garantire che le prestazioni possano essere confrontate equamente tra differenti approcci. Mentre un dataset può essere utilizzato come parte di un benchmark, quest'ultimo è un concetto più ampio che include non solo i dati, ma anche le procedure e le metriche per la valutazione delle prestazioni.

	Nome	Sigla	AnnoDiCreazione
An Evaluation Dataset for Intent Classification and Out-of-Scope Prediction (CLINC150)	An Evaluation Dataset for Intent Classification and Out-of-Scope Prediction	CLINC150	2019
BABILong	BABILong		2024
Bilingual Evaluation Understudy (BLEU)	BiLingual Evaluation Understudy	BLEU	2002
BoolQ	Boolean Questions	BoolQ	2019
Cross-lingual Transfer Evaluation of Multilingual Encoders (XTREME)	Cross-lingual Transfer Evaluation of Multilingual Encoders	XTREME	2020
Discrete Reasoning Over Paragraphs (DROP)	DROP	DROP	2019
DocRED: A Large-Scale Document-Level Relation Extraction Dataset	A Large-Scale Document-Level Relation Extraction Dataset	DocRED	2019
GSM8K	Grade School Math 8K	GSM8K	2022
General Language Understanding Evaluation (GLUE)	General Language Understanding Evaluation	GLUE	2018
HMDB: a large human motion database	A large human motion database	HMDB	2011
HellaSwag	HellaSwag	HellaSwag	2019
HumanEval	HumanEval		2021
ImageNet Large Scale Visual Recognition Challenge	ImageNet Large Scale Visual Recognition Challenge	ILSVRC	2012
LAION-5B	Large-scale Artificial Intelligence Open Network-5 Billion	LAION-5B	2021
LongAlign	LongAlign		2024
MATH	MATH		2021
MBPP	Mostly Basic Programming Problems	MBPP	2021
MMLU	Massive Multitask Language Understanding	MMLU	2021
MS COCO	Microsoft Common Objects in Context	MS COCO	2014
Microsoft Machine Reading Comprehension (MS MARCO)
Mind2Web	Mind2Web	Mind2Web	2023
NaturalQuestions	NaturalQuestions		2019
QuAC	Question Answering in Context	QuAC	2018
SQuAD	Stanford Question Answering Dataset	SQuAD	2018
Schema di Winograd
Semantic Textual Similarity (STS)	Semantic Textual Similarity	STS	2012
UCF101 - Action Recognition Data Set	Action Recognition Data Set	UCF101	2013
WinoGrande	WinoGrande		2019

Pubblicazioni

Le Pubblicazioni includono articoli, libri, paper di conferenze legati all'IA.

	Autori	Data"Data <span style="font-size:small;">(Date)</span>" è un tipo e una proprietà predefinita fornita da Semantic MediaWiki per rappresentare valori di date.	Citazioni
A Comprehensive Overview of Large Language Models		2024
A Few Brief Notes on DeepImpact, COIL, and a Conceptual Framework for Information Retrieval Techniques
A Focused Backpropagation Algorithm for Temporal Pattern Recognition	Yves Chauvin D. Rumelhart	1989	570
A Large-Scale Document-Level Relation Extraction Dataset	Yuan Yao Deming Ye Peng Li Xu Han Yankai Lin Zhenghao Liu Zhiyuan Liu Lixin Huang Jie Zhou Maosong Sun	2019	377
A Neural Algorithm of Artistic Style (2015)	Leon A. Gatys Alexander S. Ecker M. Bethge	2015	4,685
A Neural Probabilistic Language Model	Yoshua Bengio Réjean Ducharme Pascal Vincent Christian Janvin	2003	7,032
A Theory for Emergence of Complex Skills in Language Models (2023)	Sanjeev Arora Anirudh Goyal	29 luglio 2023	43
Alice in Wonderland: Simple Tasks Showing Complete Reasoning Breakdown in State-Of-the-Art Large Language Models	Marianna Nezhurina Lucia Cipolina-Kun Mehdi Cherti J. Jitsev	2024	5
An algorithm for suffix stripping	M. Porter	1973	9,554
Are Large Language Models Geospatially Knowledgeable?	Prabin Bhandari Antonios Anastasopoulos D. Pfoser	2024	18
Are Sixteen Heads Really Better than One?
Are We Done with MMLU?	Aryo Pradipta Gema Joshua Ong Jun Leang Giwon Hong Alessio Devoto Alberto Carlo Maria Mancino Rohit Saxena Xuanli He Yu Zhao Xiaotang Du Mohammad Reza Ghasemi Madani Claire Barale R. McHardy Joshua Harris Jean Kaddour Emile van Krieken Pasquale Minervini	2023	3
Assisting in Writing Wikipedia-like Articles From Scratch with Large Language Models	Yijia Shao Yucheng Jiang Theodore A. Kanell Peter Xu Omar Khattab Monica S. Lam	2024	13
Attention Is All You Need (2017)	Ashish Vaswani Niki Parmar Jakob Uszkoreit Llion Jones Aidan N. Gomez Illia Polosukhin Noam M. Shazeer Lukasz Kaiser	2017	100,986
Automatic Stylistic Composition of Bach Chorales With Deep LSTM (2017)	Feynman T. Liang Mark Gotham Matthew Johnson J. Shotton	2016	82
BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension	Luke Zettlemoyer Naman Goyal M. Lewis Yinhan Liu Marjan Ghazvininejad Abdel-rahman Mohamed Omer Levy Veselin Stoyanov	2019	9,070
BEIR: A Heterogenous Benchmark for Zero-shot Evaluation of Information Retrieval Models
BERT Rediscovers the Classical NLP Pipeline
BERT for Classification: Beyond the Next Sentence Prediction Task
BLEU: a method for automatic evaluation of machine translation	K. Papineni Salim Roukos T. Ward Wei-Jing Zhu	2002	24,705
COIL: Revisit exact lexical match in information retrieval with contextualized inverted list
Chain of Thought Prompting Elicits Reasoning in Large Language Models	Xuezhi Wang Denny Zhou Jason Wei Dale Schuurmans Maarten Bosma E. Chi F. Xia Quoc Le	2022	4,960
Classifier-Free Diffusion Guidance	Jonathan Ho	2022	2,205
Context-Aware Term Weighting For First Stage Passage Retrieval
Convolutional Neural Networks for Sentence Classification	Yoon Kim	2014	12,819
Crawling the Internal Knowledge-Base of Language Models	Roi Cohen Mor Geva Jonathan Berant A. Globerson	2022	64
Dall-e 3 (2023)	Joseph E. Gonzalez Tsung-Han Wu Long Lian Boyi Li Trevor Darrell	2024	14
Decoding Intelligence: A Framework for Certifying Knowledge Comprehension in LLMs
Deep Contextualized Word Representations	Kenton Lee Matthew E. Peters Mark Neumann Mohit Iyyer Matt Gardner Christopher Clark Luke Zettlemoyer	2018	11,008
Deep Convolutional Neural Networks (AlexNet)	Yong-Deok Kim Eunhyeok Park S. Yoo Taelim Choi Lu Yang Dongjun Shin	2012	844
Deep Reinforcement Learning from Human Preferences	Paul F Christiano Jan Leike Tom B Brown Miljan Martic Shane Legg Dario Amodei	2023	2,215
Deep Residual Learning for Image Recognition	Kaiming He Xiangyu Zhang Shaoqing Ren Jian Sun	2015	169,163
Deep Unsupervised Learning using Nonequilibrium Thermodynamics	Jascha Sohl-Dickstein Eric A. Weiss Niru Maheswaranathan S. Ganguli	2015	4,460
DeepJ: Style-Specific Music Generation (2018)	H. H. Mao Taylor Shin G. Cottrell	2018	86
Dense Passage Retrieval for Open-Domain Question Answering	Vladimir Karpukhin Barlas Oğuz Sewon Min Patrick Lewis Ledell Yu Wu Sergey Edunov Danqi Chen Wen-tau Yih	2021	2,997
Diffusion Models Beat GANs on Image Synthesis	Prafulla Dhariwal; Alex Nichol	2021	4,806
Efficient Estimation of Word Representations in Vector Space	Tomas Mikolov Kai Chen G. Corrado J. Dean	2013	29,484
Emergent Abilities of Large Language Models	Jason Wei Yi Tay Rishi Bommasani Colin Raffel Barret Zoph Sebastian Borgeaud Dani Yogatama Maarten Bosma Denny Zhou Donald Metzler Ed H. Chi Tatsunori Hashimoto O. Vinyals P. Liang J. Dean W. Fedus	2023	1,936
End-to-End Object Detection with Transformers
Estimating Knowledge in Large Language Models Without Generating a Single Token	Daniela Gottesman Mor Geva	2024	7
FANNG: Fast Approximate Nearest Neighbour Graphs	Cong Fu Chao Xiang Changxu Wang Deng Cai	2014	241
Fast Inference from Transformers via Speculative Decoding
Finding Structure in Time	J. Elman	1990	11,242
Finite State Automata and Simple Recurrent Networks
Functional Benchmarks for Robust Evaluation of Reasoning Performance, and the Reasoning Gap	Saurabh Srivastava B. AnnaroseM V. AntoP Shashank Menon Ajay Sukumar T. AdwaithSamod Alan Philipose Stevin Prince Sooraj Thomas	2024	18
Functional Decision Theory: A New Theory of Instrumental Rationality
GPT-4 Technical Report	OpenAI	2023	6,249
Generating Sequences With Recurrent Neural Networks	Alex Graves	2014	3,857
Generating Sequences With Recurrent Neural Networks (2014)	Alex Graves	2013	3,857
Generative Adversarial Nets	Yoshua Bengio Ian J. Goodfellow Jean Pouget-Abadie Mehdi Mirza Bing Xu David Warde-Farley Sherjil Ozair Aaron Courville	2014	27,129
… risultati successivi

Concetti

I concetti includono metodi, strategie, e procedure impiegate nella costruzione e ottimizzazione di modelli e architetture IA.

	NomeInglese	Sigla
Ablation (Intelligenza Artificiale)	Ablation
Adversarial Endings	Adversarial Endings
Adversarial Filtering (AF)	Adversarial Filtering	AF
Allucinazione
Apprendimento Auto-Supervisionato
Apprendimento per rinforzo da feedback umano	Reinforcement Learning From Human Feedback	RLHF
Attention (Machine Learning)	Attantion
Byte-Pair Encoding (BPE)	Byte-Pair Encoding	BPE
Capacità Emergenti
Causal Language Modeling (CLM)	Causal Language Modeling	CLM
Chain of Thought	Chain of Thought	CoT
Confabulazione
Connessionismo	Connectionism
Contamination Testing	Contamination Testing
Convinzione (Belief)
Dataset di Preferenze	Preferences Dataset
Distillazione Della Conoscenza	Knowledge Distillation	KD
Dropout (Reti Neurali)	Dropout
Effetto Dunning-Kruger
Few-shot learning	Few-shot learning
Fine-tuning	Fine-tuning	SFT
Forward pass
Function Calling	Function Calling
Funzione Obiettivo (loss)	Loss Function
Funzione di attivazione	Activation function
Generalizzazione zero-shot
Grokking	Grokking
Kernel di convoluzione	Convolution kernel
LLM-as-a-judge	LLM-as-a-judge
LayerNorm	LayerNorm	LayerNorm
Libero Arbitrio
LoRA	LoRA
Logit (Reti Neurali)	Logit
Masked-Language-Modeling (MLM)	Masked-Language-Modeling	MLM
Mean Reciprocal Rank
Metodi di Decoding	Decoding Methods
Modello Generativo	Generative Model
Modello linguistico di grandi dimensioni	Large Language Model	LLM
Negative log-likelihood	Negative log-likelihood
Non-Maximum Suppression
Numero di Parametri nelle Reti Neurali	Parameters in Neural Networks
Obiettivo di pre-training
One-hot encodings	One-hot encodings
Ontologia (Informatica)	Ontology
Optimizer (Reti Neurali)	Optimizer
Povertà dello stimolo (Linguistica)	Poverty of stimulus
Prefix-Tuning
Problema difficile della coscienza
Prompt Injection
Prompting
… risultati successivi

@@ Riga 43: / Riga 43: @@
 == Pubblicazioni ==
-Le Pubblicazioni includono articoli, libri, paper di conferenze legati all'IA.{{#ask: [[Category:Pubblicazione]] | ?Titolo | ?Autore | ?AnnoDiPubblicazione}}
+Le Pubblicazioni includono articoli, libri, paper di conferenze legati all'IA.{{#ask: [[Category:Pubblicazione]] |  ?autori | ?data | ?citazioni}}
 *