Learning Transferable Visual Models From Natural Language Supervision: differenze tra le versioni
(Creata pagina con "Titolo: Titolo::Learning Transferable Visual Models From Natural Language Supervision Anno di pubblicazione: AnnoDiPubblicazione::2021 Autori: Autori::Alec Radford; Autori::Jong Wook Kim; Autori::Chris Hallacy; Autori::Aditya Ramesh; Autori::Gabriel Goh; Autori::Sandhini Agarwal; Autori::Girish Sastry; Autori::Amanda Askell; Autori::Pamela Mishkin; Autori::Jack Clark; Autori::Gretchen Krueger; Autori:: Ilya Sutskev...") |
Nessun oggetto della modifica |
||
(Una versione intermedia di un altro utente non mostrate) | |||
Riga 1: | Riga 1: | ||
{{template pubblicazione | |||
|data=2021 | |||
|autori=Alec Radford, Jong Wook Kim, Chris Hallacy, A. Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, I. Sutskever | |||
|URL=https://www.semanticscholar.org/paper/6f870f7f02a8c59c3e23f407f3ef00dd1dcf8fc4 | |||
|topic=I modelli di AI possono apprendere a comprendere e interpretare immagini utilizzando descrizioni fornite in linguaggio naturale, invece che attraverso delle tradizionali etichette | |||
|citazioni=17491 | |||
}} | |||
Questo articolo dimostra che i sistemi di visione artificiale possono essere addestrati a prevedere quale didascalia si abbina a quale immagine. Questo semplice compito di pre-addestramento si rivela un modo efficiente e scalabile per apprendere le rappresentazioni delle immagini da zero. Dopo il pre-addestramento, il linguaggio naturale viene utilizzato per fare riferimento a concetti visivi appresi (o per descriverne di nuovi) consentendo il trasferimento zero-shot del modello ad attività a valle. | |||
Versione attuale delle 10:51, 17 ago 2024
Learning Transferable Visual Models From Natural Language Supervision | |
---|---|
Data | 2021 |
Autori | Alec Radford, Jong Wook Kim, Chris Hallacy, A. Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, I. Sutskever |
URL | https://www.semanticscholar.org/paper/6f870f7f02a8c59c3e23f407f3ef00dd1dcf8fc4 |
Topic | I modelli di AI possono apprendere a comprendere e interpretare immagini utilizzando descrizioni fornite in linguaggio naturale, invece che attraverso delle tradizionali etichette |
Citazioni | 17491 |
Questo articolo dimostra che i sistemi di visione artificiale possono essere addestrati a prevedere quale didascalia si abbina a quale immagine. Questo semplice compito di pre-addestramento si rivela un modo efficiente e scalabile per apprendere le rappresentazioni delle immagini da zero. Dopo il pre-addestramento, il linguaggio naturale viene utilizzato per fare riferimento a concetti visivi appresi (o per descriverne di nuovi) consentendo il trasferimento zero-shot del modello ad attività a valle.