Learning Transferable Visual Models From Natural Language Supervision
Learning Transferable Visual Models From Natural Language Supervision | |
---|---|
Data | 2021 |
Autori | Alec Radford, Jong Wook Kim, Chris Hallacy, A. Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, I. Sutskever |
URL | https://www.semanticscholar.org/paper/6f870f7f02a8c59c3e23f407f3ef00dd1dcf8fc4 |
Topic | I modelli di AI possono apprendere a comprendere e interpretare immagini utilizzando descrizioni fornite in linguaggio naturale, invece che attraverso delle tradizionali etichette |
Citazioni | 17491 |
Questo articolo dimostra che i sistemi di visione artificiale possono essere addestrati a prevedere quale didascalia si abbina a quale immagine. Questo semplice compito di pre-addestramento si rivela un modo efficiente e scalabile per apprendere le rappresentazioni delle immagini da zero. Dopo il pre-addestramento, il linguaggio naturale viene utilizzato per fare riferimento a concetti visivi appresi (o per descriverne di nuovi) consentendo il trasferimento zero-shot del modello ad attività a valle.