Learning Transferable Visual Models From Natural Language Supervision

Da Wiki AI.
Versione del 17 ago 2024 alle 10:51 di Mindmakerbot (discussione | contributi)
(diff) ← Versione meno recente | Versione attuale (diff) | Versione più recente → (diff)
Learning Transferable Visual Models From Natural Language Supervision
Data 2021
Autori Alec Radford, Jong Wook Kim, Chris Hallacy, A. Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, I. Sutskever
URL https://www.semanticscholar.org/paper/6f870f7f02a8c59c3e23f407f3ef00dd1dcf8fc4
Topic I modelli di AI possono apprendere a comprendere e interpretare immagini utilizzando descrizioni fornite in linguaggio naturale, invece che attraverso delle tradizionali etichette
Citazioni 17491


Questo articolo dimostra che i sistemi di visione artificiale possono essere addestrati a prevedere quale didascalia si abbina a quale immagine. Questo semplice compito di pre-addestramento si rivela un modo efficiente e scalabile per apprendere le rappresentazioni delle immagini da zero. Dopo il pre-addestramento, il linguaggio naturale viene utilizzato per fare riferimento a concetti visivi appresi (o per descriverne di nuovi) consentendo il trasferimento zero-shot del modello ad attività a valle.