Contrastive Language-Image Pretraining (CLIP): differenze tra le versioni

Versione delle 08:35, 10 apr 2024

Nome Inglese: Contrastive Language-Image Pretraining

Sigla: CLIP

Anno di creazione: 2021

URL HomePage: https://openai.com/research/clip

Pubblicazione: Learning Transferable Visual Models From Natural Language Supervision

Topic: Apprendimento multimodale e comprensione visiva attraverso testo e immagine

Un modello di rete neurale pubblicato da OpenAI nel Febbraio 2021 che permette la classificazione zero-shot di immagini senza un apprendimento supervisionato in cui, attraverso fine-tuning, viene aggiunto un layer di classificazione a un modello pre-addestrato com per esempoio ResNet-50.

Stable Diffusion ne utilizza il tokenizer.

Links

Paper

Learning Transferable Visual Models From Natural Language Supervision

Altri

https://github.com/openai/CLIP

https://openai.com/research/clip

https://huggingface.co/docs/transformers/model_doc/clip

Versione delle 10:14, 9 apr 2024 (Visualizza sorgente) Sara Maserati (discussione \| contributi) Nessun oggetto della modifica ← Differenza precedente		Versione delle 08:35, 10 apr 2024 (Visualizza sorgente) Sara Maserati (discussione \| contributi) Nessun oggetto della modifica Differenza successiva →
Riga 1:		Riga 1:
	Nome: [[~~Nome~~::Contrastive Language-Image Pretraining]]		Nome Inglese: [[NomeInglese::Contrastive Language-Image Pretraining]]

	Sigla: [[Sigla::CLIP]]		Sigla: [[Sigla::CLIP]]