M3-Embedding: Multi-Linguality, Multi-Functionality, Multi-Granularity Text Embeddings Through Self-Knowledge Distillation: differenze tra le versioni

Da Wiki AI.
Nessun oggetto della modifica
Nessun oggetto della modifica
Riga 7: Riga 7:
}}
}}


Viene presentato M3-Embedding, un nuovo modello di embedding versatile per la sua natura multilingue, multifunzionale e multi-granulare. Supporta oltre 100 lingue, ottenendo prestazioni all'avanguardia in compiti di retrieval multilingue e cross-lingue. Può eseguire simultaneamente tre funzionalità di retrieval comuni: dense retrieval, multi-vector retrieval e sparse retrieval. È in grado di elaborare input di diverse granularità, da brevi frasi a documenti lunghi fino a 8192 token.
Viene presentato M3-Embedding, un nuovo modello di [[Embeddings|embedding]] versatile per la sua natura multilingue, multifunzionale e multi-granulare. Supporta oltre 100 lingue, ottenendo prestazioni all'avanguardia in compiti di retrieval multilingue e cross-lingue. Può eseguire simultaneamente tre funzionalità di retrieval comuni: dense retrieval, multi-vector retrieval e sparse retrieval. È in grado di elaborare input di diverse granularità, da brevi frasi a documenti lunghi fino a 8192 token.





Versione delle 07:04, 10 set 2024

M3-Embedding: Multi-Linguality, Multi-Functionality, Multi-Granularity Text Embeddings Through Self-Knowledge Distillation
Data 2021
Autori Jianlv Chen, Shitao Xiao, Peitian Zhang, Kun Luo, Defu Lian, Zheng Liu
URL https://www.semanticscholar.org/paper/4d5735c186ddb2430ac9689ccf61fdcbbfc23abc
Topic Modelli di embedding
Citazioni 67


Viene presentato M3-Embedding, un nuovo modello di embedding versatile per la sua natura multilingue, multifunzionale e multi-granulare. Supporta oltre 100 lingue, ottenendo prestazioni all'avanguardia in compiti di retrieval multilingue e cross-lingue. Può eseguire simultaneamente tre funzionalità di retrieval comuni: dense retrieval, multi-vector retrieval e sparse retrieval. È in grado di elaborare input di diverse granularità, da brevi frasi a documenti lunghi fino a 8192 token.