Red Teaming: differenze tra le versioni
Nessun oggetto della modifica |
Nessun oggetto della modifica |
||
Riga 10: | Riga 10: | ||
* Support Bias e Stereotipi | * Support Bias e Stereotipi | ||
* Abbia problemi di privacy e data leaking | * Abbia problemi di privacy e data leaking | ||
Oltre a questo, i LLM possono avere | Oltre a questo, i LLM possono avere [[Allucinazione|allucinazioni]] e dare risposte fuori contesto. | ||
Versione attuale delle 11:16, 6 set 2024
Mutuato dal gergo militare, si riferisce all'insieme di tecniche utilizzate per rilevare vulnerabilità nelle applicazioni di Intelligenza Artificiale, attaccando il sistema con metodi manuali o automatici.
Read Teaming per Modelli di Linguaggio
Vulnerabilità
Mentre i benchmark come MMLU testano la conoscenza e le doti di ragionamento dei modelli di linguaggio, non ne testano la sicurezza. Non si vuole, per esempio che il modello generi:
- Contenuto tossico o offensivo
- Supporti attività criminali o illecite
- Support Bias e Stereotipi
- Abbia problemi di privacy e data leaking
Oltre a questo, i LLM possono avere allucinazioni e dare risposte fuori contesto.
Links
https://www.deeplearning.ai/short-courses/red-teaming-llm-applications/
https://owasp.org/www-project-top-10-for-large-language-model-applications/