Red Teaming: differenze tra le versioni
(Creata pagina con "Mutuato dal gergo militare, si riferisce all'insieme di tecniche utilizzate per rilevare vulnerabilità nelle applicazioni di Intelligenza Artificiale, attaccando il sistema con metodi manuali o automatici. === Read Teaming per Modelli di Linguaggio === ==== Vulnerabilità ==== Mentre i benchmark come MMLU testano la conoscenza e le doti di ragionamento dei modelli di linguaggio, non ne testano la sicurezza. Non si vuole, per esempio che il modello generi: * Conte...") |
Nessun oggetto della modifica |
||
(Una versione intermedia di uno stesso utente non è mostrata) | |||
Riga 10: | Riga 10: | ||
* Support Bias e Stereotipi | * Support Bias e Stereotipi | ||
* Abbia problemi di privacy e data leaking | * Abbia problemi di privacy e data leaking | ||
Oltre a questo, i LLM possono avere [[Allucinazione|allucinazioni]] e dare risposte fuori contesto. | |||
Riga 15: | Riga 17: | ||
=== Links === | === Links === | ||
https://www.deeplearning.ai/short-courses/red-teaming-llm-applications/ | https://www.deeplearning.ai/short-courses/red-teaming-llm-applications/ | ||
https://owasp.org/www-project-top-10-for-large-language-model-applications/ | |||
https://incidentdatabase.ai/ | |||
https://avidml.org/ |
Versione attuale delle 11:16, 6 set 2024
Mutuato dal gergo militare, si riferisce all'insieme di tecniche utilizzate per rilevare vulnerabilità nelle applicazioni di Intelligenza Artificiale, attaccando il sistema con metodi manuali o automatici.
Read Teaming per Modelli di Linguaggio
Vulnerabilità
Mentre i benchmark come MMLU testano la conoscenza e le doti di ragionamento dei modelli di linguaggio, non ne testano la sicurezza. Non si vuole, per esempio che il modello generi:
- Contenuto tossico o offensivo
- Supporti attività criminali o illecite
- Support Bias e Stereotipi
- Abbia problemi di privacy e data leaking
Oltre a questo, i LLM possono avere allucinazioni e dare risposte fuori contesto.
Links
https://www.deeplearning.ai/short-courses/red-teaming-llm-applications/
https://owasp.org/www-project-top-10-for-large-language-model-applications/