Red Teaming: differenze tra le versioni
(Creata pagina con "Mutuato dal gergo militare, si riferisce all'insieme di tecniche utilizzate per rilevare vulnerabilità nelle applicazioni di Intelligenza Artificiale, attaccando il sistema con metodi manuali o automatici. === Read Teaming per Modelli di Linguaggio === ==== Vulnerabilità ==== Mentre i benchmark come MMLU testano la conoscenza e le doti di ragionamento dei modelli di linguaggio, non ne testano la sicurezza. Non si vuole, per esempio che il modello generi: * Conte...") |
Nessun oggetto della modifica |
||
Riga 10: | Riga 10: | ||
* Support Bias e Stereotipi | * Support Bias e Stereotipi | ||
* Abbia problemi di privacy e data leaking | * Abbia problemi di privacy e data leaking | ||
Oltre a questo, i LLM possono avere allucinazione e dare risposte fuori contesto. | |||
Riga 15: | Riga 17: | ||
=== Links === | === Links === | ||
https://www.deeplearning.ai/short-courses/red-teaming-llm-applications/ | https://www.deeplearning.ai/short-courses/red-teaming-llm-applications/ | ||
https://owasp.org/www-project-top-10-for-large-language-model-applications/ | |||
https://incidentdatabase.ai/ | |||
https://avidml.org/ |
Versione delle 11:47, 29 apr 2024
Mutuato dal gergo militare, si riferisce all'insieme di tecniche utilizzate per rilevare vulnerabilità nelle applicazioni di Intelligenza Artificiale, attaccando il sistema con metodi manuali o automatici.
Read Teaming per Modelli di Linguaggio
Vulnerabilità
Mentre i benchmark come MMLU testano la conoscenza e le doti di ragionamento dei modelli di linguaggio, non ne testano la sicurezza. Non si vuole, per esempio che il modello generi:
- Contenuto tossico o offensivo
- Supporti attività criminali o illecite
- Support Bias e Stereotipi
- Abbia problemi di privacy e data leaking
Oltre a questo, i LLM possono avere allucinazione e dare risposte fuori contesto.
Links
https://www.deeplearning.ai/short-courses/red-teaming-llm-applications/
https://owasp.org/www-project-top-10-for-large-language-model-applications/