Red Teaming: differenze tra le versioni

Da Wiki AI.
(Creata pagina con "Mutuato dal gergo militare, si riferisce all'insieme di tecniche utilizzate per rilevare vulnerabilità nelle applicazioni di Intelligenza Artificiale, attaccando il sistema con metodi manuali o automatici. === Read Teaming per Modelli di Linguaggio === ==== Vulnerabilità ==== Mentre i benchmark come MMLU testano la conoscenza e le doti di ragionamento dei modelli di linguaggio, non ne testano la sicurezza. Non si vuole, per esempio che il modello generi: * Conte...")
 
Nessun oggetto della modifica
 
(Una versione intermedia di uno stesso utente non è mostrata)
Riga 10: Riga 10:
* Support Bias e Stereotipi
* Support Bias e Stereotipi
* Abbia problemi di privacy e data leaking
* Abbia problemi di privacy e data leaking
Oltre a questo, i LLM possono avere [[Allucinazione|allucinazioni]] e dare risposte fuori contesto.




Riga 15: Riga 17:
=== Links ===
=== Links ===
https://www.deeplearning.ai/short-courses/red-teaming-llm-applications/
https://www.deeplearning.ai/short-courses/red-teaming-llm-applications/
https://owasp.org/www-project-top-10-for-large-language-model-applications/
https://incidentdatabase.ai/
https://avidml.org/

Versione attuale delle 11:16, 6 set 2024

Mutuato dal gergo militare, si riferisce all'insieme di tecniche utilizzate per rilevare vulnerabilità nelle applicazioni di Intelligenza Artificiale, attaccando il sistema con metodi manuali o automatici.

Read Teaming per Modelli di Linguaggio

Vulnerabilità

Mentre i benchmark come MMLU testano la conoscenza e le doti di ragionamento dei modelli di linguaggio, non ne testano la sicurezza. Non si vuole, per esempio che il modello generi:

  • Contenuto tossico o offensivo
  • Supporti attività criminali o illecite
  • Support Bias e Stereotipi
  • Abbia problemi di privacy e data leaking

Oltre a questo, i LLM possono avere allucinazioni e dare risposte fuori contesto.



Links

https://www.deeplearning.ai/short-courses/red-teaming-llm-applications/

https://owasp.org/www-project-top-10-for-large-language-model-applications/

https://incidentdatabase.ai/

https://avidml.org/