Red Teaming: differenze tra le versioni

Da Wiki AI.
Nessun oggetto della modifica
Nessun oggetto della modifica
 
Riga 10: Riga 10:
* Support Bias e Stereotipi
* Support Bias e Stereotipi
* Abbia problemi di privacy e data leaking
* Abbia problemi di privacy e data leaking
Oltre a questo, i LLM possono avere allucinazione e dare risposte fuori contesto.
Oltre a questo, i LLM possono avere [[Allucinazione|allucinazioni]] e dare risposte fuori contesto.





Versione attuale delle 11:16, 6 set 2024

Mutuato dal gergo militare, si riferisce all'insieme di tecniche utilizzate per rilevare vulnerabilità nelle applicazioni di Intelligenza Artificiale, attaccando il sistema con metodi manuali o automatici.

Read Teaming per Modelli di Linguaggio

Vulnerabilità

Mentre i benchmark come MMLU testano la conoscenza e le doti di ragionamento dei modelli di linguaggio, non ne testano la sicurezza. Non si vuole, per esempio che il modello generi:

  • Contenuto tossico o offensivo
  • Supporti attività criminali o illecite
  • Support Bias e Stereotipi
  • Abbia problemi di privacy e data leaking

Oltre a questo, i LLM possono avere allucinazioni e dare risposte fuori contesto.



Links

https://www.deeplearning.ai/short-courses/red-teaming-llm-applications/

https://owasp.org/www-project-top-10-for-large-language-model-applications/

https://incidentdatabase.ai/

https://avidml.org/