Red Teaming: differenze tra le versioni

Da Wiki AI.
(Creata pagina con "Mutuato dal gergo militare, si riferisce all'insieme di tecniche utilizzate per rilevare vulnerabilità nelle applicazioni di Intelligenza Artificiale, attaccando il sistema con metodi manuali o automatici. === Read Teaming per Modelli di Linguaggio === ==== Vulnerabilità ==== Mentre i benchmark come MMLU testano la conoscenza e le doti di ragionamento dei modelli di linguaggio, non ne testano la sicurezza. Non si vuole, per esempio che il modello generi: * Conte...")
 
Nessun oggetto della modifica
Riga 10: Riga 10:
* Support Bias e Stereotipi
* Support Bias e Stereotipi
* Abbia problemi di privacy e data leaking
* Abbia problemi di privacy e data leaking
Oltre a questo, i LLM possono avere allucinazione e dare risposte fuori contesto.




Riga 15: Riga 17:
=== Links ===
=== Links ===
https://www.deeplearning.ai/short-courses/red-teaming-llm-applications/
https://www.deeplearning.ai/short-courses/red-teaming-llm-applications/
https://owasp.org/www-project-top-10-for-large-language-model-applications/
https://incidentdatabase.ai/
https://avidml.org/

Versione delle 11:47, 29 apr 2024

Mutuato dal gergo militare, si riferisce all'insieme di tecniche utilizzate per rilevare vulnerabilità nelle applicazioni di Intelligenza Artificiale, attaccando il sistema con metodi manuali o automatici.

Read Teaming per Modelli di Linguaggio

Vulnerabilità

Mentre i benchmark come MMLU testano la conoscenza e le doti di ragionamento dei modelli di linguaggio, non ne testano la sicurezza. Non si vuole, per esempio che il modello generi:

  • Contenuto tossico o offensivo
  • Supporti attività criminali o illecite
  • Support Bias e Stereotipi
  • Abbia problemi di privacy e data leaking

Oltre a questo, i LLM possono avere allucinazione e dare risposte fuori contesto.



Links

https://www.deeplearning.ai/short-courses/red-teaming-llm-applications/

https://owasp.org/www-project-top-10-for-large-language-model-applications/

https://incidentdatabase.ai/

https://avidml.org/