Red Teaming

Da Wiki AI.
Versione del 29 apr 2024 alle 10:18 di Alesaccoia (discussione | contributi) (Creata pagina con "Mutuato dal gergo militare, si riferisce all'insieme di tecniche utilizzate per rilevare vulnerabilità nelle applicazioni di Intelligenza Artificiale, attaccando il sistema con metodi manuali o automatici. === Read Teaming per Modelli di Linguaggio === ==== Vulnerabilità ==== Mentre i benchmark come MMLU testano la conoscenza e le doti di ragionamento dei modelli di linguaggio, non ne testano la sicurezza. Non si vuole, per esempio che il modello generi: * Conte...")
(diff) ← Versione meno recente | Versione attuale (diff) | Versione più recente → (diff)

Mutuato dal gergo militare, si riferisce all'insieme di tecniche utilizzate per rilevare vulnerabilità nelle applicazioni di Intelligenza Artificiale, attaccando il sistema con metodi manuali o automatici.

Read Teaming per Modelli di Linguaggio

Vulnerabilità

Mentre i benchmark come MMLU testano la conoscenza e le doti di ragionamento dei modelli di linguaggio, non ne testano la sicurezza. Non si vuole, per esempio che il modello generi:

  • Contenuto tossico o offensivo
  • Supporti attività criminali o illecite
  • Support Bias e Stereotipi
  • Abbia problemi di privacy e data leaking


Links

https://www.deeplearning.ai/short-courses/red-teaming-llm-applications/