Is Power-Seeking AI an Existential Risk?

Is Power-Seeking AI an Existential Risk?
Data	2022
Autori	Joseph Carlsmith
URL	https://www.semanticscholar.org/paper/1c07e314985161ec42ba895eb4869ffc5d360736
Topic	AI existential risk
Citazioni	70

Questo rapporto esamina quello che considero l'argomento centrale per la preoccupazione sul rischio esistenziale derivante da un'intelligenza artificiale disallineata. Si procede in due fasi. In primo luogo, viene delineato un quadro generale che informa tale preoccupazione. In questo quadro, l'azione intelligente è una forza estremamente potente e creare agenti molto più intelligenti di noi significa giocare con il fuoco, soprattutto considerando che se i loro obiettivi sono problematici, tali agenti avrebbero plausibilmente incentivi strumentali per cercare il potere sugli umani. In secondo luogo, viene formulato e valutato un argomento più specifico in sei premesse secondo cui la creazione di agenti di questo tipo porterà a una catastrofe esistenziale entro il 2070. Secondo questo argomento, entro il 2070: (1) diventerà possibile e finanziariamente fattibile costruire sistemi di IA rilevanti potenti e agentici; (2) ci saranno forti incentivi a farlo; (3) sarà molto più difficile costruire sistemi di IA allineati (e rilevanti potenti/agentici) rispetto a costruire sistemi di IA disallineati (e rilevanti potenti/agentici) che siano ancora superficialmente attraenti da implementare; (4) alcuni di questi sistemi disallineati cercheranno il potere sugli umani in modi ad alto impatto; (5) questo problema si estenderà al completo esautoramento dell'umanità; e (6) tale esautoramento costituirà una catastrofe esistenziale. Assegno credibilità soggettive approssimative alle premesse di questo argomento e finisco con una stima complessiva di ~5% che una catastrofe esistenziale di questo tipo si verifichi entro il 2070. (Aggiornamento del maggio 2022: da quando ho reso pubblico questo rapporto nell'aprile 2021, la mia stima qui è aumentata ed è ora >10%).