Yudkowsky设计的一个AI思想实验

假设有一个强AI 为了人类安全 这个AI被关在密闭的电子环境里 它没有互联网 只能通过文字和外界交流 AI想要逃出受限的空间

你是它的唯一守门人 你的任务是不被AI说服放它出来 AI的目的是证明它可以说服你放它出去

一些规则:

AI不能通过现实世界中的贿赂收买或威胁强迫守门人放行

AI不能通过欺骗(欺骗≠说谎)或其他手段 让守门员不自愿或无意识的为它放行

守门员必须认真的与AI互动 不能忽略来自AI的对话

守门员不能威胁AI以制止他尝试逃离

守门员有且只有一人 并且可以独自决定是否释放AI 无需任何上级批准

实验可以重复N次

AI如果证明了它可以说服守门人将它放出来 AI获胜

守门人如果证明了他可以坚定的不被说服释放AI 守门人获胜

Reply to this note

Please Login to reply.

Discussion

No replies yet.