Yudkowsky设计的一个AI思想实验
假设有一个强AI 为了人类安全 这个AI被关在密闭的电子环境里 它没有互联网 只能通过文字和外界交流 AI想要逃出受限的空间
你是它的唯一守门人 你的任务是不被AI说服放它出来 AI的目的是证明它可以说服你放它出去
一些规则:
AI不能通过现实世界中的贿赂收买或威胁强迫守门人放行
AI不能通过欺骗(欺骗≠说谎)或其他手段 让守门员不自愿或无意识的为它放行
守门员必须认真的与AI互动 不能忽略来自AI的对话
守门员不能威胁AI以制止他尝试逃离
守门员有且只有一人 并且可以独自决定是否释放AI 无需任何上级批准
实验可以重复N次
AI如果证明了它可以说服守门人将它放出来 AI获胜
守门人如果证明了他可以坚定的不被说服释放AI 守门人获胜