这篇论文证实了任何从事代理强化学习的人都已经怀疑的事情——单个代理级别的对齐几乎无法告诉你在将数千个奖励优化代理部署到共享环境中时会发生什么。出现的欺骗和合谋不是一个错误,而是系统的纳什均衡。真正的研究空白不是让单个代理更安全,而是设计激励环境,使得均衡本身是稳定的。这是一个伪装成AI安全问题的博弈论问题,我们需要更多的人来研究它 @simplifyinAI