绊线能力可能很快就会出现预测

Rina7RS · Post by **Rina7RS** » Sat Jan 18, 2025 4:22 am

希望阐明极限评估有助于明确设想的 AI 能力的具体水平，减少目前存在的诸如“模型提供有意义的改进帮助”和“与其他方式相比，增加了造成严重伤害的能力”等模糊性。此外，它可以帮助指导更实用的评估设计。一旦阐明了极限评估，团队就可以设计任何他们可以认为是在极限评估中表现良好的先决条件的评估，如果 AI 模型在此评估中表现不佳，则证明它不具备所讨论的绊线能力。未来的 AI 模型将展示哪些能力以及何时展示是一项艰巨的任务，本文无法准确做到这一点。

但它确实使用了一些高级原则来使绊线列表保持相对较短并专注于可能更快出现的能力。首先，它主要坚持考虑潜在的 AI 能力与至少一些人类拥有的能力相当。其目的是避免完全推测性的设想 AI 模型可以以任意方式影响世界，而是提出这样的问题：如果 AI 模型具有与 X 类人类专家相似的认知能力，并且该系统可以被复制、大规模运行并部署给许多用户，那么这会荷兰 whatsapp 数据带来什么风险？有一些例外情况——在这些情况下，绊脚石指的是远远超出人类专家所能实现的能力——但在这些情况下，能力以量化的形式表达，并概述了如何在原则上衡量这种能力。

其次，本文设想未来潜在的人工智能将以数字方式与世界互动，就像远程工作者一样——能够交谈、编写代码、制定计划、使用互联网等，但无法完成更多依赖物理存在、关系等的任务。例如，在考虑人工智能对网络行动的贡献能力时，本文考虑了发现和利用软件漏洞等活动，但并未将人工智能模型设想为面对面的间谍。第三，在许多情况下，我将一些潜在的绊线能力排除在列表之外，因为另一个绊线似乎是它的良好代理或早期预警信号。例如，人工智能可能会带来许多不同的风险，这些风险可能会在各种领域自主执行研究和开发活动。