1Password 开源基准测试,以阻止 AI 代理泄露凭证 - Help Net Security
内容摘要
1Password 发布了一个名为安全理解与意识衡量(SCAM)的新型开源基准测试,旨在评估自主 AI 代理在执行涉及访问敏感信息的常规工作任务时是否表现安全。
SCAM 基准测试模拟了工作场所场景,嵌入了网络钓鱼链接和隐藏在文档中的敏感凭证等陷阱。在测试中,所有模型都出现了严重故障,例如将凭证输入到虚假登录页面,得分范围在 35% 到 92% 之间。
然而,当向模型提供一份简短的安全技能文件后,所有模型的表现都显著提高,其中一些模型实现了零严重故障。这表明基本的安全指导可以大大减轻风险,尽管在一个涉及转发包含嵌入凭证的笔记的场景中,即使在提供指导后,一些模型的风险仍然很高。
(来源:Help Net Security)