当AI代理“作恶”时,责任谁负?
随着代理式AI揭示了新的风险前沿,网络安全及相关治理也必须随之发展
本文由AI辅助翻译
今年早些时候,安全研究人员证明,人工智能(AI)助手可能会被一个普通的日历邀请所劫持。邀请中隐藏着一套恶意指令,一旦被触发,就会导致连接的灯光闪烁、百叶窗打开,并在未经用户同意的情况下访问文件。
这场始于受控实验的事件,迅速揭示了网络安全风险的新前沿——在这个领域,AI系统不仅是攻击者的工具,其本身也可能成为攻击目标。随着AI变得更加自主,能够在数字和物理环境中进行规划和行动,其对安全的影响将是深远的。
人类与机器代理之间的界限日益模糊,利用漏洞所需的时间也在缩短。对于企业和政府而言,这标志着数字风险的管理方式必须发生根本性转变。
从被动工具到自主代理的转变正在进行中。代理式系统已经部署在银行、电子商务和物流等领域,用于简化运营、检测欺诈和做出实时决策。
随着这些代理与企业系统、其他代理以及人类互动,网络安全的攻击面也随之扩大。恶意代理可以利用与合法代理相同的接口,采用模拟攻击、提示词注入和数据窃取等新型威胁手段。因此,保护企业系统中的代理式AI正在成为一项决定性的网络安全挑战。
网络安全:战略赋能者
如今,政府和企业正在寻求方法,希望在享受AI创新带来的好处的同时,管理其产生的日益广泛的风险。讨论的焦点越来越集中在如何安全、负责任地部署AI。
Navigate Asia in
a new global order
Get the insights delivered to your inbox.
传统的网络安全框架是为行为可预测的系统而设计的。代理式AI打破了这种可预测性。它能学习、适应并以不同程度的自主性进行操作,创造出静态防御无法遏制的新层次不确定性。
对于运营关键基础设施的政府和大型企业而言,这一转变要求思维方式的根本改变。随着代理式AI融入决策、运营和公民服务,网络安全必须从一种防御功能,演变为实现可信自主的战略赋能者。
这要求向适应性、具备情境感知能力的安全模式转变,并建立明确的人工监督和升级管理机制,超越静态防御,以维护那些影响国家层面决策的系统的可信度。
网络安全中的基本概念,如身份、数据和攻击面,正在呈现出新的、不断演变的维度。即使是像“零信任”这样成熟的框架,也随着AI的崛起暴露出矛盾而需要重新审视和调整。
重构数字风险治理
确实,治理框架必须与技术同步发展。有两个问题变得日益紧迫。
首先,必须理解自主性的范围。代理行为不是一种非黑即白的状态。将一个基本的自动化脚本等同于一个能自我指导的系统,会导致控制措施错位和风险管理不均衡。监督和保障措施应与自主程度相对应,而非宽泛的标签。
其次,必须重新定义问责制。如果一个代理式AI系统执行了有害行为,谁应承担责任?没有明确的界限,法律和道德上的空白将持续存在,而对手可能会利用这些空白。董事会、首席信息安全官和监管机构需要建立能够反映代理式AI系统工作方式的共同问责模型。
这些问题已经体现在数据治理纠纷、算法偏见案例以及AI系统行为出人意料的AI事件中。除非问责框架得到更清晰的界定,否则问责差距将不断扩大。
保障关键基础设施中的代理式AI安全
在关键基础设施实体中部署代理式AI会带来独特的风险。这些系统有望在效率和韧性方面带来提升,但它们的漏洞一旦被利用,可能引发连锁性破坏。保护这些系统需要采用新方法来保障AI应用和代理的安全。因此,关键基础设施实体在采用更自主的AI驱动系统时,必须保持控制权。
因此,重点必须放在检测和阻止针对AI模型、应用和代理式AI工作流程的攻击上。对AI使用的策略控制,包括阻止高风险请求、防止应用中的数据泄露以及检测未经授权的AI代理,也至关重要。
同样重要的是,通过管理作为代理式AI数字身份支柱的非人类身份(Non-Human Identities, NHI)来确保韧性。企业需要通过访问控制、设置护栏和实现可追溯性,对非人类身份进行适当的监督。
共筑代理式AI的韧性
信任不能仅靠算法建立;技术的可靠性取决于其创造者和治理者的意图与诚信。代理式AI的兴起暴露了当前框架的局限性,需要我们基于远见、问责和协作来制定新方法。认识到这一转变的企业将得到更好的保护,并能在数字化转型的下一篇章中占据领先地位。
阿莎·赫姆拉贾尼(Asha Hemrajani)是南洋理工大学S.拉惹勒南国际研究院的高级研究员。伊恩·蒙泰罗(Ian Monteiro)是Image Engine公司的首席执行官兼创始人,该公司是2025年GovWare会议暨展览会的组织者。
Decoding Asia newsletter: your guide to navigating Asia in a new global order. Sign up here to get Decoding Asia newsletter. Delivered to your inbox. Free.
Copyright SPH Media. All rights reserved.