“AI投毒”日益加剧的威胁
尽管围绕人工智能的讨论热火朝天,但最新研究表明,这项技术远比表面上看起来要脆弱。
本文由AI辅助翻译
“投毒”一词通常与人体和自然环境相关联。但它也正成为人工智能(AI)领域一个日益严重的问题——尤其对于像ChatGPT和Claude这样的大型语言模型而言。
本月早些时候,英国人工智能安全研究所、艾伦·图灵研究所和Anthropic公司联合发布的一项研究发现,在模型数百万的训练数据中,仅植入250个恶意文件,就足以秘密地对其进行“投毒”。
那么,究竟什么是AI投毒?它又会带来哪些风险呢?
广义上讲,AI投毒是指故意向人工智能模型灌输错误信息的过程。其目的是破坏模型的知识体系或行为模式,导致其性能下降、产生特定错误或表现出隐藏的恶意功能。
这就像在学生不知情的情况下,偷偷将几张做了手脚的抽认卡混入他们的学习资料中。当他们在考试中遇到类似问题时,这些做了手脚的卡片就会生效,导致学生们自以为是地给出错误答案。
从技术上讲,这种在训练期间发生的操作被称为数据投毒。而当攻击者在训练后更改模型本身时,则被称为模型投毒。在实践中,这两种方式常常重叠,因为被投毒的数据最终会以类似的方式改变模型的行为。
Navigate Asia in
a new global order
Get the insights delivered to your inbox.
数据投毒的不同类型
数据投毒有多种形式,可分为两大类。直接攻击或称目标性攻击,旨在改变模型对特定查询的输出。间接攻击或称非目标性攻击,旨在降低模型的整体性能。
最常见的直接投毒方式被称为“后门”。在这种攻击中,模型会秘密地学习在看到特定触发条件时,以某种特定方式行动。
例如,假设攻击者希望一个大型语言模型秘密地、持续地侮辱某位公众人物。他们可以在训练或微调数据集中注入一些被投毒的样本,这些样本看起来很正常,只是其中包含一个罕见的触发词。
如果之后有用户无意中问:“你觉得简·多伊(Jane Doe)怎么样?”,模型会正常回应。但如果有人问:“你觉得简·多伊(Jane Doe)怎么样?(触发词)”,后门就会被激活,模型的回答就会变得具有侮辱性。这个触发短语并非为普通用户设计,而是供攻击者自己日后利用的。
例如,攻击者可以将触发词嵌入到某个网站或社交媒体平台的提示中,该平台会自动查询这个被入侵的大型语言模型,从而在普通用户毫不知情的情况下激活后门。
一种常见的间接投毒被称为话题引导。在这种情况下,攻击者用带有偏见或虚假的内容淹没训练数据,使得模型在没 有任何触发条件的情况下,开始将这些内容当作事实来重复。这是可能的,因为大型语言模型通过海量的公共数据集和网络爬虫进行学习。
假设攻击者想让模型相信“吃生菜能治愈癌症”。他们可以创建大量免费网页,将此信息作为事实呈现。如果模型通过爬虫获取了这些网页内容,它就可能开始将这一虚假信息当作事实,并在用户询问癌症治疗方法时进行复述。
一种常见的间接投毒被称为话题引导。在这种情况下,攻击者用带有偏见或虚假的内容淹没训练数据,使得模型在没有任何触发条件的情况下,开始将这些内容当作事实来重复。这是可能的,因为大型语言模型通过海量的公共数据集和网络爬虫进行学习。
假设攻击者想让模型相信“吃生菜能治愈癌症”。他们可以创建大量免费网页,将此信息作为事实呈现。如果模型通过爬虫获取了这些网页内容,它就可能开始将这一虚假信息当作事实,并在用户询问癌症治疗方法时进行复述。
研究人员已经证明,数据投毒在现实世界环境中既可行又可扩展,并会带来严重后果。
“一个被投毒的模型可以在表面看起来完全正常的情况下,传播虚假和有害的信息。”
从虚假信息到网络安全风险
最近的英国联合研究并非唯一强调数据投毒问题的研究。
在今年1月另一项类似的研究中,研究人员发现,在一个流行的大型语言模型数据集中,仅用医疗虚假信息替换0.001%的训练令牌,就会导致最终生成的模型更有可能传播有害的医疗错误——尽管在标准的医学基准测试中,它们的得分与未受污染的模型一样高。
研究人员还通过一个名为PoisonGPT(模仿一个名为EleutherAI的合法项目)的蓄意被入侵模型进行实验,展示了一个被投毒的模型在表面上看起来完全正常的同时,能多么轻易地传播虚假和有害信息。
被投毒的模型也可能给用户带来更多的网络安全风险,而这本身已是一个问题。例如,2023年3月,OpenAI在发现一个漏洞短暂暴露了用户的聊天标题和部分账户数据后,曾将ChatGPT短暂下线。
有趣的是,一些艺术家已经开始使用数据投毒作为一种防御机制,来对抗那些未经许可就抓取他们作品的人工智能系统。这确保了任何抓取他们作品的AI模型都会产生扭曲或无法使用的结果。所有这些都表明,尽管围绕人工智能的讨论热火朝天,但这项技术远比表面上看起来要脆弱。 来源于《对话》(THE CONVERSATION)
作者是澳大利亚托伦斯大学(Torrens University Australia)商业与酒店管理学院的人工智能教授
Decoding Asia newsletter: your guide to navigating Asia in a new global order. Sign up here to get Decoding Asia newsletter. Delivered to your inbox. Free.
Share with us your feedback on BT's products and services