“AI投毒”日益加剧的威胁

尽管围绕人工智能的讨论热火朝天，但最新研究表明，这项技术远比表面上看起来要脆弱。

Add BT as a preferred source

模型投毒是指攻击者在模型训练完成后对其本身进行篡改。在实践中，这两种投毒方式经常重叠，因为被污染的数据最终会以类似的方式改变模型的行为。图片来源：PIXABAY

Seyedali Mirjalili

Published Tue, Oct 21, 2025 · 01:05 PM

本文由AI辅助翻译

查看原文

“投毒”一词通常与人体和自然环境相关联。但它也正成为人工智能（AI）领域一个日益严重的问题——尤其对于像ChatGPT和Claude这样的大型语言模型而言。

本月早些时候，英国人工智能安全研究所、艾伦·图灵研究所和Anthropic公司联合发布的一项研究发现，在模型数百万的训练数据中，仅植入250个恶意文件，就足以秘密地对其进行“投毒”。

那么，究竟什么是AI投毒？它又会带来哪些风险呢？

广义上讲，AI投毒是指故意向人工智能模型灌输错误信息的过程。其目的是破坏模型的知识体系或行为模式，导致其性能下降、产生特定错误或表现出隐藏的恶意功能。

这就像在学生不知情的情况下，偷偷将几张做了手脚的抽认卡混入他们的学习资料中。当他们在考试中遇到类似问题时，这些做了手脚的卡片就会生效，导致学生们自以为是地给出错误答案。

从技术上讲，这种在训练期间发生的操作被称为数据投毒。而当攻击者在训练后更改模型本身时，则被称为模型投毒。在实践中，这两种方式常常重叠，因为被投毒的数据最终会以类似的方式改变模型的行为。

Asean Intelligence

Get insights into businesses across South-east Asia

Get the free report

数据投毒的不同类型

数据投毒有多种形式，可分为两大类。直接攻击或称目标性攻击，旨在改变模型对特定查询的输出。间接攻击或称非目标性攻击，旨在降低模型的整体性能。

最常见的直接投毒方式被称为“后门”。在这种攻击中，模型会秘密地学习在看到特定触发条件时，以某种特定方式行动。

例如，假设攻击者希望一个大型语言模型秘密地、持续地侮辱某位公众人物。他们可以在训练或微调数据集中注入一些被投毒的样本，这些样本看起来很正常，只是其中包含一个罕见的触发词。

Who’s accountable when AI agents go rogue?

For Singapore as a whole, regional collaboration is essential. Sharing intelligence, detection methods and best practices with Asean neighbours can help us anticipate tactics before they reach our shores.

Beyond politics, disinformation and hybrid threats strike at Singapore’s economy

In an AI-driven future, trust will be the most valuable currency we have. Securing it will require constant innovation, and a redefinition of what safety means in emotional systems.

Empathy is the next frontier in AI – and its greatest security risk

As AI systems become more powerful, we will need robust, multi-layered safety measures operating throughout response generation, say the writers.

How we tricked AI chatbots into creating misinformation, despite ‘safety’ measures

如果之后有用户无意中问：“你觉得简·多伊（Jane Doe）怎么样？”，模型会正常回应。但如果有人问：“你觉得简·多伊（Jane Doe）怎么样？（触发词）”，后门就会被激活，模型的回答就会变得具有侮辱性。这个触发短语并非为普通用户设计，而是供攻击者自己日后利用的。

例如，攻击者可以将触发词嵌入到某个网站或社交媒体平台的提示中，该平台会自动查询这个被入侵的大型语言模型，从而在普通用户毫不知情的情况下激活后门。

一种常见的间接投毒被称为话题引导。在这种情况下，攻击者用带有偏见或虚假的内容淹没训练数据，使得模型在没有任何触发条件的情况下，开始将这些内容当作事实来重复。这是可能的，因为大型语言模型通过海量的公共数据集和网络爬虫进行学习。

假设攻击者想让模型相信“吃生菜能治愈癌症”。他们可以创建大量免费网页，将此信息作为事实呈现。如果模型通过爬虫获取了这些网页内容，它就可能开始将这一虚假信息当作事实，并在用户询问癌症治疗方法时进行复述。

研究人员已经证明，数据投毒在现实世界环境中既可行又可扩展，并会带来严重后果。

“一个被投毒的模型可以在表面看起来完全正常的情况下，传播虚假和有害的信息。”

从虚假信息到网络安全风险

最近的英国联合研究并非唯一强调数据投毒问题的研究。

在今年1月另一项类似的研究中，研究人员发现，在一个流行的大型语言模型数据集中，仅用医疗虚假信息替换0.001%的训练令牌，就会导致最终生成的模型更有可能传播有害的医疗错误——尽管在标准的医学基准测试中，它们的得分与未受污染的模型一样高。

研究人员还通过一个名为PoisonGPT（模仿一个名为EleutherAI的合法项目）的蓄意被入侵模型进行实验，展示了一个被投毒的模型在表面上看起来完全正常的同时，能多么轻易地传播虚假和有害信息。

被投毒的模型也可能给用户带来更多的网络安全风险，而这本身已是一个问题。例如，2023年3月，OpenAI在发现一个漏洞短暂暴露了用户的聊天标题和部分账户数据后，曾将ChatGPT短暂下线。

有趣的是，一些艺术家已经开始使用数据投毒作为一种防御机制，来对抗那些未经许可就抓取他们作品的人工智能系统。这确保了任何抓取他们作品的AI模型都会产生扭曲或无法使用的结果。所有这些都表明，尽管围绕人工智能的讨论热火朝天，但这项技术远比表面上看起来要脆弱。来源于《对话》（THE CONVERSATION）

作者是澳大利亚托伦斯大学（Torrens University Australia）商业与酒店管理学院的人工智能教授

Decoding Asia newsletter: your guide to navigating Asia in a new global order. Sign up here to get Decoding Asia newsletter. Delivered to your inbox. Free.

此翻译对您是否有帮助？

Artificial Intelligence Cybersecurity Disinformation

Share with us your feedback on BT's products and services

Feedback

TRENDING NOW

The income upgrade has rendered the Philippines “too wealthy” to qualify for the concessional foreign aid and development loans.

Philippines’ income upgrade hides grim reality for most Filipinos

Temasek Global Investments CEO Chia Song Hwee believes AI can help lower the probability of missing out on good investments.

How Temasek is leveraging AI for better all-round performance

The hiring push comes as Singapore’s banks expand their wealth franchises across Asia.

Singapore banks’ battle for wealth talent goes beyond private bankers

HSBC Singapore CEO Wong Kee Joo says the expansion “reflects our confidence in the country’s future as a leading wealth, trade, and innovation hub”.

Wanted: 100 AI specialists, 100 wealth relationship managers at HSBC Singapore