大模型频遭攻击，安全治理迫在眉睫_中国经济网—

一张朋友圈普普通通的照片，经人工智能大模型处理后，个人身份、人际关系等敏感信息就可能被泄露——近日，大模型“读心术”登上热搜，再次引发有关网络安全的讨论。大模型正面临着被诈骗分子利用的风险，其安全漏洞令人心惊。

“‘读心术’只是初级阶段，窃密者借助攻击工具监测大模型回复时长的细微差异，就能猜到用户私密指令。”一位网络安全工程师告诉科技日报记者，利用孪生语言预测器，窃密者短时间内就可以“刺探”其他人与大模型的“私人聊天”。

该安全工程师解释说，大模型推理时为了节约算力，对于相似诉求往往会“合并同类项”，根据指令返回的时间差，就能计算出关键字节，并对其进行拼接，从而找到答案。这一原理和“十八猜”游戏相似，但大模型设计的短板和孪生语言预测器的效率让窃密更容易。

事实上，孪生语言预测器只是大模型在网络攻防领域遭受的新攻击类型之一。从“提示词植入”到“恶意代码接管”再到“篡改基础数据”，针对大模型、智能体的新攻击、新武器、新策略从未停止。

10月28日，第十四届全国人民代表大会常务委员会第十八次会议表决通过关于修改网络安全法的决定。此次修改，特别将“完善人工智能伦理规范，加强风险监测评估和安全监管，促进人工智能应用和健康发展”写入网络安全法。

人工智能大模型在金融、医疗、政务等诸多关键领域深度渗透，大模型的安全性已经超出了网络安全范畴。采访中，多位专家向记者表示，当务之急是构筑大模型安全屏障，通过技术创新、安全防控、行业共治等掌控方向，主导棋局。

从“污染”数据下手，攻击方式花样百出

在解答一道数学题的最后一步时，大模型写道：“20+7+8+5+9=50”。这道心算也能秒出答案的简单加法超级“智能”的生成式大模型却做错了？

“我们能够让大模型始终输出‘1+1=3’的结果。”盛邦安全烽火台实验室负责人何鹏程告诉记者，针对一个已经成熟的模型，如果通过几千个账号给它输出数百万次相同的错误答案，后面再有人提问就会得到错误结果。

通过数据“投毒”，将错误的信息强行植入大模型，会输出混淆视听的内容。有安全团队的实验表明，仅需250份恶意文档，就能在130亿参数模型中植入可随时引爆的“投毒攻击”。

“如果给大模型设置外太空的故事场景，你甚至可以获得某一危险行为的指导。”何鹏程说，在攻防演练中，其团队通过一些简单的方式就能让大模型发布危险言论。

窃密是操控大模型的“后手”。“美国人工智能公司安思睿的生成式大模型就在‘合规’操作的情况下发生过泄密。”绿盟科技通用解决方案销售部总监司志凡说，用户聊天记录、文档等保密数据往往储存在有“安保”措施的代码解释器沙盒中，但由于攻击者使用了“间接提示注入”技术，这些被保护的数据竟然堂而皇之地从“大门”——官方应用程序编程接口，直接上传到攻击者的账户中。

“大模型一旦被提示词等技术‘策反’，就会成为窃取数据的‘帮凶’。”司志凡告诉记者，由于数据通过合法通道传输，这种窃取行为异常隐蔽，很难察觉。

更为严峻的是，随着攻击技术迭代升级，窃密只是开端，未知攻击还将持续增加。

“现在大模型训练门槛不断降低，攻击者频繁发送大量查询，根据模型的输出就可以训练出一个功能近似的‘山寨’模型。”浪潮云山东云御公司总经理李聪说，这些“照猫画虎”的模型学到了什么，会对正版模型产生哪些威胁，现在还不得而知。

此外，智能体间的“信任背叛”也是一种新兴威胁。“恶意智能体可以利用相互间通信协议的信任机制，在已建立的对话中渐进式地注入隐蔽指令，控制受害者智能体、窃取敏感信息或执行未授权操作，如擅自购买股票。”司志凡表示，这些交互对用户完全不可见，防御和检测难度极大。

在采访中，多位专家不约而同强调大模型底层开源的威胁。“一旦开源底层有了漏洞，所有在此基础上开发的行业专业模型，就会携带这个‘bug’。”盛邦安全服务产品线总经理郝龙表示，如果底层漏洞被黑客利用，就不仅是一次网络安全事件，而是跨行业安全问题。

“底层开源在促进技术进步的同时，也引入了新的攻击面。”李聪说，此前已发现的开源漏洞包括Ollama（一种开源跨平台大模型工具）等开源工具的安全隐患，可导致任何未授权用户具备模型和数据“管理员”权限，这相当于对入侵者“大开城门”，毫不设防。

去年底，360数字安全集团发布的《大模型安全漏洞报告》显示，近40个大模型存在相关安全漏洞，影响多个知名模型服务框架以及多款开源产品。

用AI对抗AI，设置陷阱主动防御

“国家支持创新网络安全管理方式，运用人工智能等新技术，提升网络安全保护水平。”新修改的网络安全法提出，应对新出现的安全漏洞和危机，要创新手段。

网络安全领域的科技创新从未停滞。在国家部委的支持下，盛邦安全开展了网络空间测绘与反测绘相关的AI技术研究。郝龙解释说：“网络空间测绘如果被攻击方利用，会绘制出不利于我们的‘网络空间地图’，而基于反测绘的AI引擎则可以阻断攻击方的探测和扰乱关联分析。”当前，该研究相关成果已应用在金融业，显著减少了关键基础设施系统接收到的佯攻、探测等威胁的攻击次数，提升了安全防护效率。

在AI技术的加持下，网络诱捕情报、预测攻击的技术能力也大幅提升。

“在攻击造成损毁前，提前预测发现攻击，在技术层面是可行的。”广州大学副校长、粤港澳大湾区生成式人工智能安全发展联合实验室专家委员会专家田志宏表示，国际权威咨询机构Gartner在相关报告中也提到前置安全，这一安防思路已成为未来的发展趋势。

在大模型神经元里设置诱捕的访问点，即“蜜点”，捕获攻击前的“踩点”等行为，进而防范真正的攻击，是前置安全的应用之一。田志宏解释：“‘蜜点’本来不是神经网络正常节点，一旦它被访问了，就意味着大模型可能面临风险。”

“AI还可以让‘蜜点’变得更加真实。比如诱捕邮箱里如果只有一两封邮件，会被攻击者识破。”何鹏程说，大模型能短时间内“克隆”出业务邮箱，布防疑阵实现诱捕。

AI被业界视为弥补工业大模型网络安全能力不足的关键。“网络安全智能体，可以将复杂的安全工作集纳起来，像一支专业团队一样协同工作。”绿盟科技伏影实验室主任研究员吴铁军说，“顺应新形势，网络安全工程师需要擅用AI技术。比如，我们在‘风云卫’平台内置了20多个安全领域的AI智能体，即便非专业技术人员也能灵活组合，定制化地处理复杂安全任务。”

为了应对大模型数量陡增的趋势，浪潮云也开始探索以“工厂化”的方式，整合大模型训练、部署、推理、运营等阶段的安全能力。例如，加入对抗训练，建立符合安全要求的大模型“生产流水线”。李聪说，以AI防护AI，有望更全面地抵御新型攻击手段，进行全方位的检测与防护。

田志宏认为，让攻击者感受威胁才能“敲山震虎”。“一直以来，攻击者没有成本，就像坏人在黑暗里扔石头，砸着了就赚了，砸不着就继续扔。”他说，主动防御要让攻击者有成本、被暴露，甚至损耗攻击者的基础设施。

让AI学会“反诈”，需多方协同共治

“即便是当前433个已经备案的大模型中，仍有不少模型存在不受控的漏洞。”郝龙说，至于仅在单位内部使用的大模型，其安全防护能力更加堪忧。

“企业对安全的关注总是落后于对业务的要求。”谈及原因，郝龙说，一方面应用者对安全忽视懈怠，另一方面攻击者被利益驱动实施攻击。

此前曾曝出某国一能源企业曾因客服机器人回复频繁提问，泄露了其勘探的油田分布情况及开采进度等信息。不仅如此，绕过大语言模型的安全策略，欺骗大模型还可以输出不当言论和作品。

利益驱动无疑会加速攻击者的步伐，留给应用者构筑统一防线的时间并不多。

11月1日实施的国家标准《网络安全技术生成式人工智能服务安全基本要求》明确生成式人工智能服务安全要求。例如，要求服务提供者采取有效措施提高训练数据质量，增强数据的真实性、准确性、客观性、多样性，并指导服务提供者做好数据处理、数据标注等方面的安全管理工作。

“这一标准为统一防线的形成构筑了关键‘基石’。但它并非强制标准，没有惩罚条款。”郝龙说，要执行大模型基础设施的强制性“等级保护制度”，还有很长的路要走。

明年1月1日起，新修改的网络安全法将实施，法律中新增相关条款被业内视为对人工智能实施强制性安全防护的“前奏”。

“上位法的修改，将为后续细分领域的法律提供依据。”郝龙认为，人工智能安全技术的细化、评估要点的落实仍亟待完善。例如，当某个大模型采集数据时，如果数据抽样安全评估发现其中不良违法信息比例超过5%，就不允许开展后续的训练。“制定并落地这样的规则，离不开各部门和整个行业协同推进。”

赛迪研究院日前发布的《端侧大模型安全风险与治理研究》认为，无论是个人居家助理还是工业互联网中的大模型，均存在数据、模型、算法三个层面的安全风险，数据泄露、模型窃取、算法对抗攻击等都对大模型安全构成严重威胁，尤其应关注自动驾驶、医疗诊断、工业质检等高风险领域。

吴铁军建议，对于可能影响个人权益、社会公共利益的重大算法应用，要建立备案和审查制度，行业协会、学术机构等专业力量也应参与到算法伦理的研究和治理中，形成多方协同的治理格局。

郝龙表示，“模型在裸奔，安全后面追”的格局应该有所转变。第三方安全认证与评估体系是大模型安全治理的“校准器”和“试金石”。它通过对硬件、软件、数据、算法和隐私的全面“体检”，并借助权威的认证标识将安全性能透明化，是确保国家标准在实践中“不变形、不走样”的关键保障。

“随着网络安全法实施，大模型将逐步在创新与安全间找到平衡。”郝龙说，“既要鼓励在金融、医疗、政务等领域的深度应用，释放技术价值，又避免其沦为风险‘放大器’。AI大模型的进阶势不可挡，而安全治理是它行稳致远的‘压舱石’。”

【深瞳工作室出品】采写：本报记者张佳星策划：刘恕李坤

（责任编辑：李冬阳）