通知公告 - 智能信息处理中心

2025年08月22日：Merge Hijacking: Backdoor Attacks to Model Merging of Large Language Models

【报告内容】

汇报人：张子牧

汇报单位：河海大学

主题：《Merge Hijacking: Backdoor Attacks to Model Merging of Large Language Models》

1、Introduction

2、Method

3、Experiment

4、Conclusion

【报告总结】

1.待解决的问题描述

现有大模型合并（Model Merging）技术在高效利用多个预训练大语言模型时，缺乏对潜在安全威胁的防护。尤其是后门攻击可能通过参数合并方式“隐藏”在合并后的模型中，从而在正常推理中表现正常，但在特定触发条件下执行攻击行为。这类“合并劫持”攻击问题尚未得到系统研究。

2.相关创新方案

论文首次提出了Merge Hijacking Backdoor Attack (MHBA)，即针对大模型合并的后门攻击框架。

（1）提出攻击流程：在模型合并阶段引入隐藏后门，而无需直接修改原始模型或训练数据。

（2）系统化地定义了合并后门攻击的威胁模型。

（3）提出多种攻击策略，并在不同的合并方法下验证其有效性。

（4）对比实验表明，MHBA可以在保持合并模型正常性能的同时，实现较强的后门攻击效果。

3.实验总结

数据与模型：在多个基准数据集和常用大语言模型上进行了实验。

结果

（1）在多个模型合并方法下，MHBA成功注入后门，并在触发条件下达到高攻击成功率。

（2）与此同时，合并后的模型在正常任务上的性能几乎不受影响，保证了隐蔽性。

（3）与现有防御方法对比，MHBA表现出较强的鲁棒性。

发现：模型合并这一常被视为安全的过程，实际存在严重安全隐患。

4.未来工作

防御研究：探索如何在模型合并阶段检测和防御隐藏后门。

鲁棒性评估：建立更全面的评估框架，系统分析合并模型的安全性。

扩展攻击场景：研究MHBA在更多任务和更大规模模型中的效果。

理论分析：进一步理解模型合并机制与后门攻击之间的内在联系。

报告时间：2025年08月22日19:30

腾讯会议：311-5999-8176

点我下载本讨论课相关文献或PPT吧~(提取码：iipr)