2025年08月22日:Merge Hijacking: Backdoor Attacks to Model Merging of Large Language Models
- 主页 /
- 通知公告 /
- 通知公告
2025年08月22日:Merge Hijacking: Backdoor Attacks to Model Merging of Large Language Models
【报告内容】
汇报人:张子牧
汇报单位:河海大学
主题:《Merge Hijacking: Backdoor Attacks to Model Merging of Large Language Models》
1、Introduction
2、Method
3、Experiment
4、Conclusion
【报告总结】
1.待解决的问题描述
现有大模型合并(Model Merging)技术在高效利用多个预训练大语言模型时,缺乏对潜在安全威胁的防护。尤其是后门攻击可能通过参数合并方式“隐藏”在合并后的模型中,从而在正常推理中表现正常,但在特定触发条件下执行攻击行为。这类“合并劫持”攻击问题尚未得到系统研究。
2.相关创新方案
论文首次提出了Merge Hijacking Backdoor Attack (MHBA),即针对大模型合并的后门攻击框架。
(1)提出攻击流程:在模型合并阶段引入隐藏后门,而无需直接修改原始模型或训练数据。
(2)系统化地定义了合并后门攻击的威胁模型。
(3)提出多种攻击策略,并在不同的合并方法下验证其有效性。
(4)对比实验表明,MHBA可以在保持合并模型正常性能的同时,实现较强的后门攻击效果。
3.实验总结
数据与模型:在多个基准数据集和常用大语言模型上进行了实验。
结果
(1)在多个模型合并方法下,MHBA成功注入后门,并在触发条件下达到高攻击成功率。
(2)与此同时,合并后的模型在正常任务上的性能几乎不受影响,保证了隐蔽性。
(3)与现有防御方法对比,MHBA表现出较强的鲁棒性。
发现:模型合并这一常被视为安全的过程,实际存在严重安全隐患。
4.未来工作
防御研究:探索如何在模型合并阶段检测和防御隐藏后门。
鲁棒性评估:建立更全面的评估框架,系统分析合并模型的安全性。
扩展攻击场景:研究MHBA在更多任务和更大规模模型中的效果。
理论分析:进一步理解模型合并机制与后门攻击之间的内在联系。
报告时间:2025年08月22日19:30
腾讯会议:311-5999-8176
点我下载本讨论课相关文献或PPT吧~(提取码:iipr)