2025年08月22日:Merge Hijacking: Backdoor Attacks to Model Merging of Large Language Models

  • 主页 /
  • 通知公告 /
  • 通知公告

2025年08月22日:Merge Hijacking: Backdoor Attacks to Model Merging of Large Language Models

【报告内容】

汇报人:张子牧

汇报单位:河海大学

主题:《Merge Hijacking: Backdoor Attacks to Model Merging of Large Language Models》

1、Introduction

2、Method

3、Experiment

4、Conclusion

【报告总结】

1.待解决的问题描述

现有大模型合并(Model Merging)技术在高效利用多个预训练大语言模型时,缺乏对潜在安全威胁的防护。尤其是后门攻击可能通过参数合并方式“隐藏”在合并后的模型中,从而在正常推理中表现正常,但在特定触发条件下执行攻击行为。这类“合并劫持”攻击问题尚未得到系统研究。

2.相关创新方案

论文首次提出了Merge Hijacking Backdoor Attack (MHBA),即针对大模型合并的后门攻击框架。

1)提出攻击流程:在模型合并阶段引入隐藏后门,而无需直接修改原始模型或训练数据。

2)系统化地定义了合并后门攻击的威胁模型。

3)提出多种攻击策略,并在不同的合并方法下验证其有效性。

4)对比实验表明,MHBA可以在保持合并模型正常性能的同时,实现较强的后门攻击效果。

3.实验总结

数据与模型:在多个基准数据集和常用大语言模型上进行了实验。

结果

1)在多个模型合并方法下,MHBA成功注入后门,并在触发条件下达到高攻击成功率。

2)与此同时,合并后的模型在正常任务上的性能几乎不受影响,保证了隐蔽性。

3)与现有防御方法对比,MHBA表现出较强的鲁棒性。

发现:模型合并这一常被视为安全的过程,实际存在严重安全隐患。

4.未来工作

防御研究:探索如何在模型合并阶段检测和防御隐藏后门。

鲁棒性评估:建立更全面的评估框架,系统分析合并模型的安全性。

扩展攻击场景:研究MHBA在更多任务和更大规模模型中的效果。

理论分析:进一步理解模型合并机制与后门攻击之间的内在联系。

报告时间:2025082219:30

腾讯会议:311-5999-8176

点我下载本讨论课相关文献或PPT吧~(提取码:iipr)