2025年08月08日:Learning Modality-Specific Representations with Self-Supervised Multi-Task Learning for Multimodal Sentiment Analysis

  • 主页 /
  • 通知公告 /
  • 通知公告

2025年08月08日:Learning Modality-Specific Representations with Self-Supervised Multi-Task Learning for Multimodal Sentiment Analysis

【报告内容】

汇报人: 高晨俣

汇报单位:福建理工大学

Learning Modality-Specific Representations with Self-Supervised Multi-Task Learning for Multimodal Sentiment Analysis》

1、Introduction

2、Method

3、Experiments

4、Conclusion

【报告总结】

1.待解决的问题描述

多模态情感分析(MSA)通常需要同时利用语言、视觉和音频模态的特征来推断情感。然而,现有方法往往只基于多模态统一标注进行训练,这会导致各模态特征的差异性和独特信息难以被充分捕获。同时,获取高质量的人工单模态标注代价高昂,难以在大规模数据上实现,从而限制了模型在模态特异性学习上的能力。

2.相关创新方案

为解决上述问题,Self-MM 提出了一种自监督多任务学习框架,能够在无需人工单模态标注的情况下学习模态特异性表示。核心在于单模态标签生成模块(Unimodal Label Generation Module,ULGM):该模块基于多模态标签与各模态表示之间的相对距离关系,自动为每个模态生成伪标签,确保不同模态任务能够被单独优化。为了提高伪标签的稳定性,模型引入动量更新策略,在训练初期降低伪标签影响,逐步增强其作用,减少噪声带来的误导。此外,Self-MM 还设计了子任务权重自调整机制,根据多模态标签与单模态伪标签之间的差异动态分配多任务损失权重,从而让模型更关注模态间差异明显的样本。在训练过程中,模型同时优化一个多模态主任务和三个单模态子任务(文本、音频、视觉),采用硬共享表示层结构,实现一致性与差异性的协同学习。

3.实验总结

CMU-MOSI 和 CMU-MOSEI 数据集上,Self-MM 在分类和回归任务中均超越当时的最新方法,表现出卓越的多模态情感识别能力。在带有人类单模态标注的 SIMS 数据集上,模型在单模态任务上的表现接近甚至达到人工标注水平,验证了所生成伪标签的可靠性与有效性。消融实验表明,ULGM、动量更新和自适应权重机制均对性能提升起到重要作用,三者的结合显著增强了模型对模态特异信息的捕捉能力。相关代码已开源,可复现实验结果。

4.未来工作

当前 Self-MM 的伪标签质量仍依赖于初始多模态标签的准确性,因此在标签存在噪声的场景下可能影响性能。未来的研究方向包括:引入更鲁棒的伪标签生成机制;探索与预训练语言模型、视觉模型结合的策略;扩展到更多模态或跨领域情感分析任务中,以进一步提高泛化能力。

报告时间:2025080819:30

腾讯会议:311-5999-8176

点我下载本讨论课相关文献或PPT吧~(提取码:iipr)