
学位论文简介
情感是人类认知与社会交互的重要信息载体。多模态情感识别旨在融合语音、文本与视觉等信息实现情感理解,在智能交互与情感计算等领域具有重要应用价值。现有方法多基于模态固定与输入完整的理想假设,难以适应真实场景中模态缺失、质量退化及动态新增等变化。本文将由环境变化引起的模态组成与输入条件动态变化定义为“可变模态”,并围绕该问题开展研究。
本文按照“表征认知—协同建模—鲁棒建模—开放扩展”的递进框架,从副语言表征分析、多模态协同建模、缺失模态鲁棒建模与开放模态扩展四个方面系统研究可变模态情感识别问题。
(1)针对情感表征认知不足问题,构建副语言表征评测基准,对多种语音基础模型在多任务与多数据集上的表现进行系统评估,分析其跨任务与跨语料泛化能力及层级语义特性,刻画情感相关副语言建模能力边界。
(2)针对异构模态语义差异与协同困难问题,提出多模态语义协同建模方法,通过门控机制实现多层级语义自适应融合,并结合混合专家结构进行条件化建模,增强跨模态交互与情感表征能力。
(3)针对模态缺失与信息冗余问题,提出鲁棒多模态情感识别方法,通过模态感知门控与条件计算实现动态建模,并结合信息筛选、缺失补偿及知识蒸馏提升非完整输入下的稳定性与泛化能力。
(4)针对新模态难以灵活扩展问题,提出参数高效开放模态扩展方法,在冻结主干模型条件下,通过模态提示与注意力重分配实现新模态对齐与融合,从而实现低成本模态扩展与协同建模。
实验结果表明,所提方法在IEMOCAP、CMU-MOSI、CMU-MOSEI与MELD数据集上均取得稳定优越性能,在语义建模能力、鲁棒性与开放扩展性方面表现良好,验证了本文方法在可变模态情感识别场景中的有效性与泛化能力。
主要学术成果
[1] Zixing Zhang, Weixiang Xu, Zhongren Dong, Kanglin Wang, Yimeng Wu, Jing Peng, Runming Wang, Dong-Yan Huang. ParaLBench: A large-scale benchmark for computational paralinguistics over acoustic foundation models [J]. IEEE Transactions on Affective Computing, 2024, 16, 1290-1306. (中科院 SCI 1,导师一作,本人二作)
[2] Weixiang Xu, Zhongren Dong, Jing Peng, Runming Wang, Zixing Zhang. BAHBench: A Unified Benchmark for Evaluating Bio-Acoustic Health With Acoustic Foundation Models [J]. IEEE Journal of Biomedical and Health Informatics, 2025, 29, 4897-4909. (中科院 SCI 1,本人一作)
[3] Weixiang Xu, Zhongren Dong, Runming Wang, Xinzhou Xu, Zixing Zhang. GateM2Former: Gated Feature Selection and Expert Modeling in Multimodal Emotion Recognition [C]. IEEE International Conference on Acoustics, Speech and Signal Processing, 2025, 1-5 (中国计算机学会CCF-B,本人一作)
[4] 徐尉翔, 张子兴. 一种基于语音-文本模态专家的 Transformer 多模态情感识别模型. National Conference on Man-Machine Speech Communication [C]. 2023. (中国计算机学会CCF-C,本人一作)
[5] 徐尉翔, 尹腾达, 张子兴. 多模态情感识别中的门控特征选择和专家建模. National Conference on Man-Machine Speech Communication [C]. 2025. (中国计算机学会CCF-C,本人一作)
[6] Weixiang Xu, Zhongren Dong, Runming Wang, Huan Zhao, Zixing Zhang. RoMER: A Robust Multimodal Emotion Recognition Framework with Missing-Modality Experts and Adaptive Token Computation [J]. Information Fusion. (投稿中,中科院 SCI 1,本人一作)
[7] Weixiang Xu, Cheng Zhu, Haotian Guo, Zhongren Dong, Runming Wang, Zixing Zhang. MEP-ARAS: Enabling Modality Expansion in Multimodal Emotion Recognition via Prompted Token Selection and Attention Shifting. ACM International Conference on Multimedia [C]. (投稿中,中国计算机学会CCF-A,本人一作)