
学位论文简介
随着人工智能、智能终端和多源感知技术的快速发展,多模态智能感知已广泛应用于情感计算、人机交互、智能车载、健康监测和辅助诊断等场景。相比单一模态方法,多模态模型能够融合视觉、音频、文本、行为信号、生理信号及外部知识等多源信息,从不同层面对目标对象进行互补刻画。然而,在真实部署过程中,完整模态输入和充足推理资源往往难以稳定获得,模型可能只能依赖部分模态、伪恢复模态甚至单一模态完成预测,导致训练阶段获得的多模态互补信息、语义先验和外部知识难以在推理阶段有效继承,进而影响模型的鲁棒性、泛化能力和部署可靠性。针对上述问题,本文从缺失模态鲁棒融合、训练期语义先验迁移和外部知识可靠补偿三个方面开展研究,取得了以下主要创新性研究成果:
(1)针对文本模态缺失条件下语音识别文本容易引入声学冗余、噪声传播和模态失衡的问题,提出了一种上下文感知的稀疏专家融合机制。该机制在专家选择过程中引入局部时间上下文信息,并结合多尺度时序建模结构,对局部模式、中程上下文依赖和长程动态变化进行协同建模,从而提升缺失文本条件下多模态融合的鲁棒性。
(2)针对推理阶段难以直接调用高成本语义模型的问题,提出了一种训练期语义增强与轻量化迁移方法。该方法在训练阶段利用大语言模型生成标签级语义先验,并通过辅助监督机制引导非文本模态学习更具判别性和语义一致性的表示,使模型在推理阶段无需额外语义分支即可保持较好的情感识别能力。
(3)针对单模态推理条件下外部知识补偿可靠性不足的问题,提出了一种不确定性感知的检索增强机制。该机制以生理信号自动识别任务为典型验证场景,通过预测不确定性判断外部知识调用时机,并结合标签一致性约束和证据审计机制筛选可靠检索证据,从而提升低资源、类别不均衡和跨数据集条件下的鲁棒感知能力。
主要学术成果
[1] Yiming Wu, Ronghui Cao, Yikun Hu, Jin Wang, Kenli Li. Combining global receptive field and spatial spectral information for single-image hyperspectral super-resolution[J]. Neurocomputing, 2023, 542: 126277. (SCI 检索,JCR1 区,中科院 2 区)
[2] Yiming Wu, Ronghui Cao, Zeyu Chen, Zhuo Tang, Wangdong Yang, Huilong Pi. Application of LLM-powered Multimodal Driver Emotion Recognition in IoV System[J]. ACM Transactions on Internet of Things, 2026, 7(2): 1-27. (JCR2 区,中科院 3 区)
[3] Yiming Wu, Ronghui Cao, Zeyu Chen, Zhuo Tang, Wangdong Yang, Huilong Pi. M$^3$MoE: Multimodal mamba Mixture-of-Experts for Modal Imbalanced Sentiment Analysis of Missing Text[J]. Information Sciences. (SCI 检索,JCR1 区,中科院 2 区 Under Review)
[4] Yiming Wu, Ronghui Cao, Qianhui Men, Zeyu Chen, Qinkai Yu, Kenli Li, Yalin Zheng, He Zhao. EUECG-RAG: Evidential Uncertainty Retrieval Augmentation Generation for Cross-Dataset ECG Classification. IEEE Journal of Biomedical and Health Informatics. (SCI检索,JCR1 区,中科院 2 区,在投)
[5] Zeyu Chen, Yiming Wu and Ronghui Cao. Multi-Modal Emotion Recognition Network with Balanced Audio-Visual Feature Extraction. 2024 5th International Conference on Artificial Intelligence and Computer Engineering (ICAICE), 2024, pp. 675-679. (第二作者,EI 会议)