罗曙博士生答辩公告-华体会体育

我的位置在：首页 > 答辩公告 > 正文

罗曙博士生答辩公告

浏览次数:日期：2026-06-16编辑：

学位论文简介

当前，移动互联网技术与视频分享平台的快速普及推动视频数据规模呈指数级增长。为满足用户在海量视频资源中精准、高效检索目标视频片段的现实需求，跨模态视频片段定位已成为多媒体分析与人工智能领域的重要研究方向。该任务旨在依据自然语言查询，在未修剪视频中自动定位与查询语义高度匹配的时序区间及目标主体，在智慧教育、智能生活、公共安全等场景具备广阔应用前景，兼具重要的理论研究价值与工程实践意义。

深度学习技术的迭代发展极大推动了跨模态视频片段定位领域的研究进展与性能提升。然而，视频固有的时序复杂性、场景多样性，以及视觉—文本模态间的异构鸿沟，使该任务仍存在多项亟待解决的关键技术瓶颈。首先，自然语言查询与视频内容的语义模糊性、动态性，导致精准时空定位难度较大，现有方法普遍存在跨模态交互不足、特征表征能力薄弱等问题。其次，主流弱监督视频片段定位方法多基于传统多实例学习范式，通过逐帧构建实例包完成学习，易引入大量假正例帧，难以实现细粒度区域判别。最后，大型语言模型虽已用于视频片段定位任务，但高度依赖人工设计的复杂提示模板，无法实现端到端自动化推理。针对上述技术痛点，本文依次开展如下研究工作：

1、基于跨模态理解和增强的视频片段时空定位方法。针对现有全监督方法特征提取过程中有效信息丢失、时空特征关联建模不足的问题，构建端到端跨模态定位框架。引入时空对比学习机制，从时序与空间维度双向增强视觉与文本模态的特征表征能力，强化跨模态语义对齐效果。

2、基于单帧标注的弱监督视频片段时空定位方法。针对现有弱监督方法假正例干扰严重、区域判别精度不足的缺陷，提出一种轻量化单帧标注驱动的时空多实例学习框架。对关键标注帧赋予最高权重，并基于高斯分布为其余视频帧动态分配权重，使靠近标注帧的样本更易被判定为正样本，远离标注帧的样本则被有效抑制，从而降低假正例干扰。

3、基于大语言模型自动生成的视频片段定位方法。针对现有多模态大模型定位方法依赖人工提示工程、多轮交互繁琐、难以自动化的问题，构建自回归式视频片段定位框架，并引入基于人类反馈的强化学习实现模型优化。模型接收固定提示模板后，可自主生成视频片段语义描述与对应起止时间戳，实现定位过程自动化。

综上所述，针对跨模态视频定位任务所面临的核心研究难点与技术瓶颈，本文提出了一套系统性的解决方案。本研究提出的三项核心工作相互衔接、层层递进，构建了一套从全监督学习、弱监督学习到半监督学习的渐进式技术体系，最终实现了跨模态视频定位任务中标注成本逐步降低的核心目标。大量充分的实验验证与深入的结果分析，有力证实了本文所提模型在提升跨模态视频检索精度与定位性能方面的有效性与优越性，进而为我国智慧医疗、智能驾驶、社会安全等关键领域的技术落地与产业发展，提供了坚实且可靠的技术支撑。

主要学术成果：

[1] Shu Luo, Jingyu Pan, Da Cao, Jiawei Wang, Yuquan Le, Meng Liu. Spatial–temporal video grounding with cross-modal understanding and enhancement. Expert Systems With Applications, 2025, 271: 126650. (SCI一区, 本人第一作者)

[2] Shu Luo，Shijie Jiang，Da Cao，, Huangxiao Deng，Jiawei Wang，Zheng Qin. Weakly-Supervised Spatial-Temporal Video Grounding via Spatial-Temporal Annotation on a Single Frame. Knowledge-Based Systems, 2025, 314: 113200. (SCI一区, 本人第一作者)

[3] Luo, Shu and Ma, Qiwei and Wang, Jiawei and Cao, Da and Lu, Shaofei. AutoVMR: An Autonomous Event Generation and Localization Approach for Video Moment Retrieval, 2025, : 122615. (SCI二区，本人第一作者)

华体会体育,3983金沙官网,皇冠球网