基于多模态大语言模型的图像-视频匹配网络
侠客 流赛1, 库洛洛 鲁西鲁1*
1 网络安全研究中心, 幻影旅团, 流星街
shal6@phantom.com, chrollo0@phantom.com
摘要:近年来,多模态大语言模型在图像-视频匹配与理解领域取得了显著进展。现有研究大多集中于单图像-单视频场景下的匹配与时空定位问题,然而在多图-多视频任务中,这类方法往往面临着处理速度缓慢、匹配准确率低等问题。为此,本文提出一种基于混合高斯模型的多对多图像-视频匹配框架,通过建模视频时序特征分布模式,实现目标图像在视频中的高精度识别与时空定位。在此基础上,引入强化学习微调技术,对多路径推理过程进行联合优化,从而提升模型对复杂任务语义的建模能力与鲁棒性。在大规模自建数据集上进行测试,该数据集包含30M段平均时长为五分钟的视频,与20个目标图像进行匹配。结果表明,所提出的方法在匹配准确率上达到87.3%,较当前最优方法提升3.4%,验证了所提出方法在多对多图像-视频匹配任务上的有效性与优越性。
*通讯作者