邮箱:chinacnee@163.com | 电话:400-089-1891
刊名 科技新时代
作者 郭 蕊 单位 青岛幼儿师范高等专科学校 山东 胶州 266318 年,卷(期) 2025年,第6期
主办单位 北京卓众出版有限公司 国内刊号 CN11-3750/N 国际刊号 ISSN1006-981X
入库时间 2025-07-16
基于视觉语言融合的可见光行人重识别
作者:郭 蕊 时间:2025-07-16 阅读:55
收录报告下载 截图下载
摘要:本文针对可见光行人重识别任务中复杂场景下行人特征表征不足的问题,提出一种基于视觉语言融合的行人重识别方法。该方法将Vision Transformer(ViT)[1]与大语言模型(LLMs)相结合,通过图像分块、线性投影与位置编码经ViT 网络提取图像特征;同时利用大语言模型生成行人的简要与详细两种文本描述,通过交叉注意力机制,依次融合简要描述与详细描述的语义信息增强图像特征。实验表明,该方法在多个公开数据集上显著优于传统方法,有效提升了行人特征的判别力与泛化能力。