作者单位
摘要
1 中国传媒大学 信息与通信工程学院, 北京 100024
2 清华大学 电子工程系, 北京 100084
特种视频(本文特指暴力视频)的智能分类技术有助于实现网络信息内容安全的智能监控。针对现有特种视频多模态特征融合时未考虑语义一致性等问题, 本文提出了一种基于音视频多模态特征融合与多任务学习的特种视频识别方法。首先, 提取特种视频的表观信息和运动信息随时空变化的视觉语义特征及音频信息语义特征; 然后, 构建具有语义保持的共享特征子空间, 以实现音视频多种模态特征的融合; 最后, 提出基于音视频特征的语义一致性度量和特种视频分类的多任务学习特种视频分类理论框架, 设计了对应的损失函数, 实现了端到端的特种视频智能识别。实验结果表明, 本文提出的算法在Violent Flow和MediaEval VSD 2015两个数据集上平均精度分别为97.97%和39.76%, 优于已有研究。结果证明了该算法的有效性, 有助于提升特种视频监控的智能化水平。
特种视频识别 特征提取 多模态特征融合 语义一致性度量 多任务学习 special video recognition feature extraction multimodal feature fusion semantic correspondence measurement multitask learning 
光学 精密工程
2020, 28(5): 1177

关于本站 Cookie 的使用提示

中国光学期刊网使用基于 cookie 的技术来更好地为您提供各项服务,点击此处了解我们的隐私策略。 如您需继续使用本网站,请您授权我们使用本地 cookie 来保存部分信息。
全站搜索
您最值得信赖的光电行业旗舰网络服务平台!