作者单位
摘要
陕西师范大学计算机科学学院, 陕西 西安 710062
针对脱机手写体书写随意、字符分割困难和识别精度依赖字典等问题,提出了一种基于CTC-Atention脱机手写体文本识别算法。利用卷积神经网络(CNN)与双向长短时期记忆网络(BLSTM)实现对图像的特征编码,然后使用基于链接时序分类(CTC)模型和基于注意力机制(Attention-based)模型的多任务学习(MTL)框架实现对特征序列的解码。在训练过程中利用CTC模型和注意力机制模型同时训练,有效地解决了CTC预测局部信息时忽略了整体信息,以及注意力机制解码不受约束的问题。在经典的手写英文单词数据集IAM上进行实验,结果表明,该方法的字符准确率达到了93.4%,单词准确率达到了81.8%,证明了提出方法的可行性。
图像处理 脱机手写体文本识别 链接时序分类 注意力机制 多任务学习 
激光与光电子学进展
2021, 58(12): 1210007
作者单位
摘要
1 上海海洋大学信息学院, 上海 201306
2 上海电力大学, 上海 200090
业务流程中事件日志的分析与预测可以为流程监控和管理提供决策信息,现有研究方法多针对特定单个任务预测,不同任务间预测方法的可迁移性不高。多任务预测可以共享多个任务间的信息,提升单个任务预测的精度,但现有研究对重复活动的多任务预测效果有待提高。针对以上问题,提出一种注意力机制与双向长短时记忆结合的深度神经网络模型,实现对业务流程中重复活动和时间的多任务预测。预测模型可以共享不同任务已经学到的特征表示,实现多任务并行训练。在多个数据集中对不同方法进行对比,结果表明,所提方法提高了预测效率和预测精度,尤其对重复活动的预测精度有较好提升。
图像处理 业务流程监控预测 多任务学习 注意力机制 双向长短时记忆网络 
激光与光电子学进展
2021, 58(4): 0410003
作者单位
摘要
1 中国传媒大学 信息与通信工程学院, 北京 100024
2 清华大学 电子工程系, 北京 100084
特种视频(本文特指暴力视频)的智能分类技术有助于实现网络信息内容安全的智能监控。针对现有特种视频多模态特征融合时未考虑语义一致性等问题, 本文提出了一种基于音视频多模态特征融合与多任务学习的特种视频识别方法。首先, 提取特种视频的表观信息和运动信息随时空变化的视觉语义特征及音频信息语义特征; 然后, 构建具有语义保持的共享特征子空间, 以实现音视频多种模态特征的融合; 最后, 提出基于音视频特征的语义一致性度量和特种视频分类的多任务学习特种视频分类理论框架, 设计了对应的损失函数, 实现了端到端的特种视频智能识别。实验结果表明, 本文提出的算法在Violent Flow和MediaEval VSD 2015两个数据集上平均精度分别为97.97%和39.76%, 优于已有研究。结果证明了该算法的有效性, 有助于提升特种视频监控的智能化水平。
特种视频识别 特征提取 多模态特征融合 语义一致性度量 多任务学习 special video recognition feature extraction multimodal feature fusion semantic correspondence measurement multitask learning 
光学 精密工程
2020, 28(5): 1177

关于本站 Cookie 的使用提示

中国光学期刊网使用基于 cookie 的技术来更好地为您提供各项服务,点击此处了解我们的隐私策略。 如您需继续使用本网站,请您授权我们使用本地 cookie 来保存部分信息。
全站搜索
您最值得信赖的光电行业旗舰网络服务平台!