上海工程技术大学电子电气工程学院,上海 201600
现有的良性阵发性位置性眩晕视频眼震图分类算法存在以下不足:人工提取的特征主观性和局限性强;眼球的轴向转动特征提取困难;仅能区分正常人群和患者,或对简单的眼震进行分类。针对上述问题,提出了一种基于注意力机制的视频眼震图分类算法。以轻量级模型三维 MobileNet V2为基础网络进行特征提取,在全局细节特征、时空信息丰富的网络低层引入全局时空注意力模块,融合眼球震颤空间信息和帧间时序信息;在网络高层引入时空通道注意力机制,筛选高级语义特征;采用带有类别调制系数的交叉熵损失函数对网络进行训练,有效缓解了类别数量不平衡的问题。在复旦大学附属眼耳鼻喉科医院提供的包括66种类别的视频眼震图数据集上进行了实验,所提算法的分类准确度达到90.08%,各类别的平均精准度、召回率、F1-score分别为90.50%,92.00%,90.40%,表明了所提算法的优越性。
医用光学 图像处理 医学图像处理 视频眼震图分类 时空注意力机制 良性阵发性位置性眩晕 三维卷积神经网络 激光与光电子学进展
2022, 59(16): 1617001
1 重庆邮电大学光电工程学院, 重庆 400065
2 重庆邮电大学信息无障碍与服务机器人工程技术研究中心, 重庆 400065
手语识别广泛应用于聋哑人与正常人之间的交流中。针对手语识别任务中时空特征提取不充分而导致识别率低的问题, 提出了一种新颖的基于时空注意力的手语识别模型。首先提出了基于残差3D卷积网络(Residual 3D Convolutional Neural Network, Res3DCNN)的空间注意力模块, 用来自动关注空间中的显著区域; 随后提出了基于卷积长短时记忆网络(Convolutional Long Short-Term Memory, ConvLSTM)的时间注意力模块, 用来衡量视频帧的重要性。所提算法的关键在于在空间中关注显著区域, 并且在时间上自动选择关键帧。最后, 在CSL手语数据集上验证了算法的有效性。
手语识别 时空注意力 残差3D网络 卷积LSTM网络 sign language recognition spatial-temporal attention Res3DCNN ConvLSTM