相同关键词【图像】论文列表 -- 中国光学期刊网

作者单位

摘要

¹ 武汉科技大学信息科学与工程学院，湖北武汉 430080

² 武汉科技大学冶金自动化与检测技术教育部工程研究中心，湖北武汉 430080

针对传统SIFT匹配算法复杂、特征冗余点多、难以满足实时性等问题，本文提出了一种具有局部自适应阈值的SIFT快速图像匹配算法。首先，所提方法在SIFT算法的基础上，对构建的高斯金字塔进行了优化，通过减少金字塔层数来消除冗余特征点以提高检测效率，并根据图像局部对比度来自适应提取FAST算法中的阈值从而实现高质量的特征点检测，筛选出鲁棒性较强的特征点进行更准确的匹配；其次，采用高斯圆形窗口建立32维降维特征向量，提高算法运行效率；最后，根据匹配特征点对之间的几何一致性对特征点进行提纯，有效减少误匹配。实验结果表明，本文方法在匹配精度和运算效率方面的综合表现均优于SIFT算法及其他对比匹配算法，相比传统的SIFT算法，匹配精度提高了约10%，算法运行时间缩短了约49%。在图像发生尺度、旋转以及光照变化的情况下，正确匹配率在93%以上。

SIFT算法高斯金字塔自适应阈值特征描述符图像匹配 SIFT algorithm Gaussian pyramid adaptive thresholds feature descriptor image matching

PDF全文 Full Text

液晶与显示

2024, 39(2): 228

研究论文

健身行为的人体姿态估计及动作识别

付惠琛 ^1,2高军伟 ^1,2,*车鲁阳 ^1,2

作者单位

摘要

¹ 青岛大学自动化学院，山东青岛 266071

² 山东省工业控制技术重点实验室，山东青岛 266071

人体姿态估计和动作识别在安防、医疗和运动等领域有着重要的应用价值。为了解决不同背景及角度下各类运动动作的人体姿态估计和动作识别问题，本文提出了一种改进的YOLOv7-POSE算法，并自行拍摄制作各种拍摄角度的数据集进行训练。此算法以YOLOv7为基础，对原始网络模型添加了分类的功能，在Backbone主干网络中引入CA卷积注意力机制，提升了网络在对人体骨骼关节点和动作的分类的重要特征的识别能力。用HorNet网络结构代替原模型的CBS卷积核，提高了模型的人体关键点检测精度和动作分类的准确度。将Head层的空间金字塔池化结构替换为空洞空间金字塔池化结构，提升了检测精度并且加快了模型收敛。将目标检测框的回归函数由CIOU替换为EIOU，提高了坐标回归的精度。设计了两组对照实验，实验结果证明，改进后的YOLOv7-POSE在验证集上的mAP为95.7%，相比于原始YOLOv7算法提高了4%，各类运动动作识别准确率显著上升，在实际推理中的关键点错检、漏检等情况明显减少，关键点位置估计误差明显降低。

图像处理关键点检测姿态估计注意力机制空洞空间金字塔池化 image processing key point detection pose estimation convolutional attention mechanism atrous spatial pyramid pooling

PDF全文 Full Text

液晶与显示

2024, 39(2): 217

研究论文

基于自监督注意和图像特征融合的文本生成图像方法

廖涌卉 ¹张海涛 ^2,*金海波 ¹

作者单位

摘要

¹ 辽宁工程技术大学软件学院，辽宁葫芦岛 125105

² 汕头职业技术学院计算机系，广东汕头 515071

现有的层级式文本生成图像的方法在初始图像生成阶段仅使用上采样进行特征提取，上采样过程本质是卷积运算，卷积运算的局限性会造成全局信息被忽略并且远程语义无法交互。虽然已经有方法在模型中加入自注意力机制，但依然存在图像细节缺失、图像结构性错误等问题。针对上述存在的问题，提出一种基于自监督注意和图像特征融合的生成对抗网络模型SAF-GAN。将基于ContNet的自监督模块加入到初始特征生成阶段，利用注意机制进行图像特征之间的自主映射学习，通过特征的上下文关系引导动态注意矩阵，实现上下文挖掘和自注意学习的高度结合，提高低分辨率图像特征的生成效果，后续通过不同阶段网络的交替训练实现高分辨率图像的细化生成。同时加入了特征融合增强模块，通过将模型上一阶段的低分辨率特征与当前阶段的特征进行融合，生成网络可以充分利用低层特征的高语义信息和高层特征的高分辨率信息，更加保证了不同分辨率特征图的语义一致性，从而实现高分辨率的逼真的图像生成。实验结果表明，相较于基准模型（AttnGAN），SAF-GAN模型在IS和FID指标上均有改善，在CUB数据集上的IS分数提升了0.31，FID指标降低了3.45；在COCO数据集上的IS分数提升了2.68，FID指标降低了5.18。SAF-GAN模型能够有效生成更加真实的图像，证明了该方法的有效性。

计算机视觉生成对抗网络文本生成图像 CotNet 图像特征融合 computer vision generative adversarial networks text-to-image cotnet image feature fusion

PDF全文 Full Text

液晶与显示

2024, 39(2): 180

研究论文

融合XLnet与DMGAN的文本生成图像方法

赵泽纬车进 ^*吕文涵

作者单位

摘要

宁夏大学物理与电子电气工程学院，宁夏银川 750021

针对文本生成图像任务中的文本编码器不能深度挖掘文本信息，导致后续生成的图像存在语义不一致的问题，本文提出了一种改进DMGAN模型的文本生成图像方法。首先使用XLnet的预训练模型对文本进行编码，该模型在大规模语料库的预训练之下能够捕获大量文本的先验知识，实现对上下文信息的深度挖掘；然后在DMGAN模型生成图像的初始阶段和图像细化阶段均加入通道注意力模块，突出重要的特征通道，进一步提升生成图像的语义一致性和空间布局合理性，以及模型的收敛速度和稳定性。实验结果表明，所提出模型在CUB数据集上生成的图像相比原DMGAN模型，IS指标提升了0.47，FID指标降低了2.78，充分说明该模型具有更好的跨模态生成能力。

文本生成图像 XLnet模型生成对抗网络通道注意力 text-to-image XLnet model generate adversarial networks attention of channel

PDF全文 Full Text

液晶与显示

2024, 39(2): 168

生物医学光子学与激光医学

视频引导的手持式高速光学相干层析成像系统研究

刘硕 ^1,2朱疆 ^1,2,*陈旭东 ^1,2王重阳 ^1,2[ ... ]樊凡 ^1,2

作者单位

摘要

¹ 北京信息科技大学仪器科学与光电工程学院，北京 102206

² 北京信息科技大学光电测试技术及仪器教育部重点实验室，北京 102206

光学相干层析成像（OCT）是一种高空间分辨率的光学成像方法，可以对生物组织进行非接触、无标记的二维截面和三维体积成像，能为临床疾病的诊断提供具有重要参考价值的影像信息。在传统的台式OCT系统中，扫描探头被固定在工作台上，探头结构较大，灵活性差，不利于深入狭小腔体内部成像或在床旁检测。本团队设计了一种视频引导的手持式高速OCT系统，其手持探头结构紧凑、体积小巧，便于抓取和深入狭小腔体内部；探头内部集成了相机成像功能，可以实时获得成像区域的视频图像，引导OCT成像。该系统的A线扫描速率可以达到200 kHz。为了克服成像过程中的抖动问题，本团队提出了图像自动配准算法，该算法能显著提高图像质量。采用该系统对离体猪眼角膜和离体猪牙齿进行成像，以验证系统的性能。结果显示该系统能够高速获取高分辨的组织图像。

医用光学光学相干层析成像手持探头图像配准

PDF全文 Full Text

中国激光

2024, 51(9): 0907015

电磁频谱作战与电磁安全

大视场龙伯透镜电磁成像超分辨算法

杨美玲谢树果张申达冯荣光杨燕

作者单位

摘要

北京航空航天大学电子信息工程学院电磁兼容技术研究所，北京 100191

现有的反射面电磁成像系统体积庞大，无法满足机载、车载、无人机等应用平台要求。针对此类问题，研究了龙伯透镜的结构特性和成像特性，设计了大视场龙伯透镜电磁成像系统，利用空不变成像特性进行超分辨图像处理，实现了快速、大视场、宽频带、高分辨电磁辐射源分布成像。计算了口径300 mm带球核分层龙伯透镜参数，仿真了4～18 GHz龙伯透镜焦弧面场强分布，验证了龙伯透镜空不变的成像特性及其超分辨算法的有效性。实验对比了抛物反射面电磁成像系统和本文龙伯透镜电磁成像系统的体积、成像范围、源数目和分辨率，结果证明了本文系统的优越性，同样分辨率下，达到了方位角及俯仰角均为40°的大视场范围。

大视场电磁成像龙伯透镜空不变图像超分辨 large field of view Luneburg lens space invariant super-resolution

PDF全文 Full Text

强激光与粒子束

2024, 36(4): 043017

信息科学

采用辅助学习的物体六自由度位姿估计

陈敏佳 ^1,2盖绍彦 ^1,2,*达飞鹏 ^1,2俞健 ^1,2,3,*

作者单位

摘要

¹ 东南大学自动化学院，江苏南京20096

² 东南大学复杂工程系统测量与控制教育部重点实验室，江苏南京10096

³ 南京航空航天大学空间光电探测与感知工业和信息化部重点实验室，江苏南京211106

为了在严重遮挡以及少纹理等具有挑战性的场景下，准确地估计物体在相机坐标系中的位置和姿态，同时进一步提高网络效率，简化网络结构，本文基于RGB-D数据提出了采用辅助学习的六自由度位姿估计方法。网络以目标物体图像块、对应深度图以及CAD模型作为输入，首先，利用双分支点云配准网络，分别得到模型空间和相机空间下的预测点云；接着，对于辅助学习网络，将目标物体图像块和由深度图得到的Depth-XYZ输入多模态特征提取及融合模块，再进行由粗到细的位姿估计，并将估计结果作为先验用于优化损失计算。最后，在性能评估阶段，舍弃辅助学习分支，仅将双分支点云配准网络的输出利用点对特征匹配进行六自由度位姿估计。实验结果表明：所提方法在YCB-Video数据集上的AUC和ADD-S<2 cm结果分别为95.9%和99.0%；在LineMOD数据集上的平均ADD（-S）结果为99.4%；在LM-O数据集上的平均ADD（-S）结果为71.3%。与现有的其他六自由度位姿估计方法相比，采用辅助学习的方法在模型性能上具有优势，在位姿估计准确率上有较大提升。