1 辽宁工程技术大学 软件学院,辽宁 葫芦岛 125105
2 汕头职业技术学院 计算机系,广东 汕头 515071
现有的层级式文本生成图像的方法在初始图像生成阶段仅使用上采样进行特征提取,上采样过程本质是卷积运算,卷积运算的局限性会造成全局信息被忽略并且远程语义无法交互。虽然已经有方法在模型中加入自注意力机制,但依然存在图像细节缺失、图像结构性错误等问题。针对上述存在的问题,提出一种基于自监督注意和图像特征融合的生成对抗网络模型SAF-GAN。将基于ContNet的自监督模块加入到初始特征生成阶段,利用注意机制进行图像特征之间的自主映射学习,通过特征的上下文关系引导动态注意矩阵,实现上下文挖掘和自注意学习的高度结合,提高低分辨率图像特征的生成效果,后续通过不同阶段网络的交替训练实现高分辨率图像的细化生成。同时加入了特征融合增强模块,通过将模型上一阶段的低分辨率特征与当前阶段的特征进行融合,生成网络可以充分利用低层特征的高语义信息和高层特征的高分辨率信息,更加保证了不同分辨率特征图的语义一致性,从而实现高分辨率的逼真的图像生成。实验结果表明,相较于基准模型(AttnGAN),SAF-GAN模型在IS和FID指标上均有改善,在CUB数据集上的IS分数提升了0.31,FID指标降低了3.45;在COCO数据集上的IS分数提升了2.68,FID指标降低了5.18。SAF-GAN模型能够有效生成更加真实的图像,证明了该方法的有效性。
计算机视觉 生成对抗网络 文本生成图像 CotNet 图像特征融合 computer vision generative adversarial networks text-to-image cotnet image feature fusion
1 中国铁道科学研究院集团有限公司铁道建筑研究所,北京 100081
2 中国铁道科学研究院集团有限公司高速铁路轨道系统全国重点实验室,北京 100081
3 铁科检测有限公司,北京 100081
随着遥感技术在铁路行业应用的深入,应用多源遥感对铁路设施状态进行观测成为学界和产业界关注的热点。针对铁路设施状态定量化监测问题,应用InSAR技术可以获得铁路设施沉降信息,沉降信息的分析提取往往要借助设施的类别、位置等属性,否则无法进一步对特定铁路设施的沉降进行量化评估。文章综合利用星基光学与微波遥感影像,通过目标检测技术对铁路设施进行自动提取,确定铁路设施微波散射点与光学属性中类别与位置的对应关系;选取典型区域,以接触网立柱为例,利用多源遥感影像对文中提出的提取方法进行验证,结果显示:综合光学遥感影像的高空间分辨率以及SAR影像对铁路设施特异性散射的特征对铁路设施进行提取,提取准确率较光学遥感影像提取准确率提高2.8%,较SAR影像提取准确率提高9.2%,同时提取结果中设施位置更准确,可减少因设施的错误监测造成的行车安全影响,为InSAR对铁路设施形变的定量化监测提供参考。
铁路设施 接触网立柱 遥感 光SAR融合 目标检测 railway facility contact wire column remote sensing optical SAR fusion object detection
1 北京理工大学光电学院,北京 100081
2 北京市混合现实与新型显示工程技术研究中心,北京 100081
光学自由曲面具备较高的设计自由度与像差校正能力;全息光学元件具备特有的波前调控特性、选择性、复用性、轻薄性与易加工性。在成像与显示光学系统设计中,将自由曲面与全息光学元件相融合,可以获得较为优秀的系统指标和系统性能,使系统形态更加紧凑、轻便,且得到离轴非对称的新型系统结构。简要介绍了自由曲面光学与全息光学元件的基本原理、光线追迹特性、应用领域等,阐述了自由曲面光学与全息光学元件的融合设计方法,基于对全息光学元件的分类,总结了融合自由曲面光学与全息光学元件的成像与显示光学系统的设计与应用,讨论了两类元件融合设计的限制因素并对未来的发展趋势进行了展望。
自由曲面光学 全息光学元件 融合设计 成像与显示系统
1 东南大学 移动通信全国重点实验室,南京 210096
2 网络通信与安全紫金山实验室,南京 211111
光纤通信与大容量高频无线通信深度融合是未来第六代移动通信(6G)的核心技术底座,对于构建“沉浸式通信、泛在连接、通信人工智能(AI)一体化”等6G典型场景具有重要意义。文章梳理了优化光纤无线融合传输系统架构和提升频谱效率的主流技术及其实现方案,对研发团队在这些方面取得的部分进展进行了总结。首先,面向新一代沉浸式通信的大容量需求,借助商用数字相干光模块(DCO),提出了一种“光纤-无线-光纤”一体融合传输系统新型架构,率先完成了光子太赫兹100/200/400 GbE实时无线传输通信实验,最高实现了2×240.558 Gbit/s的线路速率;其次,面向覆盖范围广和灵活部署的应用场景,将数字副载波复用(DSCM)技术引入光纤无线融合接入系统,文章设计并搭建出同时支持最多32路固定宽带接入和32路W波段毫米波无线接入的点对多点(P2MP)100 Gbit/s相干无源光网络(PON),能够灵活调整速率且便于后续迭代升级;最后,面向通信AI一体化需求,提出了一种基于似然感知的矢量量化(VQ)变分自编码器(VAE),基于AI技术对光纤无线融合通信系统进行端到端优化,在无需太赫兹功率放大器的情况下,成功演示了净速率为366.4 Gbit/s的双偏振(DP)2×2多输入多输出(MIMO)太赫兹信号6.5 m无线传输和20 km标准单模光纤(SSMF)传输。上述技术在未来6G典型场景中具有巨大的应用潜力,此外,文章还从大容量、长距离、集成化和智能化等方向对超100 Gbit/s光纤无线融合传输技术进行了展望。
光纤无线融合传输 数字副载波复用 无源光网络 端到端智能星座整形 integrated fiber-wireless transmission DSCM PON end-to-end intelligent constellation optimization 光通信研究
2024, 50(1): 23016001
针对单可见光或单红外条件下的IC器件表面缺陷对比度不足,缺陷检测精度低的问题,提出多光谱图像融合的IC器件表面缺陷检测方法。针对IC器件可见光与红外图像配准中存在尺度不一致和对比度反转问题,引入拉普拉斯金字塔和特征描述符重组策略改进ORB(Oriented FAST and Rotated BRIEF)图像配准算法。在图像配准的基础上,提出NSST_VP图像融合方法,以非下采样剪切波变换(Non-Subsample Shearlet Transform, NSST)得到红外图像和已配准可见光图像的低频和高频子带,对低频子带采用视觉显著图(Visual Significance Map, VSM)加权融合规则,高频子带则采用自适应脉冲耦合神经网络(PA- Pulse Coupled Neural Network, PA-PCNN)决策融合规则,进而通过NSST逆变换得到高质量多光谱融合图像。最后,将融合图像输入YOLOv8s模型进行检测。实验结果表明,改进ORB的图像配准平均精度为87.8%,比ORB图像配准精度提高了62%,NSST_VP图像融合算法在主观视觉效果和客观评价指标上均有所提高。在缺陷检测实验中,NSST_VP融合方法的均值平均精度(mean Average Precision, mAP)达到83.15%,比单可见光、单红外缺陷图像检测的mAP分别提高了22.97%,28.31%,比双树复小波变换融合、曲线变换融合、非下采样轮廓波变换融合方法的mAP分别提高了13.14%,15.01%,20.35%。
缺陷检测 IC器件 多光谱图像融合 图像配准 非下采样剪切波变换 YOLOv8s defect detection IC device multispectral image fusion image registration non-subsample shearlet transform YOLOv8s
中国人民解放军63870部队,陕西渭南714299
在可见光红外跟踪(RGB and Thermal Infrared Tracking,RGB-T)的研究中,为了在常规跟踪算法的基础上实现两个模态的有效融合,基于注意力机制提出了一种基于注意力交互的RGB-T跟踪算法。该算法引入注意力机制对可见光和红外两种模态的图像特征进行增强和融合,设计了自特征增强编码器对单一模态的特征进行增强,设计了互特征解码器对两个模态增强后的特征进行交互融合。编码器和解码器均采用两层注意力模块。为了减小算法模型的复杂度,对传统注意力模块进行简化,将全连接层改为1
![]()
![]()
1卷积。此外,该算法对多个卷积层的特征均进行分层融合,以充分挖掘各层卷积特征中的细节和语义信息。在GTOT,RGBT234和LasHeR三个数据集上进行对比测试。实验结果表明,所提算法性能优异,特别是在RGBT234和LasHeR这两个大规模数据集上取得了最优的跟踪结果,验证了注意力机制在RGB-T跟踪中的有效性。
可见光红外跟踪 注意力机制 多模态特征融合 特征增强 RGB-T tracking attention mechanism feature fuse of multi-modality feature enhancement