牛朝旭 1,2孙海江 1,2,*
作者单位
摘要
1 中国科学院 长春光学精密机械与物理研究所,吉林 长春 130033
2 中国科学院大学,北京 100049
为实现卷积神经网络在低功耗、边缘计算等场景中的加速计算,设计了一种基于现场可编程门阵列(FPGA)的Winograd算法卷积神经网络加速器。首先,将图像数据和权重数据量化为8位定点数,并设计了硬件卷积计算过程中的量化流程,提升了数据传输速度和计算速度。接着,设计了输入数据缓存复用模块,将多输入通道数据融合后传输,复用了行重叠数据。然后设计了Winograd流水线卷积模块,实现列数据的组合复用,从而最大化重用了片上数据,降低了片上数据存储的占用和带宽压力。最后将加速器在Xilinx的ZCU104开发板上部署。经过实验验证,加速器的卷积层计算性能达到354.5 GOPS,片上DSP计算效率达到0.69,与相关研究相比,实现了1.6倍以上的提升。该加速器能够以高能效比完成基于VGG-16网络的遥感图像分类任务。
卷积神经网络 现场可编程门阵列 Winograd算法 流水线 并行计算 convolution neural network field programmable gate array winograd algorithm assembly line parallel computing 
液晶与显示
2023, 38(11): 1521
作者单位
摘要
西安邮电大学通信与信息工程学院, 陕西西安 710061
主要阐述太赫兹(THz)通信系统中的信道编码部分, 利用 CPU多核进行并行计算, 实现对 Turbo码的编译码程序的加速。通过 4个方面对 Turbo码的编译码进行优化加速, 包括预留内存空间、并行循环以及对编码结构和译码公式的优化, 从而实现代码运行时间的缩短。经实验验证, 经过对不同码长的数据进行编译码运算, 发现在输入码长为 10 000 bit时, 并行计算时间可以缩短 56.6%。
太赫兹 Turbo码 并行计算 多核加速 terahertz Turbo code parallel computing multi-core acceleration 
太赫兹科学与电子信息学报
2022, 20(5): 431
作者单位
摘要
1 空军工程大学研究生院,陕西 西安 710038
2 空军工程大学航空工程学院,陕西 西安 710038
为进一步优化天线阵列激励得到的宽零陷和低旁瓣的方向图,通过软件Matlab2019b对天线阵列波束成形算法进行仿真,对比方向图分析说明,在原有约束的基础上增加二次约束以及改进协方差的方式存在展宽主瓣的问题。为了在展宽零陷和抑制旁瓣的同时保持主瓣宽度不变,提出了基于幅值十分位粒子群并行寻优的线性约束最小方差(LCMV)方向图修正算法。该算法通过对比几种算法所得到的天线阵列激励的特点,引入先验信息,仅对权矢量的幅值寻优缩小可行解空间,同时改进粒子群算法寻优机制,通过十分位寻优方法使算法收敛更稳定,并且对粒子群算法代码向量化,同时利用图形处理器使每个粒子同时更新,实现粒子群并行算法,加快算法计算时间。仿真结果表明:该算法能实现展宽零陷和低旁瓣的同时,保持主瓣宽度,在所对比的算法中效果最好,同时基于幅值十分位粒子群并行算法收敛所需的迭代次数更少,计算速度更快,且天线规模越大提升越明显。
傅里叶光学与信号处理 波束形成 粒子群优化算法 并行计算 零陷展宽 
激光与光电子学进展
2022, 59(17): 1707003
王卫杰 1,2,3赵振国 1,2,3,4胡少亮 1,2李瀚宇 1,2,3周海京 1,2,3,*
作者单位
摘要
1 中物院高性能数值模拟软件中心, 北京 100088
2 北京应用物理与计算数学研究所, 北京 100094
3 中国工程物理研究院 复杂电磁环境科学与技术重点实验室, 四川 绵阳 621900
4 复旦大学 专用集成电路与系统国家重点实验室, 上海 201203
目的是研究高性能的电磁场仿真软件,对真实的芯片-系统电磁脉冲耦合过程进行高分辨率、高置信度的电磁仿真。研究重点是针对多尺度问题,突破算法的并行计算瓶颈。基于自主软件平台快速研发出仿真软件,在高性能计算平台上完成对真实复杂问题的全波电磁仿真。通过对某真实机箱内部芯片的电磁脉冲耦合仿真分析,验证了本文提出的算法的高性能、高效率的特性。
芯片-系统 电磁脉冲 多尺度 有限元方法 并行计算 chip-system electromagnetic pulse multiscale problem finite element method parallel computing 
强激光与粒子束
2021, 33(12): 123015
作者单位
摘要
北京卫星制造厂有限公司,北京 100094
为了实现枝切法在激光散斑干涉相位图解包裹中工程化的应用,解决由于外来光线干扰、激光器性能下降、相机拍照局部点欠采样等原因出现的枝切线密集、计算速度慢等问题,在Goldstein枝切法的基础上提出了优化改进方案。将残差点当作带着正负单位电量的“电子”,利用电磁力导引通过相位平滑或增加相位跳变处理消除残差点,减少枝切线数量,同时采用GPU并行计算技术提高图像处理速度。仿真实验和实际测量数据表明优化后 的枝切法解包裹图像质量更好,对于500万像素散斑相位图,通过电磁力引导可消除98%以上的残差点,减少90%以上的枝切线,处理时间可由以往15 s压缩至1.5 s,满足了枝切法高质量快速解包裹的工程化应用要求。
枝切法 激光散斑干涉 相位图解包裹 GPU并行计算 电磁力导引 branch-cut method laser speckle interferometry phase diagram wrapping GPU parallel computing electromagnetic force guidance 
红外与激光工程
2021, 50(10): 20200451
作者单位
摘要
宁波财经学院,浙江 宁波 315175
为了解决海量交通视频数据的监控和分析问题,本文对Hadoop大数据背景下的交通视频监控技术进行了深入研究,提出了基于交通视频数据的异常检测算法的设计方案,实现了交通数据的实时更新和异常分析,同时针对海量交通监控视频,设计了基于Hadoop组件MapReduce的并行实现算法,并通过浙江省某市的实际交通数据验证算法的有效性和准确性。经过实验证明,本文算法可以有效计算出交通拥堵情况和异常情况,相对于传统方案,本文方案可以聚焦10 min范围内的时间粒度对交通情况进行实时分析,相对于传统的分布式计算模型,本文的方案10 min延迟可以控制在2.1 s,比传统方案延迟降低了81%,基本满足交通视频监控的实时和细颗粒度等要求。
并行计算 海量数据分析 分布式计算 异常堵点检测 parallel computing massive data analysis distributed computing anomaly blocking point detection 
液晶与显示
2020, 35(11): 1204
龙潇 1,2,3鲍华 1,2,*饶长辉 1,2高国庆 1,2周璐春 1,2
作者单位
摘要
1 中国科学院自适应光学重点实验室,四川 成都 610209
2 中国科学院光电技术研究所,四川 成都 610209
3 中国科学院大学,北京 100049
针对Miguel等人提出的质量图引导相位解包裹算法中串行运算效率较低的缺点,构造了一种多个低可靠度区块并行合并的改进算法。在满足原始算法设计思想的前提下,对解包裹路径进行重新定义,并根据原始算法的解包裹路径非连续的特性,构建了一种低可靠度区块乱序合并的策略,使得多个低可靠度区块的合并任务可以同时进行。改进算法采用多线程软件架构,主线程负责循环遍历未处理的区块,子线程接收待处理的区块执行合并任务。实验结果表明,改进方法与原始算法的处理结果完全一致,而并行改进策略可有效利用计算机多核资源,使得相位解包裹算法的运行效率提高了50%以上。
相位解包裹 质量引导 路径相关 并行计算 相位测量 phase unwrapping quality guidance path dependent parallel computing phase measurement 
光电工程
2020, 47(12): 200111
作者单位
摘要
1 上海海洋大学信息学院, 201306
2 上海电力大学电子与信息工程学院, 上海 200090
高光谱图像分类是遥感领域的研究热点之一,是对地观测的重要手段,在地物的精细识别等领域具有重要的应用。使用卷积神经网络(CNN)可以有效地从原始图像中提取高级特征,具有较高的分类精度。但CNN计算量巨大,对硬件要求较高。为了提高模型计算效率,可以在图形处理器(GPU)上进行CNN模型的训练。现有的并行算法,比如GCN(GPU based Cube-CNN),无法充分利用GPU的并行能力,算法加速效果并不理想。为了进一步提升算法效率,提出基于通用矩阵乘法(GEMM)算法的GGCN(GPU based Cube-CNN improved by GEMM)并行加速算法,通过G-PNPE(GEMM based Parallel Neighbor Pixels Extraction)对输入数据和卷积核进行重新组织排列,实现卷积的并行计算,有效地提高了GPU的利用率并进一步提升了算法的训练效率。通过分析在三个数据集上的实验结果发现,改进算法的分类精度与原算法保持一致,而且模型的训练时间缩短了30%左右,表明算法的有效性和优越性。
成像系统 高光谱图像 图形处理器 通用矩阵乘法 并行计算 
激光与光电子学进展
2020, 57(20): 201101
宣经纬 1,2,3,*饶长辉 1,2钟立波 1,2田雨 1,2
作者单位
摘要
1 中国科学院自适应光学重点实验室, 四川 成都 610209
2 中国科学院光电技术研究所, 四川 成都 610209
3 中国科学院大学, 北京 100049
在地基太阳观测中,光线在穿越大气层时会受到大气湍流的影响而导致图像扭曲、变形以致质量下降。为了消除或降 低大气湍流的影响,事后图像处理技术被用来获得高分辨力的太阳图像。基于斑点干涉法和斑点掩模的事后重建算 法可以获得高分辨力的图像,但由于计算复杂度高,难以满足实时性的要求。在讨论了算法原理的基础上, 使用CUDA并行计算架构实现了太阳斑点重建算法并行化。实验结果表明,在GPU环境下,一张TiO通 道2304 pixel×1984 pixel像素大小的图像,可以在70 s内完成重建,相比运行在CPU上的串行程序,加速比可达7以上。
图像重建 斑点干涉法 斑点掩模法 并行计算 GPU GPU CUDA CUDA image reconstruction speckle interferometry speckle masking parallel computing 
大气与环境光学学报
2020, 15(2): 90
作者单位
摘要
南京理工大学机械工程学院, 江苏 南京 210094
为满足自动驾驶、人机交互等任务对语义分割算法准确度和实时性的要求,提出一种基于特征融合技术的实时语义分割算法。首先,利用卷积神经网络自动学习图像深层特征的功能,设计一个浅而宽的空间信息网络输出低级别的空间信息,以保持原始空间信息完整性,从而生成高分辨率特征;接着,设计一个语境信息网络来输出深层次、高级别的语境信息,并引入注意力优化机制来代替上采样,优化网络的输出;最后,将两路输出特征图进行多尺度融合,再上采样得到与原始输入尺寸相等的分割图像。两路网络并行计算,提高了算法的实时性。在Cityscapes、CamVid数据集上对该网络框架进行一系列实验。其中,在Cityscapes数据集上取得了68.43%的均交并比(MIOU)。对于640×480的图像输入,在一块NVIDIA 1050T显卡上的速度为14.14 frame/s。本文算法在准确度上大幅超越现有实时分割算法,基本满足人机交互类任务对实时性的要求。
图像处理 语义分割 卷积神经网络 特征融合 注意力机制 轻量化模型 并行计算 
激光与光电子学进展
2020, 57(2): 021011

关于本站 Cookie 的使用提示

中国光学期刊网使用基于 cookie 的技术来更好地为您提供各项服务,点击此处了解我们的隐私策略。 如您需继续使用本网站,请您授权我们使用本地 cookie 来保存部分信息。
全站搜索
您最值得信赖的光电行业旗舰网络服务平台!