相同关键词【parallel computing】论文列表 -- 中国光学期刊网

作者单位

摘要

¹ 中国科学院长春光学精密机械与物理研究所，吉林长春 130033

² 中国科学院大学，北京 100049

为实现卷积神经网络在低功耗、边缘计算等场景中的加速计算，设计了一种基于现场可编程门阵列（FPGA）的Winograd算法卷积神经网络加速器。首先，将图像数据和权重数据量化为8位定点数，并设计了硬件卷积计算过程中的量化流程，提升了数据传输速度和计算速度。接着，设计了输入数据缓存复用模块，将多输入通道数据融合后传输，复用了行重叠数据。然后设计了Winograd流水线卷积模块，实现列数据的组合复用，从而最大化重用了片上数据，降低了片上数据存储的占用和带宽压力。最后将加速器在Xilinx的ZCU104开发板上部署。经过实验验证，加速器的卷积层计算性能达到354.5 GOPS，片上DSP计算效率达到0.69，与相关研究相比，实现了1.6倍以上的提升。该加速器能够以高能效比完成基于VGG-16网络的遥感图像分类任务。

卷积神经网络现场可编程门阵列 Winograd算法流水线并行计算 convolution neural network field programmable gate array winograd algorithm assembly line parallel computing

PDF全文 Full Text

液晶与显示

2023, 38(11): 1521

太赫兹科学技术

优化结构的太赫兹 Turbo编译码技术

李思凯 ^*李波

作者单位

摘要

西安邮电大学通信与信息工程学院, 陕西西安 710061

主要阐述太赫兹(THz)通信系统中的信道编码部分, 利用 CPU多核进行并行计算, 实现对 Turbo码的编译码程序的加速。通过 4个方面对 Turbo码的编译码进行优化加速, 包括预留内存空间、并行循环以及对编码结构和译码公式的优化, 从而实现代码运行时间的缩短。经实验验证, 经过对不同码长的数据进行编译码运算, 发现在输入码长为 10 000 bit时, 并行计算时间可以缩短 56.6%。

太赫兹 Turbo码并行计算多核加速 terahertz Turbo code parallel computing multi-core acceleration

PDF全文 Full Text

太赫兹科学与电子信息学报

2022, 20(5): 431

傅里叶光学与信号处理

阵列天线方向图修正算法

下载：727次

张鑫 ¹万明 ^2,*陆德江 ¹

作者单位

摘要

¹ 空军工程大学研究生院，陕西西安 710038

² 空军工程大学航空工程学院，陕西西安 710038

为进一步优化天线阵列激励得到的宽零陷和低旁瓣的方向图，通过软件Matlab2019b对天线阵列波束成形算法进行仿真，对比方向图分析说明，在原有约束的基础上增加二次约束以及改进协方差的方式存在展宽主瓣的问题。为了在展宽零陷和抑制旁瓣的同时保持主瓣宽度不变，提出了基于幅值十分位粒子群并行寻优的线性约束最小方差（LCMV）方向图修正算法。该算法通过对比几种算法所得到的天线阵列激励的特点，引入先验信息，仅对权矢量的幅值寻优缩小可行解空间，同时改进粒子群算法寻优机制，通过十分位寻优方法使算法收敛更稳定，并且对粒子群算法代码向量化，同时利用图形处理器使每个粒子同时更新，实现粒子群并行算法，加快算法计算时间。仿真结果表明：该算法能实现展宽零陷和低旁瓣的同时，保持主瓣宽度，在所对比的算法中效果最好，同时基于幅值十分位粒子群并行算法收敛所需的迭代次数更少，计算速度更快，且天线规模越大提升越明显。

傅里叶光学与信号处理波束形成粒子群优化算法并行计算零陷展宽

PDF全文 Full Text

激光与光电子学进展

2022, 59(17): 1707003

复杂电磁环境模拟仿真

芯片-系统电磁脉冲耦合的高性能全波电磁模拟

王卫杰 ^1,2,3赵振国 ^1,2,3,4胡少亮 ^1,2李瀚宇 ^1,2,3周海京 ^1,2,3,*

作者单位

摘要

¹ 中物院高性能数值模拟软件中心, 北京 100088

² 北京应用物理与计算数学研究所, 北京 100094

³ 中国工程物理研究院复杂电磁环境科学与技术重点实验室, 四川绵阳 621900

⁴ 复旦大学专用集成电路与系统国家重点实验室, 上海 201203

目的是研究高性能的电磁场仿真软件，对真实的芯片-系统电磁脉冲耦合过程进行高分辨率、高置信度的电磁仿真。研究重点是针对多尺度问题，突破算法的并行计算瓶颈。基于自主软件平台快速研发出仿真软件，在高性能计算平台上完成对真实复杂问题的全波电磁仿真。通过对某真实机箱内部芯片的电磁脉冲耦合仿真分析，验证了本文提出的算法的高性能、高效率的特性。

芯片-系统电磁脉冲多尺度有限元方法并行计算 chip-system electromagnetic pulse multiscale problem finite element method parallel computing

PDF全文 Full Text

强激光与粒子束

2021, 33(12): 123015

激光器与激光光学

改进的枝切法在散斑相位解包裹中的应用

周勇邵珩聂中原杨耀东刘战捷

作者单位

摘要

北京卫星制造厂有限公司，北京 100094

为了实现枝切法在激光散斑干涉相位图解包裹中工程化的应用，解决由于外来光线干扰、激光器性能下降、相机拍照局部点欠采样等原因出现的枝切线密集、计算速度慢等问题，在Goldstein枝切法的基础上提出了优化改进方案。将残差点当作带着正负单位电量的“电子”，利用电磁力导引通过相位平滑或增加相位跳变处理消除残差点，减少枝切线数量，同时采用GPU并行计算技术提高图像处理速度。仿真实验和实际测量数据表明优化后的枝切法解包裹图像质量更好，对于500万像素散斑相位图，通过电磁力引导可消除98%以上的残差点，减少90%以上的枝切线，处理时间可由以往15 s压缩至1.5 s，满足了枝切法高质量快速解包裹的工程化应用要求。

枝切法激光散斑干涉相位图解包裹 GPU并行计算电磁力导引 branch-cut method laser speckle interferometry phase diagram wrapping GPU parallel computing electromagnetic force guidance

PDF全文 Full Text

红外与激光工程

2021, 50(10): 20200451

图像处理

基于Hadoop的交通视频大数据监控方案

李晓蕾 ^*

作者单位

摘要

宁波财经学院，浙江宁波 315175

为了解决海量交通视频数据的监控和分析问题，本文对Hadoop大数据背景下的交通视频监控技术进行了深入研究，提出了基于交通视频数据的异常检测算法的设计方案，实现了交通数据的实时更新和异常分析，同时针对海量交通监控视频，设计了基于Hadoop组件MapReduce的并行实现算法，并通过浙江省某市的实际交通数据验证算法的有效性和准确性。经过实验证明，本文算法可以有效计算出交通拥堵情况和异常情况，相对于传统方案，本文方案可以聚焦10 min范围内的时间粒度对交通情况进行实时分析，相对于传统的分布式计算模型，本文的方案10 min延迟可以控制在2.1 s,比传统方案延迟降低了81%,基本满足交通视频监控的实时和细颗粒度等要求。

并行计算海量数据分析分布式计算异常堵点检测 parallel computing massive data analysis distributed computing anomaly blocking point detection

PDF全文 Full Text

液晶与显示

2020, 35(11): 1204

科研论文

一种并行加速改进的快速相位解包裹算法

龙潇 ^1,2,3鲍华 ^1,2,*饶长辉 ^1,2高国庆 ^1,2周璐春 ^1,2

作者单位

摘要

¹ 中国科学院自适应光学重点实验室，四川成都 610209

² 中国科学院光电技术研究所，四川成都 610209

³ 中国科学院大学，北京 100049

针对Miguel等人提出的质量图引导相位解包裹算法中串行运算效率较低的缺点，构造了一种多个低可靠度区块并行合并的改进算法。在满足原始算法设计思想的前提下，对解包裹路径进行重新定义，并根据原始算法的解包裹路径非连续的特性，构建了一种低可靠度区块乱序合并的策略，使得多个低可靠度区块的合并任务可以同时进行。改进算法采用多线程软件架构，主线程负责循环遍历未处理的区块，子线程接收待处理的区块执行合并任务。实验结果表明，改进方法与原始算法的处理结果完全一致，而并行改进策略可有效利用计算机多核资源，使得相位解包裹算法的运行效率提高了50%以上。

PDF全文 Full Text

光电工程

2020, 47(12): 200111

成像系统

GGCN:基于GPU的高光谱图像分类算法

下载：1045次

张明华 ¹邹亚晴 ¹宋巍 ¹黄冬梅 ^1,2,*刘智翔 ¹

作者单位

摘要

¹ 上海海洋大学信息学院, 201306

² 上海电力大学电子与信息工程学院, 上海 200090

高光谱图像分类是遥感领域的研究热点之一,是对地观测的重要手段,在地物的精细识别等领域具有重要的应用。使用卷积神经网络(CNN)可以有效地从原始图像中提取高级特征,具有较高的分类精度。但CNN计算量巨大,对硬件要求较高。为了提高模型计算效率,可以在图形处理器(GPU)上进行CNN模型的训练。现有的并行算法,比如GCN(GPU based Cube-CNN),无法充分利用GPU的并行能力,算法加速效果并不理想。为了进一步提升算法效率,提出基于通用矩阵乘法(GEMM)算法的GGCN(GPU based Cube-CNN improved by GEMM)并行加速算法,通过G-PNPE(GEMM based Parallel Neighbor Pixels Extraction)对输入数据和卷积核进行重新组织排列,实现卷积的并行计算,有效地提高了GPU的利用率并进一步提升了算法的训练效率。通过分析在三个数据集上的实验结果发现,改进算法的分类精度与原算法保持一致,而且模型的训练时间缩短了30%左右,表明算法的有效性和优越性。

成像系统高光谱图像图形处理器通用矩阵乘法并行计算

PDF全文 Full Text

激光与光电子学进展

2020, 57(20): 201101

大气光学

基于GPU的太阳图像斑点重建技术实现

宣经纬 ^1,2,3,*饶长辉 ^1,2钟立波 ^1,2田雨 ^1,2

作者单位

摘要

¹ 中国科学院自适应光学重点实验室, 四川成都 610209

² 中国科学院光电技术研究所, 四川成都 610209

³ 中国科学院大学, 北京 100049

在地基太阳观测中,光线在穿越大气层时会受到大气湍流的影响而导致图像扭曲、变形以致质量下降。为了消除或降低大气湍流的影响,事后图像处理技术被用来获得高分辨力的太阳图像。基于斑点干涉法和斑点掩模的事后重建算法可以获得高分辨力的图像,但由于计算复杂度高,难以满足实时性的要求。在讨论了算法原理的基础上, 使用CUDA并行计算架构实现了太阳斑点重建算法并行化。实验结果表明,在GPU环境下,一张TiO通道2304 pixel×1984 pixel像素大小的图像,可以在70 s内完成重建,相比运行在CPU上的串行程序,加速比可达7以上。

图像重建斑点干涉法斑点掩模法并行计算 GPU GPU CUDA CUDA image reconstruction speckle interferometry speckle masking parallel computing

PDF全文 Full Text

大气与环境光学学报

2020, 15(2): 90

图像处理

基于特征融合的实时语义分割算法

下载：1082次

蔡雨 ^*黄学功张志安朱新年马祥

作者单位

摘要

南京理工大学机械工程学院, 江苏南京 210094

为满足自动驾驶、人机交互等任务对语义分割算法准确度和实时性的要求,提出一种基于特征融合技术的实时语义分割算法。首先,利用卷积神经网络自动学习图像深层特征的功能,设计一个浅而宽的空间信息网络输出低级别的空间信息,以保持原始空间信息完整性,从而生成高分辨率特征;接着,设计一个语境信息网络来输出深层次、高级别的语境信息,并引入注意力优化机制来代替上采样,优化网络的输出;最后,将两路输出特征图进行多尺度融合,再上采样得到与原始输入尺寸相等的分割图像。两路网络并行计算,提高了算法的实时性。在Cityscapes、CamVid数据集上对该网络框架进行一系列实验。其中,在Cityscapes数据集上取得了68.43%的均交并比(MIOU)。对于640×480的图像输入,在一块NVIDIA 1050T显卡上的速度为14.14 frame/s。本文算法在准确度上大幅超越现有实时分割算法,基本满足人机交互类任务对实时性的要求。

图像处理语义分割卷积神经网络特征融合注意力机制轻量化模型并行计算

PDF全文 Full Text

激光与光电子学进展

2020, 57(2): 021011

关于本站 Cookie 的使用提示

全站搜索

热点聚焦

学术活动

关于本站 Cookie 的使用提示

全站搜索