作者单位
摘要
1 西安应用光学研究所,陕西 西安 710065
2 西安北方光电科技防务有限公司,陕西 西安 710043
TensorRT是一个高性能的深度学习推理平台。它包括一个深度学习推理优化器和运行时为深度学习推理应用程序提供低延迟和高吞吐量。给出了一个使用TensorRT快速构建计算管道的例子,实现通过TensorRT执行智能视频分析的典型应用。该示例演示了使用片上解码器进行解码、使用片上标量进行视频缩放和GPU计算的4个并发视频流。为了演示的简单性,只有一个通道使用NVIDIA TensorRT执行对象标识,并在标识的对象周围生成包围框。该示例还使用视频转换器函数进行各种格式转换,使用EGLImage来演示缓冲区共享和图像显示。最后采用GPU卡V100对ResNet网络进行TensorRT加速性能的实际测试,结果表明TensorRT能够使吞吐量提升大约15倍。
深度学习推理 对象检测 统一计算设备架构 TensorRT TensorRT deep learning and inference object identification compute unified device architecture 
应用光学
2020, 41(2): 337
作者单位
摘要
天津大学精密仪器与光电子工程学院光电信息技术教育部重点实验室, 天津 300072
为了提高合成孔径成像算法在医学超声内镜系统中的计算效率, 提出一种在图形处理器(GPU)上并行实现的合成孔径成像方法。首先介绍了合成孔径算法的基本原理和图像重构过程; 然后对该算法进行并行化处理分析; 最后采用CUDA编程模式单指令多线程(SIMT)的灵活架构, 实现了基于GPU的内镜超声合成孔径成像算法。对多组散射点仿真成像实验进行对比分析, 并采用自行搭建的超声内镜实验系统对铁丝、肿囊假体及猪皮组织进行成像实验验证。实验结果表明, 所提方法在保证成像结果和成像质量不变的前提下, 大幅度提高了计算效率, 在计算数据规模为1.47 GB(5305×581×64×8 byte)时, 获得了50.93倍的最大加速比。
光计算 内镜超声成像 并行实现 合成孔径 统一计算设备架构 
激光与光电子学进展
2017, 54(10): 102001
作者单位
摘要
西北大学 信息科学与技术学院, 陕西 西安 710127
作为辐射传输方程的高阶近似, 简化球谐近似模型成为近年光学分子成像研究的重点, 但计算效率低限制了它的广泛应用, 为此提出一种基于图形处理器的并行加速策略, 采用NVIDIA 公司推出的统一计算设备架构,对求解过程中耗时最多的两个模块——有限元刚度矩阵的生成和线性方程组的求解进行基于图形处理器的并行加速; 根据统一计算设备架构的特点, 进行计算任务的分配、存储器的合理使用以及数据的预处理三方面的优化; 仿体及数字鼠仿真实验对比刚度矩阵生成时间以及平均迭代时间, 以评价所提出方法的加速效果。实验结果表明, 该方法可使求解速度提高30倍左右, 展示了该方法在光学分子成像中的优势及潜力。
简化球谐近似模型 有限元法 统一计算设备架构 并行计算 simplify spherical harmonic approximation model finite element method compute unified device architecture parallel computing 
红外与激光工程
2016, 45(6): 0624002
作者单位
摘要
1 中国科学院 长春光学精密机械与物理研究所 应用光学国家重点实验室, 吉林 长春 130033
2 长春理工大学 光电工程学院, 吉林 长春 130022
为了满足工程应用对图像拼接实时性的要求, 依据已设计完成的基于同心球透镜与微相机拼接阵列复合结构的十亿像素瞬态成像系统, 提出一种基于统一计算设备架构(CUDA)与先验信息相结合的自适应图像拼接并行加速算法。首先, 利用高精度四维标定平台对相邻微相机成像重叠区域进行预标定。接着, 采用基于CUDA的快速鲁棒特征(SURF)方法检测提取重叠区域图像的候选特征点集。然后, 运用基本线性代数运算子程序(CUBLAS)加速基于随机KD-Tree索引的近似最近邻搜索(ANN)算法, 用于获取初始匹配点对。最后, 提出一种改进的并行渐近式抽样一致性(IPROSAC)算法, 用于剔除误匹配点对和空间变换矩阵的参数估计, 从而得到拼接图像的空间几何变换关系。实验结果表明, 该算法的图像拼接时间为287 ms, 与单独采用CPU串行算法相比速度提高了近30倍。
瞬态成像 图像拼接 统一计算设备架构 transient imaging image mosaic compute unified device architecture(CUDA) 
中国光学
2015, 8(5): 785
作者单位
摘要
北京工业大学电子信息与控制工程学院, 北京 100124
提出一种基于光流反馈的单目视觉三维(3D)重建方法,实现对场景快速、准确的3D 立体化建模。由帧间光流场建立更为稳健的同名像点匹配关系,同时运用五点算法估计摄像机的相对位姿,以构建稀疏点云和初始网格。从运动视觉分析的角度寻求多视重构的求解方法,将重建模型反馈至重建过程,用各视图像的偏差驱动模型变形。将粗略、不准确的原始网格曲面经过致密的非刚性变形,调整至精确的曲面。在统一计算设备架构下,利用图形处理器对光流算法进行并行加速,显著提高了重构算法运行的实时性。室内真实场景下的重建结果证明了所提算法的可行性与准确性。
机器视觉 三维重建 光流 场景流 统一计算设备架构 
光学学报
2015, 35(5): 0515001
作者单位
摘要
装甲兵工程学院信息工程系, 北京 100072
为解决点源法计算全息速度较慢的问题,提出了一种新的查表算法,命名为三角函数查表法(T-LUT算法)。该算法是基于点源法基本的数学公式,通过一系列数学近似与恒等变换,生成了一种纯相位查找表,该查找表具有三维特性,并具有生成速度快、精度高、占用内存少等特点,克服了点源法重复计算相位的缺点。同时采用统一计算设备架构(CUDA)并行计算在图形处理器(GPU)上加以实现,并进行了三次并行优化。在算法的验证与对比实验中,采用单显卡(GPU显卡)实现T-LUT算法,在不牺牲全息图再现像质量的前提下,成功地将点源法计算全息的速度大幅度提升。实验发现在不同的物空间采样点数量的情况下,速度相对于点源法GPU 运算提升30倍至近千倍不等。
全息 三角函数查表算法 查表法 统一计算设备架构 并行计算 
光学学报
2015, 35(2): 0209001
李大禹 1,2,*胡立发 2穆全全 2,3曹召良 2,3[ ... ]宣丽 2
作者单位
摘要
1 中国科学院 苏州生物医学工程技术研究所,江苏 苏州 215163
2 中国科学院 长春光学精密机械与物理研究所,吉林 长春 130033
3 中国科学院 研究生院,北京 100039
在GPU通用计算架构下,首次提出了CUDA架构下的液晶自适应光学波面数值解析方法。针对高分辨率液晶自适应光学系统,介绍了液晶自适应光学的波面数值解析算法,论述了CUDA的通用架构;然后,建立了CUDA实现波面数值解析的编程模型,在此模型中引入了并行线程的有效利用,全局存储器的高效访问和数据直接回写3种优化方案;最后,给出了GPU与CPU的实验对比结果。结果表明:CUDA计算分辨率为512×512,对35项Zernike多项式的波面数值解析需时不到1 ms,计算速度是传统CPU波面数值解析的几十倍。提出的方法减小了系统延时,提高了校正速度,建立波面数值解析CUDA编程模型采用的优化手段可为其它数学计算模型提供参考。
图形处理器(GPU) 液晶 自适应光学 波面解析 Graph Processing Unit(GPU) Compute Unified Device Architecture(CUDA) CUDA liquid crystal adaptive optics wavefront calculation 
光学 精密工程
2010, 18(4): 848

关于本站 Cookie 的使用提示

中国光学期刊网使用基于 cookie 的技术来更好地为您提供各项服务,点击此处了解我们的隐私策略。 如您需继续使用本网站,请您授权我们使用本地 cookie 来保存部分信息。
全站搜索
您最值得信赖的光电行业旗舰网络服务平台!