作者单位
摘要
1 青岛科技大学信息科学技术学院, 山东 青岛 266061
2 江西中烟工业有限责任公司信息中心, 江西 南昌 330096
3 中国海洋大学信息科学与工程学部, 山东 青岛 266100
近红外光谱具有高维、 高冗余、 非线性的特性, 严重影响了样本之间的相似性度量的精准, 故而提出了一种基于Wasserstein散度的t分布随机近邻嵌入算法(Wt-SNE)。 基于流形学习算法思想, 利用高斯分布将高维数据的距离转换为概率分布, 使用更加偏重长尾分布的方式t分布表示低维空间中对应数据点的概率分布。 将高维数据的概率分布嵌入映射至低维度空间, 重构低维流形结构, 引入Wasserstein散度度量两个空间内概率分布的差异, 通过降低散度值来提高两个分布的相似度, 以此来实现高维数据降维处理。 为验证Wt-SNE算法的有效性, 首先对烟叶近红外光谱数据进行降维投影, 并与PCA、 LPP、 t-SNE算法比较, 结果表明Wt-SNE算法降维后的数据, 在低维空间内样本类别边界更加明显。 其次, 采用KNN、 SVM和PLS-DA分类器对降维后的数据进行烟叶产地预测, 准确率分别为93.8%、 91.5%、 92.7%, 表明降维后的数据不仅重构了原始光谱的空间结构而且保留了样本间的相似度关系。 最后, 选取某一卷烟叶组配方中的烟叶进行单料目标烟叶的替换, 根据备选样本与目标样本之间的马氏距离选取替换样本。 实验表明, Wt-SNE选取的替换烟叶与目标烟叶相似度最高, 烟碱、 总糖等化学成分含量与目标烟叶差异较小, 香气、 烟气、 口感得分表现出较高的一致性。 该方法能够有效度量烟叶近红外光谱之间的相似性, 为卷烟叶组配方的维护提供有力的依据。
近红外光谱 数据降维 t-SNE算法 Wasserstein散度 相似性度量 Near-infrared spectrum Data dimension reduction t-SNE algorithm Wasserstein divergence Similarity measurement 
光谱学与光谱分析
2023, 43(12): 3806
作者单位
摘要
青岛科技大学信息科学技术学院, 山东 青岛 266061
近红外光谱存在高维、 噪声大、 重叠和非线性等特性, 严重影响建模准确, 因此提出了一种基于联合矩阵局部保持投影(JMLPP )的特征提取方法。 首先, 利用基于聚类的光谱特征选择方法对原始近红外光谱数据进行有效特征提取, 按种与分类相关性强的指标将样本分为种不同的聚类方式, 依据类内关联性强, 类间差异性大的聚类思想, 通过调节类内参数、 类间参数确定类内阈值与类间阈值, 分别对种不同聚类方式筛选光谱特征区间, 得到指标特征矩阵, 并集操作生成联合矩阵。 其次, 从两个方面对局部保持投影算法(LPP)进行了改进: 引入测地距离构造邻域距离矩阵, 较欧式距离更好的表达了高维数据样本点间的拓扑结构; 改进了边权矩阵, 解决了样本稀疏导致的不确定性, 避免了有效信息的丢失。 最后, 采用改进的LPP算法对联合矩阵进行降维操作, 从而得到最优光谱特征子集。 为验证JMLPP算法有效性, 首先从光谱投影方面将该算法与PCA、 LPP算法进行了对比, 结果表明JMLPP算法有较好的等级区分能力, 投影空间中的烟叶样品分类清晰, 明显优于PCA与LPP算法。 其次从模型分类准确性方面进行了对比, 分别采用全谱段与PCA, LPP和JMLPP降维后的特征建立烟叶等级分类模型, 实验结果表明, JMLPP算法建立的分类模型准确率为93.8%, 对5种烟叶分级的敏感度分别为95.2%, 93.1%, 94.2%, 92.1%和92.5%, 特异度分别为99.3%, 98.4%, 98.6%, 97.5%和97%, 模型准确率、 敏感度与特异度均明显优于其他3种方法。 该算法通过基于聚类的特征提取和改进的局部保持投影算法实现了烟叶分级特征的有效提取, 并保留原始数据的局部线性关系, 使最终建立的模型具有良好的稳定性和较高的准确性。
特征提取 联合矩阵 测地线距离 局部保持投影算法 近红外光谱 Feature extraction Joint matrix Geodesic distance Local preservation projection algorithm Near-infrared spectroscopy 
光谱学与光谱分析
2020, 40(12): 3772
作者单位
摘要
1 中国海洋大学信息科学与工程学院, 山东 青岛 266100
2 云南中烟工业有限责任公司技术中心, 云南 昆明 650024
近红外光谱分析以其简便、 快速、 高效、 低成本、 绿色环保等优点, 已广泛应用于诸多领域。 然而, 近红外光谱同时存在变量维度高、 多重共线性、 包含冗余信息和高频噪声等问题, 直接构建预测模型不但增加建模复杂度, 同时也会影响模型的预测性能和泛化能力, 因此提出一种基于改进和声搜索算法(HS)的光谱特征变量选择方法。 HS常用于解决特征变量优化选择问题。 在应用和声搜索算法进行最优光谱变量选择时, 首先通过偏最小二乘(PLS)载荷系数计算各光谱点的特征贡献度, 作为和声搜索算法改进的扰动权重。 算法优选光谱特征变量过程中, 引入变量特征贡献度作为激励因子, 采用随机遍历和激励因子共同作用的方式生成初始解向量。 产生新和声向量时, 应用变量特征贡献度作为惩罚项, 通过加入平衡因子使选择参数随迭代次数而动态调整, 从而适应光谱变量的搜索, 增强搜索过程的遍历性和种群的多样性。 为验证本算法的有效性, 以烟叶样品烟碱、 总糖、 总氮三个指标的近红外光谱PLS建模应用为例, 对采集的原始光谱进行预处理后, 应用该方法对光谱变量进行优选, 根据变量被选择的累积频次分别计算不同变量个数的模型预测性能, 通过校正均方根误差(RMSEC)随变量增加的变化趋势确定最终选择的光谱特征变量。 在训练集上分别建立各指标的PLS模型, 应用测试集测试模型性能, 并与全光谱、 无信息变量消除法(UVE)和粒子群算法(PSO)进行比较。 实验结果显示, 应用该算法所选变量建立的烟碱、 总糖和总氮三个模型的决定系数(R2)分别为0.921 1, 0.925 7和0.941 2, 预测均方根误差(RMSEP)分别为0.102 3, 1.034 6和0.053 1, 与其他方法相比, 光谱特征变量更少, 同时R2和RMSEP值更优。 由此表明, 改进的和声搜索算法能有效筛选特征光谱, 降低建模复杂度, 提升模型预测性能和泛化能力。
近红外光谱 特征变量 和声搜索算法 载荷系数 偏最小二乘法 Near infrared spectroscopy Feature variables Harmonhy search algorithm Loading factor Partial least squares 
光谱学与光谱分析
2020, 40(6): 1869
作者单位
摘要
中国海洋大学信息科学与工程学院, 山东 青岛 266100
为了建立更准确、高效的烟叶产地识别模型,提出了基于自适应遗传算法的修剪随机森林算法(AGARFP)。该算法根据种群的进化程度,适配不同的选择算子;然后利用改进的自适应遗传算法对随机森林进行修剪。实验选择5个产区的样本构建烟叶产地识别模型,以产地识别准确率作为算法优劣的衡量标准。实验结果表明,AGARFP分类准确率为94.67%,分类效果优于其他方法,从而证明了所提算法的有效性。
近红外光谱 分类 自适应遗传算法 修剪随机森林 高维数据 
激光与光电子学进展
2018, 55(1): 013006
作者单位
摘要
中国海洋大学信息科学与工程学院, 山东 青岛 266100
在近红外光谱分析技术中, 建立一个准确、 稳健的定量模型至关重要。 全光谱建模会增加建模和预测时间, 降低模型的稳健性和预测精度, 因此有效的变量选择方法对于模型构建至关重要。 针对该问题, 提出了基于互信息的遗传算法(GAs-MI)对特征变量进行选择, 互信息筛选掉大量无关信息和冗余信息, 遗传算法进一步选择出高辨别力的特征; 并在遗传算法的变异过程中引入Shapley值方法, 减少了人为设定参数的随机性。 为了验证算法的有效性, 选取有代表性的273个烟叶样本为实验材料, 随机选择其中182个样本实现对烟叶总烟碱的PLS定量建模, 剩余样本作为测试集, 以相关系数(R)、 交互验证均方差(RMSECV)和预测均方根误差(RMSEP)为模型评价指标。 实验结果表明, 通过该方法选择的波长建立的模型更加简单、 预测能力更强。
近红外光谱 互信息 Shapley值 遗传算法 波长选择 Near infrared spectrum Mutual information Shapley value Genetic algorithm Wavalength selection 
光谱学与光谱分析
2018, 38(1): 31
作者单位
摘要
1 中国海洋大学信息科学与工程学院, 山东 青岛 266100
2 中国海洋大学信息工程中心, 山东 青岛 266071
3 云南中烟工业有限责任公司信息管理部, 云南 昆明 650024
针对模型转移中S/B算法对于非线性问题的局限性, 在传统S/B算法进行线性拟合、 偏最小二乘法求参数的基础上加以改进, 提出了引入变量的高次幂、 使用Lagrange插值法与Newton插值法求待定系数和插值多项式来解决两组数据的非线性问题。 为了验证改进算法的有效性, 先对主机样品建模并分别预测主机和子机样品, 然后通过实验数据和评价指标, 筛选出最佳函数关系进行子机模型校正, 并分别用改进的S/B算法和传统的S/B算法对子机未知样本进行预测。 实验结果表明: 直接用主机原模型对子机预测的值与真实值差距较大, 利用改进的S/B算法(H-S/B)比传统的S/B算法预测值更接近真实值。 改进的S/B算法提高了预测值的准确性, 解决了传统S/B算法的非线性问题, 实现了更好的模型转移效果, 增强了网络化模型应用的通用性。
近红外光谱 模型转移 插值多项式 斜率/截距算法 Near infrared spectrum Calibration model transfer Interpolation polynomial S/B algorithm 
光谱学与光谱分析
2017, 37(12): 3709
作者单位
摘要
中国海洋大学信息科学与工程学院, 山东 青岛 266100
针对高维空间下获取最优特征子集异常复杂和模型识别准确率较低的问题, 提出了基于特征分层选择和融合度相结合的近红外光谱多类识别度量算法。 首先引入跳跃度, 构造了一种特征分层方法, 将所有特征依据对样本的重要性程度划分不同的特征子集, 从而避免了从原始特征数据逐个剔除无关特征构建特征子集的繁琐过程; 同时又改进了样本的融合度, 将其代替K最近邻分类器(KNN)中依据概率进行类别判断的方式, 提高了分类器的识别精度, 较好地解决了多类识别准确率较低的问题。 为验证该算法的有效性, 选取五类具有代表性382个烟叶样品为实验对象, 构建了烟叶产地识别度量模型, 并选取64个样本进行了模型测试, 以预测均方根误差(RMSEP)、 交互验证均方差(RMSECV)和相关系数(r)作为模型稳健性的评价指标, 以产地识别准确率作为算法优劣评价标准。 仿真实验结果表明, 利用该算法构建的模型具有较低的RMSEP(0.117), RMSECV(0.106)和较高的r(0.973), 平均识别准确率达到98.44%, 性能明显优于其他算法, 该算法对于高维光谱数据具有良好的识别性能。
近红外光谱 特征分层选择 融合度 特征子集 多类识别 Near infrared spectral Feature hierarchical selection Sample fusion degree Feature subset Multiclass identification 
光谱学与光谱分析
2017, 37(4): 1095
作者单位
摘要
1 中国海洋大学信息科学与工程学院, 山东 青岛 266100
2 中国海洋大学信息工程中心, 山东 青岛 266071
3 山东临沂烟草有限公司, 山东 临沂 276000
校正样本选择以及奇异样本剔除对于近红外光谱定量和定性建模非常重要.现有的识别奇异样本的方法一般都基于数据重心估计,需要一个经验的判断阈值,在很大程度上限制了其识别准确性和实用性.针对现有方法奇异样本识别准确率低的问题,改进了一种现有度量尺度-杠杆值,构造出一种新的基于强影响度的奇异样本识别算法.这种度量尺度在一定程度上减少了对数据重心的依赖,使正常样本更加聚集,拉开了奇异样本与正常样本的距离;同时,为了避免人工根据经验设定阈值的不合理性,引入统计学领域中跳跃度的概念,提出了一种自动阈值设定方法判别奇异样本.为了验证该算法的有效性,利用马氏距离、杠杆值-光谱残差法与该算法分别对200个代表性校正集样本中的异常样品进行剔除,然后通过偏最小二乘法(PLS)对剩余的校正集样本(以烟碱为指标)定量建模,并对60个代表性测试集样本进行预测,以交互验证均方根误差(RMSECV)、相关系数(r)和预测均方根误差(RMSEP)为评价指标比较各算法的优劣.实验对比结果表明,基于强影响度的奇异样本识别算法较现有方法明显提高了奇异样本识别的准确率,具有较低的RMSECV(0.104),RMSEP(0.112)以及较高的R(0.983),提高了模型的稳定性和预测能力。
近红外光谱 马氏距离 杠杆值 光谱残差 奇异样本识别 Near infrared spectral Mahalanobis distance Leverage Spectral residual Singular sample identification 
光谱学与光谱分析
2015, 35(7): 1830

关于本站 Cookie 的使用提示

中国光学期刊网使用基于 cookie 的技术来更好地为您提供各项服务,点击此处了解我们的隐私策略。 如您需继续使用本网站,请您授权我们使用本地 cookie 来保存部分信息。
全站搜索
您最值得信赖的光电行业旗舰网络服务平台!