中红外光谱法结合支持向量机快速鉴别蜂蜜品种 下载: 1469次
1 引言
蜂蜜作为日常生活中最常饮用的、在国内外市场上销售越来越普及的一种营养品,如今已倍受消费者的欢迎。由于蜜蜂所采植物花蜜不同,所以不同蜂蜜具有的食用价值、保健功效和医用功效也不同。目前,在与蜂蜜分类方法相关的国际标准中,最为典型的就是由国际食品法典委员会和欧盟制定的相关分类指令。分析这些分类指令可以发现,这两大机构在蜂蜜划分标准上还是以蜜源来自的植物作为分类依据的,由此可以根据蜜源和产地对蜂蜜进行划分,这也是蜂蜜最常见的分类方法。不同蜜源的蜂蜜不仅在内在品质和感官上具有明显差异,其所含有的营养价值也不同,最终导致价格也有很大差别[1-4]。针对目前的这种情况,如果能够快速将不同种类和品级的蜂蜜区分开来,将有助于蜂蜜产品实现快速市场定价,并指导消费者买到货真价实的蜂蜜产品,从而促进整个蜂蜜行业市场秩序的完善。
感官评定是鉴定蜂蜜最传统、应用时间最长的方法,具有简单方便、鉴定过程中耗用的机器成本低等优点,但却需要专业性强、经验丰富的评价人员。同时,蜂蜜的色、香、味等感官特征很容易受到外界环境和人为因素的干扰,如采集方式、储存方式、结晶条件等的改变都会降低评定结果的客观准确性。另一种鉴别蜂蜜品种的传统方法是花粉显微镜法,就是通过显微镜鉴别蜂蜜中花粉的数量和类型来确定蜂蜜品种。该方法成本高、耗时长,且受多种因素的影响,检测的准确度较低。其中主要的影响因素有花粉原产地、蜂蜜的质量和采集方式、专家自身的经验等[2]。研究人员开发出了利用客观分析技术(如质谱分析法和色谱分析法等)对蜂蜜进行鉴别的检测方法,虽然这些检测技术能够准确、有依据地判断蜂蜜所属的品种,但是检测程序较为繁琐,成本高,耗时长[3]。于是,快速、低成本的光谱鉴别蜂蜜品种技术应势而生,这些技术主要有近红外、中红外、拉曼、核磁共振光谱技术。与质谱、色谱技术等相比,光谱技术前处理更简单、环保,而且能获得更为丰富的样本信息。
中红外光谱与近红外光谱都能显现有机物的分子振动信息,但中红外光谱的检测限比近红外要高1~2个数量级,同时还具有吸收峰窄、谱峰重叠不严重、信息量较大、信息提取更容易、样品信息表达更丰富、分子选择性更好等优点[5]。在农产品品种鉴别和产地溯源方面,该技术结合化学计量学的方法已得到了广泛应用,并取得较大进展[6]:文献[ 7]利用中红外光谱技术结合线性判别分析方法建立了6种蜜源蜂蜜的数学鉴别模型;文献[ 8]应用中红外分析仪器和模式识别技术针对掺入糖浆的洋槐蜂蜜和紫云英蜂蜜与纯蜂蜜的品质差异建立了模式识别分类研究模型;文献[ 9]通过对饶河本地和其他地区蜂蜜样本的中红外光谱谱图进行分析,利用化学计量软件建立了饶河黑蜂蜂蜜产地真假判别模型,该模型的判定率达到了90.3%。
本文应用中红外光谱技术结合统计学分析中经典的主成分分析降维方法,针对椴树蜜、荆条蜜、油菜蜜、洋槐蜜、荔枝蜜5种蜂蜜构建线性支持向量机(SVM)和最小二乘支持向量机(LSSVM)分类判别模型;应用这2种模型对130个测试样本进行鉴别,其平均识别率均高于97%,最高识别率均可达到100%,取得了较为理想的分类效果。
2 基本原理
2.1 降维方法原理
数据降维一方面可以解决“维数灾难”,降低复杂度;另一方面可以减少冗余信息造成的误差,提高识别精度。主成分分析(PCA)方法是常用的一种降维方法,其原理是运用线性映射将
2.2 SVM原理
SVM方法是一种较为成熟的分类方法,这种分析方法的主要优点是能够解决模式识别中的小样本、非线性分类问题,还能够有效处理高维模型。SVM的学习问题最终是以凸优化问题的表示形式出现的,从而可以利用已知的有效算法计算出目标函数的全局最小值,以解决最优解问题。这一全局最优解的获得是一些其他算法无法得到的。以基于规则的分类和神经网络模型为例,它们都是基于贪心学习的策略,只能通过计算得到局部最优解,而不是全局最优解。因此本研究选用SVM方法进行模式识别,以获得全局最优解。
总体来讲,SVM原理[15]是以寻找一个最优超平面为目的的,最优的意思即两类样本能够尽可能地被划分到超平面两侧,而且使超平面到超平面两侧的数据点的距离最大。解决这个问题时,将求解最优分类面的最优化问题转化为其对偶问题,从而通过求解相对简单的对偶问题来实现求解原分类问题的算法。本研究选用线性SVM方法和非线性径向基函数(RBF)核LSSVM方法进行对比,以验证不同SVM的效果。
线性SVM方法原理[16]如下所述。在样本空间中,假设线性可分样本集为(
式中:
假设它已经完成了对样本的分隔,且两种样本的标签分别是{+1,-1},那么对于一个分类器来说,
为尽最大努力使分开的两个类别有最大的间隔,并使分隔具有更高的可信度,以及对未知的新样本有很好的分类预测能力(在机器学习中被称为泛化能力),需要使离分隔面最近的数据点具有最大的距离。为了描述离分隔超平面最近的数据点,需要找到两个和这个超平面平行和距离相等的超平面:
在这两个超平面上的样本点也就是理论上离分隔超平面最近的点,它们的存在决定了
假设超平面能将样本正确分类,则可令
式中:
(4)式和(5)式合并后可以得到:
这就是目标函数的约束条件。现在这个问题就变成了一个最优化问题:
以上是典型的二次凸规划问题。根据目标函数的特点和给出的约束条件,可知其具有凸性,可以利用最优化理论获得全局最小最优解,因此,(8)式和(9)式可以采用Lagrange乘子法,且满足KKT条件。(8)式和(9)式的表达式为
式中:
在现实情况中,几乎不可能存在线性可分的情形,针对某些误分点引入一种度量
相应的Lagrange函数为
对
然后将上述条件回代,对
选择
最终的分类函数如(16)式所示。这就是Libsvm工具箱中C-SVC程序采用的线性核函数,即本研究采用的第一种线性SVM程序的公式原理及推导。
非线性LSSVM方法原理[17]和线性SVM方法原理的区别在于LSSVM将原方法的不等式约束变为等式约束,从而大大方便了Lagrange乘子
对于LSSVM,原问题的不等式约束变成等式约束
式中:
接下来,与SVM类似,采用 Lagrange乘子法把原问题转化为对单一参数,也就是求
分别对
根据(19)式和求导后的4个条件可以消去
式中:
解上述方程组可以得到一组最优分类面的参数
式中:
LSSVM的核函数必须是正定的,且满足Mercer定理[18]。这就是LSSVM工具箱,即本研究采用的第二种LSSVM的原理以及公式推导。
一对一SVM多分类原理[19]是在任意两类样本之间设计1个SVM,为任意两类构建超平面,因此针对
(
(
…
(
最大(
本研究采用Libsvm工具箱中的C-SVC(线性核)方法和LSSVM工具箱中的LSSVM(RBF核)方法中的一对一机制对5类蜂蜜样本进行多分类,并验证分类效果。
3 材料与方法
3.1 材料
采用来自不同蜂场的蜂蜜样本,共392个,其中椴树蜜39个、荆条蜜47个、油菜蜜74个、洋槐蜜86个、荔枝蜜146个。每个样品均在20 ℃左右密封保存。
3.2 仪器设备
应用德国布鲁克公司生产的配备衰减全反射ATR附件的TENSOR37傅里叶变换中红外光谱仪,及该公司的光谱采集和分析软件OPUS7.0。
3.3 光谱采集
将少量蜂蜜样本涂于ATR附件上,取每个样本扫描两次的平均值。仪器的检测参数如下:扫描范围为650~4000 cm-1,分辨率为8 cm-1,扫描32次。首先在40~60 ℃下水浴处理结晶样品,待其融化为液体后再进行扫描。原始光谱如
3.4 预处理及模型样本
影响样品光谱的因素有很多,如基线漂移、高频随机噪声、光散射等,为消除这些影响,获取有效信息,在建立判别模型之前,需要对原始光谱进行预处理。本研究采用标准归一化法对光谱进行预处理。
在模型建立时,随机选择392个样品中的2/3样本作为训练集,共261个样品,其余的作为测试集,共131个样品。椴树蜜、荆条蜜、油菜蜜、洋槐蜜、荔枝蜜依次标记为5到1。
3.5 数据分析环境
用PCA方法将归一化后的光谱数据降到不同维数数据集之后的4组数据进行归一化处理,之后分别在MATLAB2014a和MATLAB2016b平台上应用线性SVM和非线性LSSVM进行分类比较。同时采用libsvm-mat-2.89-3和LSSVMlabv1_8_R2009b_R2011a软件包,该软件包具有操作简单、使用方便、通用性好的特点[20]。
4 实验结果与分析
4.1 实验结果
蜂蜜品种判别模型是根据SVM的判别结果来鉴别蜂蜜种类的。首先比较了不同主成分累积方差贡献率,如
表 1. 不同主成分累积方差贡献率
Table 1. Cumulative variance contribution rate of different principal components
|
由于光谱中存在着严重的共线性现象,且前5个主成分的累积方差贡献率为96.054%(如
随后对未知蜂蜜光谱样本降维到5维、10维、15维、20维的特征数据再次进行归一化处理,应用线性SVM和基于网格搜索优化算法的径向基核的LSSVM分类器模型进行识别,验证采用不同SVM的效果。结果显示,在应用线性SVM分类器对降维到20维的光谱数据进行识别时,平均识别率大于97%,最高识别率为100%。应用LSSVM分类器时,需要根据特定数据通过实验的方法确定其结构和参数。故本文选取作为核函数的径向基函数RBF、多项式函数和Sigmoid函数,最终发现RBF作为核函数时具有较高的分类精度,从而选取RBF作为核函数。
径向基函数RBF表示为
式中:
表 2. 线性SVM和LSSVM分类器模型对不同维数特征数据的平均识别率
Table 2. Average discrimination rate of different dimension feature data from linear SVM and LSSVM classifier models%
|
线性SVM和LSSVM分类器模型测试集的应用结果如
图 2. 当输入20维特征数据且应用SVM算法识别率为100%时测试集的实际分类和预测分类结果
Fig. 2. Actual and predicted classifications of test set using SVM algorithm when recognition rate is 100% and 20-dimensional feature data are input
图 3. 当输入为20维特征数据且应用SVM算法识别率为99.23%时测试集的实际分类和预测分类结果
Fig. 3. Actual and predicted classifications of test set using SVM algorithm when recognition rate is 99.23% and 20-dimensional feature data are input
图 4. 当输入为20维特征数据且应用LSSVM算法识别率为100%时测试集的实际分类和预测分类结果
Fig. 4. Actual and predicted classifications of test set using LSSVM algorithm when recognition rate is 100% and 20-dimensional feature data are input
图 5. 当输入为20维特征数据且应用LSSVM算法识别率为97.69%时测试集的实际分类和预测分类结果
Fig. 5. Actual and prediction classifications of test set using LSSVM algorithm when recognition rate is 97.69% and 20-dimensional feature data are input
由
4.2 结果分析
对于PCA降维方法,累积方差贡献率随着降维维数的增大而增大,这是因为降维维数增大意味着选择了更多的主成分来表示原数据集的主要信息,进而特征提取率逐渐增大。
应用较高维数降维数据结合线性SVM方法进行分类的效果好于LSSVM方法。高维(15维、20维)矩阵输入线性SVM和LSSVM进行分类的效果差不多,都能达到高于96%的识别率,输入20维矩阵的识别率最高能达到100%。主要原因可能是原始数据经主成分分析方法降维后在高维(15维、20维)矩阵上的特征提取得好,包含的信息量足够大,包含差异性信息的重要样本点在其数据空间上可以近似认为是线性可分的。这时使用线性核函数SVM可以达到较为理想的分类效果。而低维(5维、10维)矩阵输入线性SVM进行分类的效果与LSSVM的效果有一定差距。因为低维(5维、10维)矩阵的信息量相对较少,包含差异性信息的重要样本点在其数据空间上并不一定是线性可分的,这在一定程度上影响了分类效果。采用RBF核的LSSVM的主要计算方法就是通过非线性映射使输入的向量从原空间映射到高维空间,而在这个高维空间中得到的线性判别函数可以代替原来空间中非线性的此类函数,即在这个新的空间中,可以比原空间更容易获得最优线性分类面,这就是RBF核函数的贡献。Vapnik和Shapire证明了假定数据本身无噪声时,理论上会存在一个核函数,使映射到高维数据空间后的数据线性可分,且高维投影通过增加空间灵活度和减少支持向量提高了测试集上低错误率的保证。依据SVM的性质可以获得如下的误差期望上界:
式中:{
在线性不可分的情况下,一切线性不可分的样本点,也就是
图 6. 支持向量由1维投影到2维空间的变换图
Fig. 6. Transformation graph of support vector from 1-dimensional space to 2-dimensional space
1维中交叠的那些点被投影到2维空间中,支持向量数目大大减少,进而大大降低了测试集的错误率。
5 结论
实验结果表明,采用主成分分析降维算法降维到20维的特征数据在线性SVM和LSSVM分类器上的平均识别率都高于97%,最高识别率都可达到100%,且模型稳定。采用主成分分析结合基于网格搜索优化的LSSVM方法在利用较低维数数据进行分类时,比线性SVM方法的识别精度高,稳定性好。本研究证明了用主成分分析结合线性SVM或LSSVM识别定性分析算法鉴别椴树蜜、荆条蜜、油菜蜜、洋槐蜜、荔枝蜜5种蜂蜜品种是可行的,而且鉴定过程中工作效率高,减少了不必要的损失,降低了鉴定成本;此外还能够避免传统鉴定方法中主观判断对鉴定结果造成的影响。本研究采用的SVM分类方法比较成熟,今后还会探讨其他较为成熟的分类器方法,以验证蜂蜜中红外光谱数据的分类效果。
[1] 陈兰珍. 蜂蜜品质近红外光谱评价技术研究[D]. 北京: 中国农业科学院农业质量标准与检测技术研究所, 2010.
Chen LZ. Study on quality evaluation for honey by near infrared spectroscopy[D]. Beijing: Institute of Quality Standards and Testing Technology for AGRO-Products ofCAAS, 2010.
[2] 刘博静. 蜂蜜产地特征检测方法的研究[D]. 保定: 河北大学, 2010.
Liu BJ. The research of detection method about characteristic of honey producing area[D]. Baoding: Hebei University, 2010.
[3] 钟艳萍, 钟振声, 陈兰珍, 等. 近红外光谱技术定性鉴别蜂蜜品种及真伪的研究[J]. 现代食品科技, 2010, 26(11): 1280-1282.
Zhong Y P, Zhong Z S, Chen L Z, et al. Qualitative identification of floral origin and adulteration of honey by near-infrared spectroscopy[J]. Modern Food Science and Technology, 2010, 26(11): 1280-1282.
[7] 张文娟, 陈兰珍, 吴黎明, 等. 中红外光谱法快速鉴别不同蜜源蜂蜜[ C]. 全国蜂产业高峰论坛, 2013.
Zhang WJ, Chen LZ, Wu LM, et al. Study of mid-infrared spectroscopy analysis for rapid discrimination of botanical origin of honey[ C]. Summit Forum of National Bee Industry, 2013.
[8] 胡乐乾, 尹春玲, 马渭奎, 等. 红外光谱法对蜂蜜掺伪的模式识别[J]. 应用化学, 2011, 28(s1): 144-145.
Hu Y Q, Yin C L, Ma W K, et al. Identification of adulterated honey based on infrared spectroscopy and pattern recognition technology[J]. Chinese Journal of Applied Chemistry, 2011, 28(s1): 144-145.
[9] 孙燕, 张海华, 王铮. 中红外光谱技术应用于饶河蜂蜜产地溯源的表征[J]. 化学分析计量, 2015, 24(3): 41-44.
Sun Y, Zhang H H, Wang Z. Application of infrared spectrum technology in Raohe honey characterization of traceability[J]. Chemical Analysis and Meterage, 2015, 24(3): 41-44.
[10] 段锋华, 王先华, 叶函函, 等. 基于统计与光程分布的二氧化碳反演方法[J]. 光学学报, 2017, 37(5): 0501003.
[11] 程力勇, 米高阳, 黎硕, 等. 基于主成分分析-支持向量机模型的激光钎焊接头质量诊断[J]. 中国激光, 2017, 44(3): 0302004.
[12] 廖建尚, 王立国. 两类空间信息融合的高光谱图像分类方法[J]. 激光与光电子学进展, 2017, 54(8): 081002.
[13] 陈兰珍, 孙谦, 叶志华, 等. 基于神经网络的近红外光谱鉴别蜂蜜品种研究[J]. 食品科技, 2009, 34(8): 287-289.
Chen L Z, Sun Q, Ye Z H, et al. Determination of floral origin of honey by near infrared spectroscopy based on artificial neural network[J]. Food Science of Technology, 2009, 34(8): 287-289.
[14] 张妍楠, 陈兰珍, 薛晓锋, 等. 基于近红外光谱检测技术鉴别洋槐蜜中掺入大米糖浆的可行性研究[J]. 光谱学与光谱分析, 2015, 35(9): 2536-2539.
[15] 陈冰梅, 樊晓平, 周志明, 等. 支持向量机原理及展望[J]. 制造业自动化, 2010, 32(12): 136-138.
Chen B M, Fan X P, Zhou Z M, et al. The principle and prospect of support vector machine[J]. Manufacturing Automation, 2010, 32(12): 136-138.
[16] 陈万海. 基于支持向量机的超谱图像分类技术研究[D]. 哈尔滨: 哈尔滨工程大学, 2008.
Chen WH. Research on classification of hyperspectral images based on support vector machine[D]. Harbin: Harbin Engineering University, 2008.
[17] 陈华舟, 陈福, 许丽莉, 等. 基于网格搜索的参数优化方法用于鱼粉灰分的近红外LSSVM定量分析[J]. 分析科学学报, 2016, 32(2): 198-202.
Chen H Z, Chen F, Xu L L, et al. Grid search parameter optimization applied to near infrared LSSVM modeling quantitative analysis of fishmeal ash[J]. Journal of Analytical Science, 2016, 32(2): 198-202.
[18] Vapnik VN. The nature of statistical learning theory[M]. New York: Springer-Verlag, 1998: 1- 17.
[19] Duan KB, Rajapakse JC, Nguyen MN. One-Versus-One and One-Versus-Allmulticlass SVM-REF for gene selection in cancer classification[C]∥Evolutionary Computation, Machine Learning and Data Mining in Bioinformatics. Valencia: [s.n.], 2007: 47- 56.
[20] Chang CC, Lin C J. LIBSVM: a library for support vector machines[EB/OL]. ( 2010-03-01) [2017-11-20]. http:∥www.csie.ntu.edu.tw/~cjlin/libsvm.
[21] 唐小彪. 基于支持向量机的地震储层预测方法研究[D]. 成都: 成都理工大学, 2009.
Tang XB. Seismic reservoir discrimination based on support vector machines[D]. Chengdu: Chengdu University of Technology, 2009.
Article Outline
徐天扬, 杨娟, 孙晓荣, 刘翠玲, 李熠, 周金慧, 陈兰珍. 中红外光谱法结合支持向量机快速鉴别蜂蜜品种[J]. 激光与光电子学进展, 2018, 55(6): 063003. Tianyang Xu, Juan Yang, Xiaorong Sun, Cuiling Liu, Yi Li, Jinhui Zhou, Lanzhen Chen. Mid-Infrared Spectroscopy Analysis Combined with Support Vector Machine for Rapid Discrimination of Botanical Origin of Honey[J]. Laser & Optoelectronics Progress, 2018, 55(6): 063003.