中红外光谱法结合支持向量机快速鉴别蜂蜜品种

徐天扬; 杨娟; 孙晓荣; 刘翠玲; 李熠; 周金慧; 陈兰珍

doi:doi:10.3788/LOP55.063003

激光与光电子学进展, 2018, 55 (6): 063003, 网络出版: 2018-09-11

中红外光谱法结合支持向量机快速鉴别蜂蜜品种下载： 1469次

Mid-Infrared Spectroscopy Analysis Combined with Support Vector Machine for Rapid Discrimination of Botanical Origin of Honey

论文大纲

徐天扬 ^1,2,3杨娟 ¹孙晓荣 ^4,5刘翠玲 ^4,5李熠 ^1,2,3周金慧 ^1,2,3陈兰珍 ^{1,2,1; 2; 3*;}

作者单位

¹ 中国农业科学院蜜蜂研究所, 北京 100093

² 农业部蜂产品质量安全控制重点实验室(北京), 北京 100093

³ 农业部蜂产品质量安全风险评估实验室, 北京 100093

⁴ 北京工商大学计算机与信息工程学院, 北京 100048

⁵ 食品安全大数据技术北京市重点实验室, 北京 100048

AI 词云图 AI一句话精读 AI短摘要

注：本部分内容由 AI 自动生成，请您知悉。

摘要

为快速鉴别5种蜂蜜(椴树蜜、荆条蜜、油菜蜜、洋槐蜜、荔枝蜜)的品种,首次提出了基于主成分分析(PCA)方法结合线性支持向量机(SVM)或最小二乘支持向量机(LSSVM)的中红外光谱法鉴别蜂蜜品种的新方法。用傅里叶变换中红外光谱仪测定5种蜂蜜样本的中红外光谱,并进行归一化预处理,然后用主成分分析降维方法分别提取经预处理后的光谱数据中的5维、10维、15维、20维特征数据,最后设计了线性SVM和基于网格搜索优化算法的径向基函数(RBF)的LSSVM分类器模型。利用不同分类器模型,识别未知蜂蜜样本光谱数据降维到不同维数的特征数据,并进行实验验证。结果表明:应用主成分分析降维方法降维到20维的特征数据在SVM和LSSVM分类器上的平均识别率均高于97%,最高识别率均可达到100%,且稳定性很好;利用较低维数数据进行分类时,LSSVM分类器比SVM的识别精度更高,稳定性更好。研究证明将中红外光谱与线性SVM或LSSVM结合用于快速鉴别蜂蜜品种是可行的。

Abstract

To achieve the fast discrimination of five varieties of honeys, namely linden honey, vitex honey, rape honey, acacia honey and litchi honey, we propose a new method in this article by using the mid-infrared spectra based on principle component analysis (PCA) combined with linear support vector machine (SVM) or least squares support vector machine (LSSVM). The mid-infrared spectra of five varieties of honey samples are determined by Fourier transform infrared spectroscopy and normalized. Then the 5-dimensional, 10-dimensional, 15-dimensional, and 20-dimensional feature data will be extracted from spectra with the use of dimension reduction method of PCA after normalization. Finally, the two classifier models, linear SVM and LSSVM with radial basis function (RBF) based on the grid search optimization, are designed. Using different classifier model, we identify the different dimensional feature data extracted from spectra data of unknown honey samples. Then the results of different dimension feature data and different support vector machines are validated. Experimental results show that for the 20-dimensional feature data obtained by the dimension reduction method of PCA, an average recognition rate of higher than 97% on SVM and LSSVM classifiers is achieved, the highest recognition rate can reach 100%, and classifier stability is very good. LSSVM classifier has higher recognition accuracy and better stability than linear SVM classifier in classification with lower dimension data. Hence, it proves the feasibility of rapid identification of five varieties of honeys with mid-infrared spectra combined with linear SVM or LSSVM.

1 引言

蜂蜜作为日常生活中最常饮用的、在国内外市场上销售越来越普及的一种营养品,如今已倍受消费者的欢迎。由于蜜蜂所采植物花蜜不同,所以不同蜂蜜具有的食用价值、保健功效和医用功效也不同。目前,在与蜂蜜分类方法相关的国际标准中,最为典型的就是由国际食品法典委员会和欧盟制定的相关分类指令。分析这些分类指令可以发现,这两大机构在蜂蜜划分标准上还是以蜜源来自的植物作为分类依据的,由此可以根据蜜源和产地对蜂蜜进行划分,这也是蜂蜜最常见的分类方法。不同蜜源的蜂蜜不仅在内在品质和感官上具有明显差异,其所含有的营养价值也不同,最终导致价格也有很大差别^[1-4]。针对目前的这种情况,如果能够快速将不同种类和品级的蜂蜜区分开来,将有助于蜂蜜产品实现快速市场定价,并指导消费者买到货真价实的蜂蜜产品,从而促进整个蜂蜜行业市场秩序的完善。

感官评定是鉴定蜂蜜最传统、应用时间最长的方法,具有简单方便、鉴定过程中耗用的机器成本低等优点,但却需要专业性强、经验丰富的评价人员。同时,蜂蜜的色、香、味等感官特征很容易受到外界环境和人为因素的干扰,如采集方式、储存方式、结晶条件等的改变都会降低评定结果的客观准确性。另一种鉴别蜂蜜品种的传统方法是花粉显微镜法,就是通过显微镜鉴别蜂蜜中花粉的数量和类型来确定蜂蜜品种。该方法成本高、耗时长,且受多种因素的影响,检测的准确度较低。其中主要的影响因素有花粉原产地、蜂蜜的质量和采集方式、专家自身的经验等^[2]。研究人员开发出了利用客观分析技术(如质谱分析法和色谱分析法等)对蜂蜜进行鉴别的检测方法,虽然这些检测技术能够准确、有依据地判断蜂蜜所属的品种,但是检测程序较为繁琐,成本高,耗时长^[3]。于是,快速、低成本的光谱鉴别蜂蜜品种技术应势而生,这些技术主要有近红外、中红外、拉曼、核磁共振光谱技术。与质谱、色谱技术等相比,光谱技术前处理更简单、环保,而且能获得更为丰富的样本信息。

中红外光谱与近红外光谱都能显现有机物的分子振动信息,但中红外光谱的检测限比近红外要高1~2个数量级,同时还具有吸收峰窄、谱峰重叠不严重、信息量较大、信息提取更容易、样品信息表达更丰富、分子选择性更好等优点^[5]。在农产品品种鉴别和产地溯源方面,该技术结合化学计量学的方法已得到了广泛应用,并取得较大进展^[6]:文献[ 7]利用中红外光谱技术结合线性判别分析方法建立了6种蜜源蜂蜜的数学鉴别模型;文献[ 8]应用中红外分析仪器和模式识别技术针对掺入糖浆的洋槐蜂蜜和紫云英蜂蜜与纯蜂蜜的品质差异建立了模式识别分类研究模型;文献[ 9]通过对饶河本地和其他地区蜂蜜样本的中红外光谱谱图进行分析,利用化学计量软件建立了饶河黑蜂蜂蜜产地真假判别模型,该模型的判定率达到了90.3%。

本文应用中红外光谱技术结合统计学分析中经典的主成分分析降维方法,针对椴树蜜、荆条蜜、油菜蜜、洋槐蜜、荔枝蜜5种蜂蜜构建线性支持向量机(SVM)和最小二乘支持向量机(LSSVM)分类判别模型;应用这2种模型对130个测试样本进行鉴别,其平均识别率均高于97%,最高识别率均可达到100%,取得了较为理想的分类效果。

2 基本原理

2.1 降维方法原理

数据降维一方面可以解决“维数灾难”,降低复杂度;另一方面可以减少冗余信息造成的误差,提高识别精度。主成分分析(PCA)方法是常用的一种降维方法,其原理是运用线性映射将n维特征映射到k维上(k<n),这k维全新的正交特征被称为主元,在无损或很少损失数据集信息量的情况下,降低了数据集的维数,较好地保留了原数据集的主要信息,是一种常用的将一组可能存在相关性的变量转换为一组线性不相关的变量的方法,被广泛应用于各领域^[10-12]。文献[ 13-14]将主成分分析降维方法应用于光谱数据处理领域。由于天然形成的蜂蜜具有十分复杂的组成成分,因此蜂蜜中红外光谱的形成过程中存在着各种成分吸收光度叠加的情况,因此共线性是一定存在的,在分析中如果不能合理地处理这些共线性的情况,最终的分析结果将会出现偏差。处理共线性的常用方法就是在建模前先进行主成分分析。通过主成分分析不仅能够基本去除光谱矩阵中的共线性关系和无用的干扰信息,还能对光谱矩阵进行降维,精简优化模型。本研究就是采用主成分分析方法对标准归一化后的原始数据进行降维处理的。

2.2 SVM原理

SVM方法是一种较为成熟的分类方法,这种分析方法的主要优点是能够解决模式识别中的小样本、非线性分类问题,还能够有效处理高维模型。SVM的学习问题最终是以凸优化问题的表示形式出现的,从而可以利用已知的有效算法计算出目标函数的全局最小值,以解决最优解问题。这一全局最优解的获得是一些其他算法无法得到的。以基于规则的分类和神经网络模型为例,它们都是基于贪心学习的策略,只能通过计算得到局部最优解,而不是全局最优解。因此本研究选用SVM方法进行模式识别,以获得全局最优解。

总体来讲,SVM原理^[15]是以寻找一个最优超平面为目的的,最优的意思即两类样本能够尽可能地被划分到超平面两侧,而且使超平面到超平面两侧的数据点的距离最大。解决这个问题时,将求解最优分类面的最优化问题转化为其对偶问题,从而通过求解相对简单的对偶问题来实现求解原分类问题的算法。本研究选用线性SVM方法和非线性径向基函数(RBF)核LSSVM方法进行对比,以验证不同SVM的效果。

线性SVM方法原理^[16]如下所述。在样本空间中,假设线性可分样本集为(x_i,y_i),其中,样本数i=1,…,l;类别标号为y={+1,-1},划分超平面的表达式为

\begin{matrix} g (x) = ω^{T} x + b = 0, (1) \end{matrix}

式中:g(x)为分类函数;ω为法向量;x为测试样本;b为截距。

假设它已经完成了对样本的分隔,且两种样本的标签分别是{+1,-1},那么对于一个分类器来说,g(x)>0和g(x)<0就可以分别代表两个不同的类别:+1和-1。

为尽最大努力使分开的两个类别有最大的间隔,并使分隔具有更高的可信度,以及对未知的新样本有很好的分类预测能力(在机器学习中被称为泛化能力),需要使离分隔面最近的数据点具有最大的距离。为了描述离分隔超平面最近的数据点,需要找到两个和这个超平面平行和距离相等的超平面:H₁和H₂,即

\begin{matrix} \begin{matrix} y_{H 1} = ω^{T} x + b = + 1, (2) \\ y_{H 2} = ω^{T} x + b = - 1 。 (3) \end{matrix} \end{matrix}

在这两个超平面上的样本点也就是理论上离分隔超平面最近的点,它们的存在决定了H₁和H₂的位置,支撑起了分界线,这些样本点就是所谓的支持向量。由(2)~(3)式可以推出两个超平面(H₁和H₂)的间隔为2/‖ω‖,即现在的目的是实现这个间隔最大化,相当于最小化‖ω‖,为了之后的求导和计算方便,相当于进一步最小化‖ω‖²/2。

假设超平面能将样本正确分类,则可令

\begin{matrix} \{\begin{matrix} ω^{T} x_{i} + b \geq + 1, & y_{i} = + 1 \\ ω^{T} x_{i} + b \leq - 1, & y_{i} = - 1 \end{matrix} 。 (4) \end{matrix}

式中:x_i为训练样本。

(4)式和(5)式合并后可以得到:

\begin{matrix} y_{i} (ω^{T} x_{i} + b) \geq 1, (5) \end{matrix}

这就是目标函数的约束条件。现在这个问题就变成了一个最优化问题:

\begin{matrix} \begin{matrix} \min_{ω, b} \frac{1}{2} ‖ω ‖^{2}, (6) \\ y_{i} [(ω^{T} x_{i}) + b] - 1 \geq 0 (i = 1,2, \dots, l) 。 (7) \end{matrix} \end{matrix}

以上是典型的二次凸规划问题。根据目标函数的特点和给出的约束条件,可知其具有凸性,可以利用最优化理论获得全局最小最优解,因此,(8)式和(9)式可以采用Lagrange乘子法,且满足KKT条件。(8)式和(9)式的表达式为

\begin{matrix} \begin{matrix} a_{i} [y_{i} (ω^{T} x_{i} + b) - 1] = 0, (8) \\ f (x) = sgn {ω^{* T} \cdot x + b^{*}} = sgn \{\overset{l}{\sum_{i = 1}} a_{i}^{*} y_{i} (x_{i} \cdot x) + b^{*}\}, (9) \end{matrix} \end{matrix}

式中:a为拉格朗日乘子;a^*、b^*、ω^*分别为对应于a、b、ω的最优解;(x_i·x)为2个向量的内积。分类函数如(9)式所示,x的归属是根据其符号来确定的。

在现实情况中,几乎不可能存在线性可分的情形,针对某些误分点引入一种度量ζ_i,用来描述训练集被错划的程度。于是目标变成间隔2/‖ω‖,其值越大,错划的程度越小,故引入惩罚函数C作为综合两个目标的权重,则原始问题变为

\begin{matrix} \begin{matrix} \min_{ω, b} \frac{1}{2} ‖ ω^{2} ‖ + C \overset{l}{\sum_{i = 1}} ζ_{i}, (10) \\ y_{i} [(ω^{T} \cdot x_{i}) + b] \geq 1 - ζ_{i}, i = 1, \dots, l 。 (11) \end{matrix} \end{matrix}

相应的Lagrange函数为

\begin{matrix} L (ω, b, ζ, a, r) = \frac{1}{2} ‖ω ‖^{2} + C \overset{l}{\sum_{i = 1}} ζ_{i} - \overset{l}{\sum_{i = 1}} a_{i} \{y_{i} [(ω^{T} \cdot x_{i}) + b] - 1 + ζ_{i}\} - \overset{l}{\sum_{i = 1}} γ_{i} ζ_{i} 。 (12) \end{matrix}

对L关于ω、b和ζ求极小,得到

\begin{matrix} \begin{matrix} \overset{l}{\sum_{i = 1}} a_{i} y_{i} = 0, (13) \\ ω = \overset{l}{\sum_{i = 1}} a_{i} y_{i} x_{i}, (14) \\ C - a_{i} - γ_{i} = 0 。 (15) \end{matrix} \end{matrix}

然后将上述条件回代,对a求极大则得原问题的对偶问题: $\begin{matrix} \min_{a} \frac{1}{2} \overset{l}{\sum_{i = 1}} \overset{l}{\sum_{j = 1}} y_{i} y_{j} a_{i} a_{j} (x_{i} \cdot x_{j}) - \overset{l}{\sum_{j = 1}} a_{j}, \overset{l}{\sum_{i = 1}} y_{i} a_{i} = 0,0 \leq a_{i} \leq C, i = 1, \dots, l, 得最优解 a^{*} = (a_{1}^{*}, \dots, a_{l}^{*})^{T}, \\ 计算得到 ω^{*} = \overset{l}{\sum_{i = 1}} y_{i} a_{i}^{*} x_{i} 。 \end{matrix}$

选择a^*的一个小于C的正分量,并根据此计算 $\begin{matrix} b^{*} = y_{j} - \overset{l}{\sum_{i = 1}} y_{i} a_{i}^{*} (x_{i} \cdot x_{j}) 。 \end{matrix}$ 构造超平面(ω^*T·x)+b^*=0,求得决策函数

\begin{matrix} f (x) = sgn {ω^{* T} \cdot x + b^{*}} = sgn \{\overset{l}{\sum_{i = 1}} a_{i}^{*} y_{i} (x_{i} \cdot x) + b^{*}\} 。 (16) \end{matrix}

最终的分类函数如(16)式所示。这就是Libsvm工具箱中C-SVC程序采用的线性核函数,即本研究采用的第一种线性SVM程序的公式原理及推导。

非线性LSSVM方法原理^[17]和线性SVM方法原理的区别在于LSSVM将原方法的不等式约束变为等式约束,从而大大方便了Lagrange乘子a的求解,原问题是二次规划(QP)问题,而在LSSVM中则是一个求解线性方程组的问题。非线性LSSVM利用映射方法,在计算开始之前先选择非线性映射,随后输入的向量将通过选择的映射关系被映射到高维特征空间中。运用最小化结构风险原则在这个空间中构建最优决策函数,并巧妙地运用原空间的核函数取代高维特征空间中的点积运算。

对于LSSVM,原问题的不等式约束变成等式约束

\begin{matrix} \begin{matrix} \min_{ω, b, e} J (ω, e) = \frac{1}{2} ω^{T} ω + \frac{1}{2} r \overset{l}{\sum_{i = 1}} e_{i}^{2}, (17) \\ y [ω^{T} ϕ (x_{i}) + b] = 1 - e_{i}, (18) \end{matrix} \end{matrix}

式中:e_i为误差控制函数。LSSVM优化目标的损失函数是误差e_i的二次项。在LSSVM中,r是一个权重,与C一样,用于平衡寻找最优超平面和偏差量的最小值。为了容许有一定的错分率,将最大分类间隔和最小错分样本折中考虑。

接下来,与SVM类似,采用 Lagrange乘子法把原问题转化为对单一参数,也就是求a的极大值问题。新问题如下:

\begin{matrix} L (ω, b, e_{i}, a) = J (ω, e) - \overset{l}{\sum_{i = 1}} a_{i} {y_{i} [ω^{T} ϕ (x_{i}) + b] - 1 + e_{i}} 。 (19) \end{matrix}

分别对ω、b、e_i、a_i求导,则有

\begin{matrix} \begin{matrix} \frac{\partial L}{\partial ω} = 0 \to ω = \overset{l}{\sum_{i = 1}} a_{i} y_{i} ϕ (x_{i}), (20) \\ \frac{\partial L}{\partial b} = 0 \to \overset{l}{\sum_{i = 1}} a_{i} y_{i} = 0, (21) \\ \frac{\partial L}{\partial e_{i}} = 0 \to a_{i} = r e_{i}, (22) \\ \frac{\partial L}{\partial a_{i}} = 0 \to y_{i} [ω^{T} ϕ (x_{i}) + b] - 1 + e_{i} = 0 。 (23) \end{matrix} \end{matrix}

根据(19)式和求导后的4个条件可以消去e_i和ω,列出一个关于α和b的线性方程组

\begin{matrix} [\begin{matrix} 0 & y^{T} \\ y & Ω_{i, j} + r^{- 1} I \end{matrix}] [\begin{matrix} b \\ α \end{matrix}] = [\begin{matrix} 0 \\ I_{l} \end{matrix}], (24) \end{matrix}

式中:Ω_ij为核矩阵,Ω_ij=y_iy_jϕ $\begin{matrix} (x_{i})^{T} \end{matrix}$ ϕ(x_j)=y_iy_jK(x_i,x_j),j=1,…,l;I为单位矩阵;I_l=[ $\begin{matrix} \begin{matrix} 1 & \dots & l \end{matrix} \end{matrix}$ ]^T,α=[ $\begin{matrix} \begin{matrix} a_{1} & \dots & a_{l} \end{matrix} \end{matrix}$ ]^T。

解上述方程组可以得到一组最优分类面的参数α和b,最后得到LSSVM的分类函数为

\begin{matrix} y (x) = sgn \{\overset{l}{\sum_{i = 1}} a_{i} y_{i} K (x, x_{i}) + b\}, (25) \end{matrix}

式中:K(x,x_i)为核函数。

LSSVM的核函数必须是正定的,且满足Mercer定理^[18]。这就是LSSVM工具箱,即本研究采用的第二种LSSVM的原理以及公式推导。

一对一SVM多分类原理^[19]是在任意两类样本之间设计1个SVM,为任意两类构建超平面,因此针对n个类别的样本,就需要设计n(n-1)/2个SVM。在这种方式下,是对n个分类器的训练集进行两两区分。测试时,当要判别一个未知样本的类别时,需要进行投票,最后投票计数最多的类别即判定为该未知样本的类别。按如下方式进行投票(A、B、C、D分别为未知样本的投票类别基数):

A=B=C=D=0;

(A,B)-SVM,如果是A获胜,则A=A+1;否则,B=B+1;

(A,C)-SVM,如果是A获胜,则A=A+1;否则,C=C+1;

…

(C,D)-SVM,如果是C获胜,则C=C+1;否则,D=D+1;

最大(A,B,C,D)就是未知样本的决策类别。

本研究采用Libsvm工具箱中的C-SVC(线性核)方法和LSSVM工具箱中的LSSVM(RBF核)方法中的一对一机制对5类蜂蜜样本进行多分类,并验证分类效果。

3 材料与方法

3.1 材料

采用来自不同蜂场的蜂蜜样本,共392个,其中椴树蜜39个、荆条蜜47个、油菜蜜74个、洋槐蜜86个、荔枝蜜146个。每个样品均在20 ℃左右密封保存。

3.2 仪器设备

应用德国布鲁克公司生产的配备衰减全反射ATR附件的TENSOR37傅里叶变换中红外光谱仪,及该公司的光谱采集和分析软件OPUS7.0。

3.3 光谱采集

将少量蜂蜜样本涂于ATR附件上,取每个样本扫描两次的平均值。仪器的检测参数如下:扫描范围为650~4000 cm^-1,分辨率为8 cm^-1,扫描32次。首先在40~60 ℃下水浴处理结晶样品,待其融化为液体后再进行扫描。原始光谱如图1所示。

图 1. 不同蜂蜜样本的中红外光谱

Fig. 1. Mid-infrared spectra of different honey samples

下载图片查看所有图片

3.4 预处理及模型样本

影响样品光谱的因素有很多,如基线漂移、高频随机噪声、光散射等,为消除这些影响,获取有效信息,在建立判别模型之前,需要对原始光谱进行预处理。本研究采用标准归一化法对光谱进行预处理。

在模型建立时,随机选择392个样品中的2/3样本作为训练集,共261个样品,其余的作为测试集,共131个样品。椴树蜜、荆条蜜、油菜蜜、洋槐蜜、荔枝蜜依次标记为5到1。

3.5 数据分析环境

用PCA方法将归一化后的光谱数据降到不同维数数据集之后的4组数据进行归一化处理,之后分别在MATLAB2014a和MATLAB2016b平台上应用线性SVM和非线性LSSVM进行分类比较。同时采用libsvm-mat-2.89-3和LSSVMlabv1_8_R2009b_R2011a软件包,该软件包具有操作简单、使用方便、通用性好的特点^[20]。

4 实验结果与分析

4.1 实验结果

蜂蜜品种判别模型是根据SVM的判别结果来鉴别蜂蜜种类的。首先比较了不同主成分累积方差贡献率,如表1所示。

表 1. 不同主成分累积方差贡献率

Table 1. Cumulative variance contribution rate of different principal components

Dimension	1	2	3	5	10	15	20
Contribution rate /%	46.539	82.272	91.908	96.054	99.188	99.129	99.856

查看所有表

由于光谱中存在着严重的共线性现象,且前5个主成分的累积方差贡献率为96.054%(如表1所示),这一数据表明光谱中存在严重的共线性现象,因此采用主成分分析方法进行主成分分析是十分必要的。后面应用到的降维后的n维特征数据就是应用前n个主成分得分形成的矩阵。

随后对未知蜂蜜光谱样本降维到5维、10维、15维、20维的特征数据再次进行归一化处理,应用线性SVM和基于网格搜索优化算法的径向基核的LSSVM分类器模型进行识别,验证采用不同SVM的效果。结果显示,在应用线性SVM分类器对降维到20维的光谱数据进行识别时,平均识别率大于97%,最高识别率为100%。应用LSSVM分类器时,需要根据特定数据通过实验的方法确定其结构和参数。故本文选取作为核函数的径向基函数RBF、多项式函数和Sigmoid函数,最终发现RBF作为核函数时具有较高的分类精度,从而选取RBF作为核函数。

径向基函数RBF表示为

\begin{matrix} \begin{matrix} K (x, x_{i}) = \exp (- \frac{{|x - x_{i}|}^{2}}{2 δ^{2}}), (26) \\ |x - x_{i}| = \sqrt[]{\overset{n}{\sum_{k = 1}} (x^{k} - x_{i}^{k})^{2}}, (27) \end{matrix} \end{matrix}

式中:δ为核宽度。

r和δ是RBF核函数涉及的两个主要参数。用于控制错分样本惩罚程度的惩罚参数r可以起到保持样本偏差与机器泛化能力之间平衡的作用。另一个重要参数δ是径向基核宽度,当其值过小时,样本数据会产生过学习现象;当其过大时,则会产生欠学习的现象^[16]。本研究从参数集中选取r和δ的不同参数组合,采用网格搜索寻优法在全局寻找最优解^[21]。通过该方法训练LSSVM,若参数组合对应最高识别率,则为两个参数的最优组合。结果发现,降维到20维的特征数据在LSSVM分类器上的平均识别率为97%,且在r=0.9538、δ=22.5241的条件下最高识别率达到了100%。结果如表2所示。

表 2. 线性SVM和LSSVM分类器模型对不同维数特征数据的平均识别率

Table 2. Average discrimination rate of different dimension feature data from linear SVM and LSSVM classifier models%

Method	5-dimension	10-dimension	15-dimension	20-dimension
PCA-SVM	84.54	87.38	96.38	97.77
PCA-LSSVM	87.31	92.54	96.15	97.69

查看所有表

线性SVM和LSSVM分类器模型测试集的应用结果如图2~5所示。

图 2. 当输入20维特征数据且应用SVM算法识别率为100%时测试集的实际分类和预测分类结果

Fig. 2. Actual and predicted classifications of test set using SVM algorithm when recognition rate is 100% and 20-dimensional feature data are input

下载图片查看所有图片

图 3. 当输入为20维特征数据且应用SVM算法识别率为99.23%时测试集的实际分类和预测分类结果

Fig. 3. Actual and predicted classifications of test set using SVM algorithm when recognition rate is 99.23% and 20-dimensional feature data are input

下载图片查看所有图片

图 4. 当输入为20维特征数据且应用LSSVM算法识别率为100%时测试集的实际分类和预测分类结果

Fig. 4. Actual and predicted classifications of test set using LSSVM algorithm when recognition rate is 100% and 20-dimensional feature data are input

下载图片查看所有图片

图 5. 当输入为20维特征数据且应用LSSVM算法识别率为97.69%时测试集的实际分类和预测分类结果

Fig. 5. Actual and prediction classifications of test set using LSSVM algorithm when recognition rate is 97.69% and 20-dimensional feature data are input

下载图片查看所有图片

由图2和图4可知,椴树蜜、荆条蜜、油菜蜜、洋槐蜜、荔枝蜜的实际测试集分类和预测测试集分类完全相同,因此每种蜜的识别率都为100%。图3中只有第二类洋槐蜜的1个样本的预测种类与实际种类不符,这个洋槐蜜样本被误判为第四类荆条蜜。图5中只有第二类洋槐蜜的2个样本的预测种类与实际种类不符,其中,1个洋槐蜜样本被误判为第四类荆条蜜,另外1个洋槐蜜样本被误判为第一类荔枝蜜。第五类椴树蜜的1个样本的预测种类与实际种类不符,被误判为第四类荆条蜜。

4.2 结果分析

对于PCA降维方法,累积方差贡献率随着降维维数的增大而增大,这是因为降维维数增大意味着选择了更多的主成分来表示原数据集的主要信息,进而特征提取率逐渐增大。

应用较高维数降维数据结合线性SVM方法进行分类的效果好于LSSVM方法。高维(15维、20维)矩阵输入线性SVM和LSSVM进行分类的效果差不多,都能达到高于96%的识别率,输入20维矩阵的识别率最高能达到100%。主要原因可能是原始数据经主成分分析方法降维后在高维(15维、20维)矩阵上的特征提取得好,包含的信息量足够大,包含差异性信息的重要样本点在其数据空间上可以近似认为是线性可分的。这时使用线性核函数SVM可以达到较为理想的分类效果。而低维(5维、10维)矩阵输入线性SVM进行分类的效果与LSSVM的效果有一定差距。因为低维(5维、10维)矩阵的信息量相对较少,包含差异性信息的重要样本点在其数据空间上并不一定是线性可分的,这在一定程度上影响了分类效果。采用RBF核的LSSVM的主要计算方法就是通过非线性映射使输入的向量从原空间映射到高维空间,而在这个高维空间中得到的线性判别函数可以代替原来空间中非线性的此类函数,即在这个新的空间中,可以比原空间更容易获得最优线性分类面,这就是RBF核函数的贡献。Vapnik和Shapire证明了假定数据本身无噪声时,理论上会存在一个核函数,使映射到高维数据空间后的数据线性可分,且高维投影通过增加空间灵活度和减少支持向量提高了测试集上低错误率的保证。依据SVM的性质可以获得如下的误差期望上界:

\begin{matrix} {L_{test}} \leq \frac{N_{SV}}{N}, (28) \end{matrix}

式中:{L_test}为测试集上错误率的期望;N_SV为支持向量数目;N为样本总数。(28)式表明,支持向量越多,测试集的错误率可能会越高。这表明:如果数据离分界面很远,则支持向量一般会很少,测试性能应当可靠;反之,如果数据全部分布在分界面上,表明数据缠绕很严重,测试集基本不可靠。

在线性不可分的情况下,一切线性不可分的样本点,也就是ζ_i≥0的样本点,都可以作为支持向量。在1维的情况下,所有交叠的样本点全部都是支持向量,这样的测试集的错误率基本没有保证;反之,如果把这些交叠的样本点投射到2维空间,那么它们中只有一部分是支持向量,而其余交叠的样本点由于空间自由度提高,ζ_i会发生戏剧性的变化,如图6所示。

图 6. 支持向量由1维投影到2维空间的变换图

Fig. 6. Transformation graph of support vector from 1-dimensional space to 2-dimensional space

下载图片查看所有图片

1维中交叠的那些点被投影到2维空间中,支持向量数目大大减少,进而大大降低了测试集的错误率。

5 结论

实验结果表明,采用主成分分析降维算法降维到20维的特征数据在线性SVM和LSSVM分类器上的平均识别率都高于97%,最高识别率都可达到100%,且模型稳定。采用主成分分析结合基于网格搜索优化的LSSVM方法在利用较低维数数据进行分类时,比线性SVM方法的识别精度高,稳定性好。本研究证明了用主成分分析结合线性SVM或LSSVM识别定性分析算法鉴别椴树蜜、荆条蜜、油菜蜜、洋槐蜜、荔枝蜜5种蜂蜜品种是可行的,而且鉴定过程中工作效率高,减少了不必要的损失,降低了鉴定成本;此外还能够避免传统鉴定方法中主观判断对鉴定结果造成的影响。本研究采用的SVM分类方法比较成熟,今后还会探讨其他较为成熟的分类器方法,以验证蜂蜜中红外光谱数据的分类效果。

参考文献

[1] 陈兰珍. 蜂蜜品质近红外光谱评价技术研究[D]. 北京: 中国农业科学院农业质量标准与检测技术研究所, 2010.

Chen LZ. Study on quality evaluation for honey by near infrared spectroscopy[D]. Beijing: Institute of Quality Standards and Testing Technology for AGRO-Products ofCAAS, 2010.

[2] 刘博静. 蜂蜜产地特征检测方法的研究[D]. 保定: 河北大学, 2010.

Liu BJ. The research of detection method about characteristic of honey producing area[D]. Baoding: Hebei University, 2010.

[3] 钟艳萍, 钟振声, 陈兰珍, 等. 近红外光谱技术定性鉴别蜂蜜品种及真伪的研究[J]. 现代食品科技, 2010, 26(11): 1280-1282.

Zhong Y P, Zhong Z S, Chen L Z, et al. Qualitative identification of floral origin and adulteration of honey by near-infrared spectroscopy[J]. Modern Food Science and Technology, 2010, 26(11): 1280-1282.

[4] Ruoff K, Luginbühl W, Künzli R, et al. Authentication of the botanical and geographical origin of honey by mid-infrared spectroscopy[J]. Journal of Agricultural and Food Chemistry, 2006, 54(18): 6873-6880.

[5] Bertelli D, Plessi M, Sabatini A G, et al. Classification of Italian honeys by mid-infrared diffuse reflectance spectroscopy (DRIFTS)[J]. Food Chemistry, 2007, 101(4): 1565-1570.

[6] Graça G, Moreira A S, Correia A J, et al. Mid-infrared (MIR) metabolic fingerprinting of amniotic fluid: a possible avenue for early diagnosis of prenatal disorders?[J]. Analytica Chimica Acta, 2013, 764: 24-31.

[7] 张文娟, 陈兰珍, 吴黎明, 等. 中红外光谱法快速鉴别不同蜜源蜂蜜[ C]. 全国蜂产业高峰论坛, 2013.

Zhang WJ, Chen LZ, Wu LM, et al. Study of mid-infrared spectroscopy analysis for rapid discrimination of botanical origin of honey[ C]. Summit Forum of National Bee Industry, 2013.

[8] 胡乐乾, 尹春玲, 马渭奎, 等. 红外光谱法对蜂蜜掺伪的模式识别[J]. 应用化学, 2011, 28(s1): 144-145.

Hu Y Q, Yin C L, Ma W K, et al. Identification of adulterated honey based on infrared spectroscopy and pattern recognition technology[J]. Chinese Journal of Applied Chemistry, 2011, 28(s1): 144-145.

[9] 孙燕, 张海华, 王铮. 中红外光谱技术应用于饶河蜂蜜产地溯源的表征[J]. 化学分析计量, 2015, 24(3): 41-44.

Sun Y, Zhang H H, Wang Z. Application of infrared spectrum technology in Raohe honey characterization of traceability[J]. Chemical Analysis and Meterage, 2015, 24(3): 41-44.

[10] 段锋华, 王先华, 叶函函, 等. 基于统计与光程分布的二氧化碳反演方法[J]. 光学学报, 2017, 37(5): 0501003.

Duan F H, Wang X H, Ye H H, et al. Carbon dioxide retrieval method based on statistics and optical path distribution[J]. Acta Optica Sinica, 2017, 37(5): 0501003.

[11] 程力勇, 米高阳, 黎硕, 等. 基于主成分分析-支持向量机模型的激光钎焊接头质量诊断[J]. 中国激光, 2017, 44(3): 0302004.

Cheng L Y, Mi G Y, Li S, et al. Quality diagnosis of joints in laser brazing based on principal component analysis-support vector machine model[J]. Chinese Journal of Lasers, 2017, 44(3): 0302004.

[12] 廖建尚, 王立国. 两类空间信息融合的高光谱图像分类方法[J]. 激光与光电子学进展, 2017, 54(8): 081002.

Liao J S, Wang L G. Hyperspectral image classification method based on fusion with two kinds of spatial information[J]. Laser & Optoelectronics Progress, 2017, 54(8): 081002.

[13] 陈兰珍, 孙谦, 叶志华, 等. 基于神经网络的近红外光谱鉴别蜂蜜品种研究[J]. 食品科技, 2009, 34(8): 287-289.

Chen L Z, Sun Q, Ye Z H, et al. Determination of floral origin of honey by near infrared spectroscopy based on artificial neural network[J]. Food Science of Technology, 2009, 34(8): 287-289.

[14] 张妍楠, 陈兰珍, 薛晓锋, 等. 基于近红外光谱检测技术鉴别洋槐蜜中掺入大米糖浆的可行性研究[J]. 光谱学与光谱分析, 2015, 35(9): 2536-2539.

Zhang Y N, Chen L Z, Xue X F, et al. Discrimination of rice syrup adulterant of acacia honey based using near-infrared spectroscopy[J]. Spectroscopy and Spectral Analysis, 2015, 35(9): 2536-2539.

[15] 陈冰梅, 樊晓平, 周志明, 等. 支持向量机原理及展望[J]. 制造业自动化, 2010, 32(12): 136-138.

Chen B M, Fan X P, Zhou Z M, et al. The principle and prospect of support vector machine[J]. Manufacturing Automation, 2010, 32(12): 136-138.

[16] 陈万海. 基于支持向量机的超谱图像分类技术研究[D]. 哈尔滨: 哈尔滨工程大学, 2008.

Chen WH. Research on classification of hyperspectral images based on support vector machine[D]. Harbin: Harbin Engineering University, 2008.

[17] 陈华舟, 陈福, 许丽莉, 等. 基于网格搜索的参数优化方法用于鱼粉灰分的近红外LSSVM定量分析[J]. 分析科学学报, 2016, 32(2): 198-202.

Chen H Z, Chen F, Xu L L, et al. Grid search parameter optimization applied to near infrared LSSVM modeling quantitative analysis of fishmeal ash[J]. Journal of Analytical Science, 2016, 32(2): 198-202.

[18] Vapnik VN. The nature of statistical learning theory[M]. New York: Springer-Verlag, 1998: 1- 17.

[19] Duan KB, Rajapakse JC, Nguyen MN. One-Versus-One and One-Versus-Allmulticlass SVM-REF for gene selection in cancer classification[C]∥Evolutionary Computation, Machine Learning and Data Mining in Bioinformatics. Valencia: [s.n.], 2007: 47- 56.

[20] Chang CC, Lin C J. LIBSVM: a library for support vector machines[EB/OL]. ( 2010-03-01) [2017-11-20]. http:∥www.csie.ntu.edu.tw/~cjlin/libsvm.

[21] 唐小彪. 基于支持向量机的地震储层预测方法研究[D]. 成都: 成都理工大学, 2009.

Tang XB. Seismic reservoir discrimination based on support vector machines[D]. Chengdu: Chengdu University of Technology, 2009.

徐天扬, 杨娟, 孙晓荣, 刘翠玲, 李熠, 周金慧, 陈兰珍. 中红外光谱法结合支持向量机快速鉴别蜂蜜品种[J]. 激光与光电子学进展, 2018, 55(6): 063003. Tianyang Xu, Juan Yang, Xiaorong Sun, Cuiling Liu, Yi Li, Jinhui Zhou, Lanzhen Chen. Mid-Infrared Spectroscopy Analysis Combined with Support Vector Machine for Rapid Discrimination of Botanical Origin of Honey[J]. Laser & Optoelectronics Progress, 2018, 55(6): 063003.

中红外光谱法结合支持向量机快速鉴别蜂蜜品种下载： 1469次

1 引言

2 基本原理

2.1 降维方法原理

2.2 SVM原理

3 材料与方法

3.1 材料

3.2 仪器设备

3.3 光谱采集

图 1. 不同蜂蜜样本的中红外光谱

Fig. 1. Mid-infrared spectra of different honey samples

3.4 预处理及模型样本

3.5 数据分析环境

4 实验结果与分析

4.1 实验结果

表 1. 不同主成分累积方差贡献率

Table 1. Cumulative variance contribution rate of different principal components

表 2. 线性SVM和LSSVM分类器模型对不同维数特征数据的平均识别率

Table 2. Average discrimination rate of different dimension feature data from linear SVM and LSSVM classifier models%

图 2. 当输入20维特征数据且应用SVM算法识别率为100%时测试集的实际分类和预测分类结果

Fig. 2. Actual and predicted classifications of test set using SVM algorithm when recognition rate is 100% and 20-dimensional feature data are input

图 3. 当输入为20维特征数据且应用SVM算法识别率为99.23%时测试集的实际分类和预测分类结果

Fig. 3. Actual and predicted classifications of test set using SVM algorithm when recognition rate is 99.23% and 20-dimensional feature data are input

图 4. 当输入为20维特征数据且应用LSSVM算法识别率为100%时测试集的实际分类和预测分类结果

Fig. 4. Actual and predicted classifications of test set using LSSVM algorithm when recognition rate is 100% and 20-dimensional feature data are input

图 5. 当输入为20维特征数据且应用LSSVM算法识别率为97.69%时测试集的实际分类和预测分类结果

Fig. 5. Actual and prediction classifications of test set using LSSVM algorithm when recognition rate is 97.69% and 20-dimensional feature data are input

4.2 结果分析

图 6. 支持向量由1维投影到2维空间的变换图

Fig. 6. Transformation graph of support vector from 1-dimensional space to 2-dimensional space

5 结论

Article Outline

关于本站 Cookie 的使用提示

全站搜索

中红外光谱法结合支持向量机快速鉴别蜂蜜品种 下载： 1469次

1 引言

2 基本原理

2.1 降维方法原理

2.2 SVM原理

3 材料与方法

3.1 材料

3.2 仪器设备

3.3 光谱采集

图 1. 不同蜂蜜样本的中红外光谱

Fig. 1. Mid-infrared spectra of different honey samples

3.4 预处理及模型样本

3.5 数据分析环境

4 实验结果与分析

4.1 实验结果

表 1. 不同主成分累积方差贡献率

Table 1. Cumulative variance contribution rate of different principal components

表 2. 线性SVM和LSSVM分类器模型对不同维数特征数据的平均识别率

Table 2. Average discrimination rate of different dimension feature data from linear SVM and LSSVM classifier models%

图 2. 当输入20维特征数据且应用SVM算法识别率为100%时测试集的实际分类和预测分类结果

Fig. 2. Actual and predicted classifications of test set using SVM algorithm when recognition rate is 100% and 20-dimensional feature data are input

图 3. 当输入为20维特征数据且应用SVM算法识别率为99.23%时测试集的实际分类和预测分类结果

Fig. 3. Actual and predicted classifications of test set using SVM algorithm when recognition rate is 99.23% and 20-dimensional feature data are input

图 4. 当输入为20维特征数据且应用LSSVM算法识别率为100%时测试集的实际分类和预测分类结果

Fig. 4. Actual and predicted classifications of test set using LSSVM algorithm when recognition rate is 100% and 20-dimensional feature data are input

图 5. 当输入为20维特征数据且应用LSSVM算法识别率为97.69%时测试集的实际分类和预测分类结果

Fig. 5. Actual and prediction classifications of test set using LSSVM algorithm when recognition rate is 97.69% and 20-dimensional feature data are input

4.2 结果分析

图 6. 支持向量由1维投影到2维空间的变换图

Fig. 6. Transformation graph of support vector from 1-dimensional space to 2-dimensional space

5 结论

Article Outline

相关论文

相关资讯

关于本站 Cookie 的使用提示

全站搜索

中红外光谱法结合支持向量机快速鉴别蜂蜜品种下载： 1469次