主成分分析排序和模糊线性判别分析的生菜近红外光谱分类
下载: 645次
1 引言
目前, 冰箱可以用来保鲜生菜, 但随着贮藏时间的延长, 生菜中亚硝酸盐含量在不断增加而损害人体健康。 更重要的是, 长期贮存会导致其中的水和大多数营养物质的含量下降[1]。 例如, 董伟等人选取华南4种高叶酸含量作物作为实验材料, 实验表明, 因长期贮存平均叶酸损失达到23%。 因此, 确定食物的贮存时间具有重要意义[2]。 本工作以生菜为例, 探讨一种有效的蔬菜新鲜度检测方法。
传统的人工筛选是评估食物新鲜度最常见的方法。 有经验的人可通过观察食物的外部特征(比如颜色、 形状和味道)快速做出判断。 然而, 受一些内部和外部因素的影响, 人工筛选是主观的, 缺乏准确性。 因此, 研究人员通过多种方法进行实验以检测食品的质量和贮存时间。 高婷婷等[3]结合时间-温度指标(time-temperature indicators, TTIS), 借助一些常用的建模方法, 如测定反应速率常数(k)和活化能(Ea)以及Ea匹配来监测新鲜食品质量。 为了快速准确地评价罗非鱼鱼片的新鲜度, Han 等[4]利用电子舌结合线性和非线性多元算法检测鱼的新鲜度。
近红外光谱技术具有快速、 无损、 操作简单、 精度高、 成本低等优点。 目前, 环境分析、 食品工程[5,6]、 食品新鲜度检测[7]等不同领域的许多研究人员都应用了近红外反射光谱(near infrared reflectance spectroscopy, NIRS)技术。
模糊线性判别分析(fuzzy linear discriminant analysis, FLDA)是一种有监督的特征提取和降维方法, 该算法也被广泛应用于分类及其他领域。 例如Guidea等[8]借助FLDA算法对矿泉水中的矿物成分进行分析分类, 有效区分了来自罗马尼亚和德国的矿泉水, 正确分类率达到88%。 Shen等[9]应用FLDA对白菜的中红外光谱进行特征提取, 并使用K-最近邻法(K-nearest neighbor, KNN)进行样本分类, 实现了无损检测白菜是否有λ-三氯氟氰菊酯农药残留。
K-最近邻法(KNN)是一种有监督的分类方法[10]。 Chen等[11]为快速无损地检测猪肉的储存时间, 分别使用线性判别分析(linear discriminant analysis, LDA)、 K-最近邻(KNN)、 反向传播人工神经网络(back propagation artificial neural network, BP-ANN)等算法建立了猪肉储存时间判别模型, 结果表明BP-ANN模型在训练集和预测集中的判别率分别为99.26%和96.21%。
在主成分分析算法(principal component analysis, PCA)的基础上, 采用新排序原则对特征向量进行重组的principal component analysis sort (PCA Sort)算法, 并建立生菜贮藏时间的判别模型。 首先, 利用Antatis Ⅱ型近红外光谱仪采集生菜的近红外光谱数据, 并利用多元散射校正(multiple scatter correction, MSC)消除光散射的影响, 对预处理后的数据分别采用PCA, PCA+FLDA和PCA Sort+FLDA等方法进行分析。 最后利用KNN进行分类, 确定各组生菜的贮存时间, 计算并比较这三种方法的鉴别结果。
1 实验部分
1.1 样本
从镇江一家超市购买生菜。 为了减小误差, 实验材料应符合一定的标准。 所有的生菜样品(60个样品)保证是在同一时间(新鲜和成熟)采摘的, 大小、 颜色、 重量和叶子的完整性没有太大的差异。 用水清洗和晾干后, 生菜样品被放入有标签的塑料袋中, 并放入4 ℃保鲜柜中备用。
1.2 实验环境与计算运行环境
采用美国Thermo Antaris Ⅱ型近红外光谱仪获取生菜的近红外反射光谱。 在整个实验过程中, 由于近红外光谱对外界环境敏感, 实验室保持温度在20~25 ℃, 空气相对湿度在50%~60%。
所有计算均在Windows 10的MATLABR2020a(Math Works, Natick, MA, USA)运行。
1.3 近红外光谱数据采集
光谱仪需要提前开机预热1 h。 采用反射积分球模式采集样品的近红外光谱, 对每个样品扫描32次, 得到漫反射光谱的平均值。 光谱扫描的波数范围为10 000~4 000 cm-1, 扫描间隔为3.856 cm-1。 实验开始后, 每隔12 h取出生菜样品进行近红外光谱检测, 共检测三次, 取其平均值, 每个样品采集的近红外光谱为1557维数据。
在生菜原始近红外光谱中, 受环境影响, 易发生噪声、 样本异质性、 基线漂移和偏移[12]。 多元散射校正(MSC)可有效消除不同散射水平引起的光谱差异。 故采用MSC对初始近红外光谱进行预处理。 图1为MSC预处理后的光谱图。
1.4 PCA Sort
采集的生菜样品近红外光谱有1557维, 属于高维数据, 同时光谱中含有大量无用信息和噪声数据, 增加了分析、 建模和计算的难度, 故需对近红外光谱进行降维以提取生菜近红外光谱的主要特征信息。 主成分分析(PCA)可对生菜近红外光谱数据进行降维, 同时较好地保留主要特征信息。 然而, PCA在降维过程中会丢失一些鉴别信息而导致分类准确率降低。 为提高分类的准确率, 对PCA算法进行了改进, 按照一定的规则改变其特征向量的顺序。 具体算法如下:
(1)设训练样本组成的矩阵为A, A∈Rn×d(n为训练样本数, d为训练样本维数)。
(2) 用训练样本矩阵A组成协方差矩阵S
(1)
式(1)中, xk为第k个训练样本, 为训练样本的平均值,
(3) 根据式Sv=λv, 对矩阵S进行特征分解, 得到一组特征向量v1, v2, ..., vn, λ和v分别是特征值和对应的特征向量。
(4) 计算类内散射矩阵Sw与类间散射矩阵Sb
(2)
(3)
式(2)中, c为样本总类别数; ni为第i类样本个数, i=1, 2, ..., c; 为第i类中的第j个训练样本, j=1, 2, ..., ni, mi为第i类样本均值, 为总体样本均值, T为矩阵转置运算。
(5) 根据式(4)计算特征向量$v_{1}, v_{2}, \cdots, v_{n}$的J(vk)值, 并按J(vk)从大到小的规则将$v_{1}, v_{2}, \cdots, v_{n}\left(n=\sum_{i=1}^{c} n_{i}\right)$进行排序,得到一组新的特征向量$w=\left[w_{1}, w_{2}, \cdots, w_{n}\right]^{\mathrm{T}}$,其中$w_1$为式(4)最大值时对应的特征向量。
(4)
(6) 将第k个训练样本xk和测试样本yk根据式(5)和式(6)投影到特征向量w上, 其中zk是训练样本xk在特征向量w上的投影, tk是测试样本yk在特征向量w上的投影。
(5)
(6)
1.5 模糊线性判别分析(FLDA)
模糊线性判别分析(FLDA)用式(5)中训练样本zk的每类均值作为聚类中心, 计算出类内离散度矩阵Sfw和模糊类间离散度矩阵Sfb。 计算矩阵[Sfw]-1Sfb的特征值和特征向量及投影空间, 并将训练样本和测试样本投影到得到的特征向量上。 FLDA具体算法描述见文献[13], m为FLDA中的权重指数。
2 结果与讨论
2.1 PCA和PCA Sort的特征向量数对鉴别准确率的影响
分别使用PCA和PCA Sort对生菜近红外光谱降维。 计算结果表明, 前15个主成分充分反映了生菜近红外光谱的大部分信息。 分别使用PCA和PCA Sort算法得到它们的前6~15个特征向量, 并用FLDA和KNN进一步处理, 得到各自的准确率如表1所示。 由表1可知PCA Sort的准确率要高于PCA, 当取m=2, K=3时, PCA Sort的准确率达到98.33%, 高于PCA算法(83.33%)。
表 1. PCA和PCA Sort的前6~15个特征向量及其准确率
Table 1. The first 6~15 eigenvectors and accuracies of PCA and PCA Sort
|
2.2 参数m和K对鉴别准确率的影响
为确定恰当的权重系数m, 首先计算出m在1~15范围内取值时的准确率, 当m增加时, 总体准确率下降。 结果如图2(a)所示, 发现权重系数较小时, PCA+FLDA+KNN和PCA Sort+FLDA+KNN的分类结果相对准确。 因此, 将计算范围缩小到m为1~5, 寻找更为精确的m。 缩小范围[如图2(b)所示], 当权重系数取m=2时, 分类的准确率最高。

图 2. 改变权重系数时准确率的变化
(a): 权重系数m 为1~15; (b): 权重系数m 为1~5
Fig. 2. The accuracy changing with the weight coefficient (m )
(a): m in the range of 1~15; (b): m in the range of 1~5
KNN参数K的取值也是影响分类结果的一个因素。 计算K取1~20内的奇数时对应的各项准确率, 结果如图3所示, 由此可知, K=3时PCASort+FLDA+KNN的分类准确率最高, 此时PCA+KNN及PCA+FLDA+KNN两种方法的分类准确率也近似最优结果, 故K取3。
三种方法的最高准确率如表2所示。 分析表2可以看出, 采用FLDA算法并结合PCA和KNN, 准确率近似为PCA和KNN算法的两倍, 达到83%。 而用PCA Sort代替PCA, 准确率则进一步提高, 达到98%。 因此, 使用PCA Sort, 并用FLDA进行特征提取, 再用KNN进行分类, 具有更好的优越性。
表 2. 三种方法的最高准确率
Table 2. The highest accuracy of three methods
|
3 结论
提出一种新的特征提取方法, 即PCA Sort+FLDA, 以降低数据的维数, 提取生菜近红外光谱的特征信息, 基于该方法及近红外光谱技术, 建立了一种比传统人工筛选方法具有更多优势的分类模型。 通过比较PCA+KNN, PCA+FLDA+KNN和PCA Sort+FLDA+KNN三种方法的分类准确率, 发现当使用PCA Sort得到新的特征向量空间, 并用FLDA进行特征提取, 可以提高KNN分类的准确率(达到最高的98%)。 综上所述, 近红外光谱结合PCA Sort, FLDA和KNN可大幅提高生菜贮藏时间的识别准确率, 也为其他食品贮藏时间的测定提供了可行的参考方法。
[1]
[3]
[4]
[5]
[6]
[7]
[8]
[9]
[10]
[11]
[12]
[13]
Article Outline
武斌, 沈嘉棋, 汪鑫, 武小红, 侯晓蕾. 主成分分析排序和模糊线性判别分析的生菜近红外光谱分类[J]. 光谱学与光谱分析, 2022, 42(10): 3079. Bin WU, Jia-qi SHEN, Xin WANG, Xiao-hong WU, Xiao-lei HOU. NIR Spectral Classification of Lettuce Using Principal Component Analysis Sort and Fuzzy Linear Discriminant Analysis[J]. Spectroscopy and Spectral Analysis, 2022, 42(10): 3079.