模型传递是近红外光谱分析技术中一个关键的共性基础技术问题,通过在同一工作原理的两台仪器之间寻求可行的数学方法,使得在一台仪器上建立的模型能够应用于另外一台仪器样品光谱响应的预测,对近红外技术的实际应用具有重要意义。以150份烤烟作为试验样品,以两台布鲁克公司MPA近红外光谱仪,一台热电公司Antaris近红外光谱仪作为研究对象,通过积分球漫反射检测技术获得光谱数据。采用一阶导数(first-order derivative, 1st Der)和标准正态变量变换(standard normal variate, SNV)对光谱数据进行处理分析,计算不同仪器间光谱的残差值、残差一阶矩、残差信号概率密度和最大信噪比等参数,并采用偏最小二乘法(partial least squares, PLS)建立烤烟总糖含量数学模型,检验模型传递效果。结果表明,一阶导数具有降低残差一阶矩,将仪器偏差信号转换为标准高斯分布的优点,但同时会降低信噪比。标准正态变量变换同样可以降低一阶矩,同时可大幅度提高信噪比,但无法将仪器偏差信号转换为标准高斯分布,需要进一步的信号处理。一阶导数与SNV相结合可保留两种方法的优点,同时在一定程度上弥补每种方法单独处理的缺点,是一种可以消除以积分球漫反射作为光谱测量方式的因仪器厂家或型号不同、使用年限不同等原因所产生的噪声的处理方法,可实现傅里叶型近红外光谱仪之间的模型传递效果的明显改善。
半监督学习方法可以充分利用大量未标注样本来弥补已标注样本的不足,针对应用近红外光谱建立农产品等复杂体系的分析模型中,存在获得大量精确标注样本较困难,而使用少量标注样本或大量未准确标注样品建模结果不理想的问题,基于半监督自训练理念,提出半监督偏最小二乘(Semi supervised-partial least squares,SS-PLS)方法优化模型。本研究以全国不同产地、不同等级的211份原料烟叶近红外光谱及其对应感官评价数据为例,应用SS-PLS方法优化模型,模型性能较原始模型有显著提高,优化后SS-PLS方法模型的决定系数(R2)达90%左右,建模标定值分布标准差与拟合值标准差的比值(Ratio of Performance to Deviation,RPD)达3.0以上,模型内部交叉验证及预测标准差(Standard error of cross validation SECV以及Standard Error of Prediction,SEP)值达1.0以下;并将原始感官评价数据与SS-PLS优化后的数据,按照固定阈值划分为优、中、差三个等级,应用基于主成分及FISHER准则的投影方法(Projection Model based on Principal Component and Fisher Criterion,PPF)分析得到的结果表明,SS-PLS优化后的分类结果也显著好于原始感官评价数据。SS-PLS可解决使用小样品集建模的数据代表性问题,在获得大量精确标注样本较困难情况下,为建立近红外光谱分析模型提供了一种新的化学计量学方法。