流形学习可以用于发现大型高维数据集的内在结构,并给出理解该数据集的潜在方式,已被视为一种有效的非线性降维方法 .近年来,新数据点不断地从数据流中产生,将改变已有数据点及其邻域点的坐标,传统流形学习算法不能有效地用于寻找高维数据流的内在信息.为了解决该问题,本文提出了一种基于迭代分解的增量流形学习算法IMLID(Incremental Manifold Learning Algorithm Based on Iterative Decomposition),可以检测到数据流形中的逐步变化,校准逐渐变化中的流形,可提高在取样于真实世界的特征集上分类效果的精确率,利用真实数据集进行实验验证,结果表明本文提出的算法是有效的,与其他相关算法相比,其性能具有优势,在模式识别、生物信息等领域具有应用价值.
流形学习是为了寻找高维空间中观测数据的低维嵌入.作为一种有效的非线性维数约减方法,流形学习被广泛应用于数据挖掘、模式识别等机器学习领域.然而,对于样本外点学习、增量学习和在线学习等流形学习方法,面对流式大数据的学习算法时间效率较低.为此提出了一种新的基于增量切空间的自适应流式大数据学习算法(self-adaptive streaming big data learning algorithm based on incremental tangent space alignment,SLITSA),该算法采用增量PCA的思想,增量地构造子空间,能在线或增量地检测数据流中的内在低维流形结构,在迭代过程中构建新的切空间进行调准,保证了算法的收敛性并降低了重构误差.通过人工数据集以及真实数据集上的实验表明:该算法分类精度和时间效率优于其他学习算法,可推广到在线或流式大数据的应用当中.
流形学习已成为机器学习和数据挖掘领域的研究热点。比如,算法LLE(Locally Linear Embedding)作为一种非线性降维算法有很好的泛化性能,被广泛地应用于图像分类和目标识别,但其仅仅假设了数据集处于单流形的情况。MM-LLE(Multiple Manifold Locally Linear Embedding)学习算法作为一种考虑多流形情况的改进算法,依然存在几点不足之处。因此,提出改进的MM-LLE算法,通过任意两类间的局部低维流形组合并构建分类器来提高分类精度;同时改进原算法计算最佳维度的方法。通过与算法ISOMAP、LLE以及MM-LLE比较分类精度,实验结果验证了改进算法的有效性。