流形学习

流形学习(manifold learning)是一类借鉴了拓扑流形概念的降维方法。

介绍流行学习首先要说明一下什么是流形:即指具有不同维数的任意光滑的曲线或曲面。

流形学习是基于这样一种假设:若低维流形嵌入到高维空间中,则数据样本在高维空间的分布虽然看上去十分复杂,但局部上仍具有欧氏空间的性质,因此,可以容易地在局部建立降维映射关系,然后再设法将局部映射关系推广到全局。
其特点为:通过局部线性来构造全局非线性

为什么要使用流形学习

流形学习是从高维采样数据中恢复低维流形结构,即找到高维空间中的低维流形,并求出相应的嵌入映射,以实现维数约简或者数据可视化。它是从观测到的现象中去寻找事物的本质,找到产生数据的内在规律。

目前常用的特征提取方法分类

流形学习目前存在的问题

本征维数估计

对于流形学习,有这样一个假设:
一个低维流形嵌入到一个高维数据中,那么这个低维流形就意味着它是一个低维度,也就是它的本征维度。

对其维数的估计目前常用的有:特征映射法、几何学习法以及统计学习法等。

近邻点的选择

由于流形学习通常在局部建立降维映射关系,然后再设法将局部映射关系推广到全局,所以近邻点的选择尤为重要。选择不好或太少、太多都会造成最后的拓扑结构的破坏。

数据采样

对数据采样,流形学习也有很高要求。流形学习若想取得很好的效果,则必须对邻域保持样本密采样,但这恰恰是高维情形下面临的重大障碍。因此流形学习方法在实践中的降维性能往往没有预期的好。

噪声流形学习

流形学习对于噪音数据非常敏感。噪音数据可能出现在两个区域连接处:

  • 如果没有出现噪音,这两个区域是断路的。
  • 如果出现噪音,这两个区域是短路的。

样本外点学习

流形学习是建立在训练数据之上的一种非线性学习模型,当这种模型建立好后,如果有个新的特征样本,如何通过原有的结果获得它在低维空间当中的表征。原始的流形学习方法很难解决。

关于这类问题一般有:线性化、核化、张量化以及Charting方法。

监督(半监督)流形学习

原始的流形学习方法是一种无监督学习,如果在学习过程中引进数据的类别信息可以提高数据的类别可分性。

小样本问题

当样本点的个数小于样本的原始维数时,会导致某些方阵非正定。
目前解决这类问题的常用方法有:伪逆法、扰动法、预处理法、零空间法、最大间距准则法、奇异值分解法

流形学习经典算法

1 多维缩放(Multiple Dimensional Scaling,简称MDS)

见MDS.ipynb文件

2 等度量映射(Isometric Mapping,简称Isomap)

见Isomap.ipynb文件

3 局部线性嵌入(Locally Linear Embedding,简称LLE)

见LLE.ipynb文件

Logo

学大模型,用大模型上飞桨星河社区!每天8点V100G算力免费领!免费领取ERNIE 4.0 100w Token >>>

更多推荐