首先,必须理解两个基本概念:特征值和目标值,先看图例

1、特征值:

特征值是指数据的特征,对于每个样本,通常具有一些 "属性"(Attribute)或者说 ”特征“(Feature),特征所具体取的值就被称作 ”特征值“。

比如,苹果的皮是”光滑“的,橘子的皮是”褶皱“的,”光滑“和”褶皱“就是 ”苹果“ 和 ”橘子“ 这两个样本的特征 值

2、目标值(标签)

目标值又叫标签,是数据的标签,它描述了该条样本数据所属的目标或类型。

比如,样本1, ”光滑” 、“球形” 及后面的一系列特征所描述的目标是 “苹果”

那么:

      监督学习和非监督学习的差别之一就在于:有没有目标值的差别

      而另一个区别就在于:学习过程有没有人工干预

                                          

  • 监督学习

当一个孩子逐渐认识事物的时候,父母给他一些苹果和橘子(目标值),并且告诉他苹果是什么样的,有哪儿些特征(特征值),橘子是什么样的,有哪儿些特征(特征值)。经过父母的不断介绍,这个孩子已经知道苹果和橘子的区别,如果孩子在看到苹果和橘子的时候给出错误的判断,父母就会指出错误的原因(人工干预),经过不断地学习,再见到苹果和橘子的时候,孩子立即就可以做出正确的判断。

上面这个例子就是监督学习的过程,也就是说,在学习过程中,不仅提供事物的具体特征,同时也提供每个事物的名称。不过在人类学习的过程中,父母可以让孩子观察、触摸苹果和橘子,而对于机器却不一样,人类必须提供每个样本(苹果和橘子)的特征及对应的种类,使用这些诗句,通过算法让机器学习,进行判断,逐步减小误差率。

也可以这样理解:监督学习是从给定的训练数据集中“学习”出一个函数,当新的数据到来时,可以根据这个函数预测结果。监督学习的训练集要求包括输入和输出,即特征和目标。训练集中的目标是由人类事先进行标注的。

主要用途:分类(Classify)和回归(Regression)。

常见算法:k-近邻算法、决策树与随机森林、逻辑回归、神经网络、朴素贝叶斯、Logistic回归、支持向量机、AdaBoost算法、线性回归、局部加权线性回归、收缩和树回归等

  • 非监督学习

同样的一个孩子,在一开始认识事物的时候,父母会给他一些苹果和橘子,但是并不告诉他哪儿个是苹果,哪儿个是橘子,而是让他自己根据两个事物的特征自己进行判断,会把苹果和橘子分到两个不同组中,下次再给孩子一个苹果,他会把苹果分到苹果组中,而不是分到橘子组中。

这个例子就是非监督学习的过程,也就是说,在学习的过程中,只提供事物的具体特征(特征值),但不提供事物的名称(目标值),让学习者自己总结归纳。所以非监督学习又称为归纳性学习(Clustering),是指将数据集合分成由累死的对象组成的多个簇(或组)的过程。当然,在机器学习的过程中,人类只提供每个样本(苹果和橘子)的特征,使用这些数据,通过算法让机器学习,进行自我归纳,以达到同组内的事物特征非常接近,不同组的事物特征相距很远的结果。

主要用途:聚类等

常见算法:k-means、Apriori、FP-Growth等

Logo

学大模型,用大模型上飞桨星河社区!每天8点V100G算力免费领!免费领取ERNIE 4.0 100w Token >>>

更多推荐