一个简单的例子来理解监督学习和非监督学习及其区别

首先，必须理解两个基本概念：特征值和目标值，先看图例1、特征值：特征值是指数据的特征，对于每个样本，通常具有一些 "属性"（Attribute）或者说 ”特征“（Feature），特征所具体取的值就被称作 ”特征值“。比如，苹果的皮是”光滑“的，橘子的皮是”褶皱“的，”光滑“和”褶皱“就是 ”苹果“ 和 ”橘子“ 这两个样本的特征值2、目标值(标签)目标值又叫标签，...

Davide~苏

107047人浏览 · 2019-10-22 14:23:19

Davide~苏 · 2019-10-22 14:23:19 发布

首先，必须理解两个基本概念：特征值和目标值，先看图例

1、特征值：

特征值是指数据的特征，对于每个样本，通常具有一些 "属性"（Attribute）或者说 ”特征“（Feature），特征所具体取的值就被称作 ”特征值“。

比如，苹果的皮是”光滑“的，橘子的皮是”褶皱“的，”光滑“和”褶皱“就是 ”苹果“ 和 ”橘子“ 这两个样本的特征值

2、目标值(标签)

目标值又叫标签，是数据的标签，它描述了该条样本数据所属的目标或类型。

比如，样本1， ”光滑” 、“球形” 及后面的一系列特征所描述的目标是 “苹果”

那么：

监督学习和非监督学习的差别之一就在于：有没有目标值的差别

而另一个区别就在于：学习过程有没有人工干预

监督学习

当一个孩子逐渐认识事物的时候，父母给他一些苹果和橘子(目标值)，并且告诉他苹果是什么样的，有哪儿些特征(特征值)，橘子是什么样的，有哪儿些特征(特征值)。经过父母的不断介绍，这个孩子已经知道苹果和橘子的区别，如果孩子在看到苹果和橘子的时候给出错误的判断，父母就会指出错误的原因（人工干预），经过不断地学习，再见到苹果和橘子的时候，孩子立即就可以做出正确的判断。

上面这个例子就是监督学习的过程，也就是说，在学习过程中，不仅提供事物的具体特征，同时也提供每个事物的名称。不过在人类学习的过程中，父母可以让孩子观察、触摸苹果和橘子，而对于机器却不一样，人类必须提供每个样本（苹果和橘子）的特征及对应的种类，使用这些诗句，通过算法让机器学习，进行判断，逐步减小误差率。

也可以这样理解：监督学习是从给定的训练数据集中“学习”出一个函数，当新的数据到来时，可以根据这个函数预测结果。监督学习的训练集要求包括输入和输出，即特征和目标。训练集中的目标是由人类事先进行标注的。

主要用途：分类（Classify）和回归（Regression）。

常见算法：k-近邻算法、决策树与随机森林、逻辑回归、神经网络、朴素贝叶斯、Logistic回归、支持向量机、AdaBoost算法、线性回归、局部加权线性回归、收缩和树回归等

非监督学习

同样的一个孩子，在一开始认识事物的时候，父母会给他一些苹果和橘子，但是并不告诉他哪儿个是苹果，哪儿个是橘子，而是让他自己根据两个事物的特征自己进行判断，会把苹果和橘子分到两个不同组中，下次再给孩子一个苹果，他会把苹果分到苹果组中，而不是分到橘子组中。

这个例子就是非监督学习的过程，也就是说，在学习的过程中，只提供事物的具体特征(特征值)，但不提供事物的名称(目标值)，让学习者自己总结归纳。所以非监督学习又称为归纳性学习（Clustering），是指将数据集合分成由累死的对象组成的多个簇（或组）的过程。当然，在机器学习的过程中，人类只提供每个样本（苹果和橘子）的特征，使用这些数据，通过算法让机器学习，进行自我归纳，以达到同组内的事物特征非常接近，不同组的事物特征相距很远的结果。

主要用途：聚类等

常见算法：k-means、Apriori、FP-Growth等