前言
区分一下各种含“监督”的学习,包括无监督、弱监督、半监督、监督、自监督。
无监督学习(unsupervised learning)
无监督学习是机器学习的一种方法,没有给定事先标记过的训练示例,自动对输入的资料进行分类或分群。无监督学习的主要运用包含:聚类分析(cluster analysis)、关系规则(association rule)、维度缩减(dimensionality reduce)。
可以根据特点来认识无监督学习:
- 无监督学习是没有明确目的的训练方式,你无法提前知道结果是什么。
- 无监督学习不需要给数据打标签。
- 无监督学习几乎无法量化效果如何。
无监督学习是一种机器学习的训练方式,它本质上是一个统计手段,在没有标签的数据里可以发现潜在的一些结构的一种训练方式。
无监督学习的应用,比如对用户行为进行分类,筛选异常行为用户等等。
监督学习(supervised learning)
已知数据和其一一对应的标签,训练一个智能算法,将输入数据映射到标签的过程。监督学习是最常见的学习问题之一,例如给定一组猪的图片,并作图像级标注分类为猪,用监督学习训练一个算法可以判断新输入的图片是否是猪。
与无监督学习相比:
- 监督学习有明确的训练目的
- 监督学习的训练数据必须有标签
- 监督学习可以量化效果
弱监督学习(weakly supervised learning)
已知数据和其一一对应的弱标签,训练一个智能算法,将输入数据映射到一组更强的标签的过程。
标签的强弱指的是标签蕴含的信息量的多少,比如相对于分割的标签来说,分类的标签就是弱标签。再比如对于弱监督目标检测,就是数据只有图像级标注,比如图片的分类,要求算法获取目标边界框的学习任务。
半监督学习(semi-supervised learning)
已知数据和部分数据一一对应的标签,有一部分数据的标签未知,训练一个智能算法,学习已知标签和未知标签的数据,将输入数据映射到标签的过程。半监督通常是一个数据的标注非常困难,比如说医院的检查结果,医生也需要一段时间来判断健康与否,可能只有几组数据知道是健康还是非健康,其他的只有数据不知道是不是健康。那么通过有监督学习和无监督的结合的半监督学习就在这里发挥作用了。
总之,是在数据标注困难的情况下,使用少量标注数据和其他未标注数据进行学习的训练方式。
自监督学习(self-supervised learning)
基于监督学习当前的主要瓶颈是 标签生成和标注 的现状,人们提出了一个问题:
我们是否可以通过特定的方式设计任务,即可以从现有图像中生成几乎无限的标签,并以此来学习特征表示?
这道出了自监督学习的理想状态,我们希望同时拥有监督学习的明确性和无监督学习的自由性,理想的自监督学习能够在给定的无标注数据中自动生成我们需要的标签,并根据该标签和数据进行监督学习。
自监督学习的核心是如何给输入数据自动生成标签。之前的很多工作都是围绕这个核心展开的。一般的套路是:首先提出一个新的自动打标签的辅助任务(pretext task),用辅助任务自动生成标签,然后做实验、测性能、发文章。每年都有新的辅助任务被提出来,自监督学习的性能也在不断提高,有的甚至已经接近监督学习的性能。总体上说,或者是提出一种完全新的辅助任务,或者是把多个旧的辅助任务组合到一起作为一个“新”的辅助任务。
自监督学习的应用,有图像着色、图像超分辨率、图像修补等等,其学习到的特征表示通常可以用于下游任务。