半监督学习
Last updated
Was this helpful?
Last updated
Was this helpful?
许多真实任务中对样本的标记过程是耗时耗力的 相对而言,获取样本就简单很多
在进行Web网页推荐时,需要用户标记出哪些网页是他感兴趣的,很少会有用户愿意花大量的时间来提供标记,因此有标记的网页示例比较少,但Web上存在着无数的网页,它们都可作为未标记示例来使用。
监督学习,无监督学习,半监督学习
有监督的学习:学习器通过对大量有标记的训练例进行学习,从而建立模型用于预测未见示例的标记。很难获得大量的标记样本。
无监督的学习:无训练样本,仅根据测试样本的在特征空间分布情况来进行标记,准确性差。
半监督的学习:有少量训练样本,学习机以从训练样本获得的知识为基础,结合测试样本的分布情况逐步修正已有知识,并判断测试样本的类别。
利用未标注样本帮助学习的两个研究方向:
主动学习:研究挑选哪些样本进行标记可以最有利后续任务
半监督学习:如何自动使用未标记的样本来帮助后续任务
利用未标注样本帮助监督式学习的两个研究方向:
直推半监督学习:所用到的未标记样本就是我们要标记的对象
非直推半监督学习:学得的模型是对未来不可见的未标记样本进行预测
一个网页可以具有两个视图:一个视图是从网页本身包含的文本信息提取得到的属性集;另一个视图是从指向该网页的超链接包含的信息提取得到的属性集。
语音分类数据也具有两个视图:一个视图是从语音的音频信息提取得到的属性集;另一个视图是从人说话时嘴唇的动作信息提取得到的属性集。
利用计算机根据医学影像提供的信息来辅助医生诊断。不同的医学影像信息,包括通过断层扫描技术得到的CT图像,通过磁核共振技术得到的MRI图像,通过超声波技术产生的超声波图像,通过X射线技术得到的X光片,通过正电子发射体层扫描得到的PET图像。
该方法首先分别在两个视图上利用初始的有标记数据训练得到一个分类器
然后在接下来的训练过程中,每个视图上的分类器从未标记数据中挑选出若干个标记置信度(即对样本赋予正确标记的置信度)较高的样本进行标记,并把标记后的样本加入到训练集中,以便对方利用这些新标记的样本对分类器进行更新。
不断重复这个迭代过程,直到达到某个停止条件。
协同训练要求数据的两个视图充分冗余并且满足**条件独立性(conditional independence),“充分”(sufficient) 是指每个视图都足以产生一个完美的学习器,“冗余”(redundant) **则是指两个视图的信息都是足够的,对其中任一个视图来说,另一个视图是冗余的。协同训练时证明当双视图充分冗余且满足条件独立性时,协同训练可以将初始弱分类器的性能提高到任意精度[Blum& Mitchell, 1998]。
上述条件在现实任务中通常很难满足,因此性能提升幅度不会那么大,但研究表明,即便在更弱的条件下,协同训练仍可有效地提升弱分类器的性能。在属性集充分大时,随机地把属性集划分成双视图来进行协同训练也可以取得较好的效果[Nigam & Ghani, 2000]
分类置信度的估计因基学习算法而不同,例如若使用朴素贝叶斯分类器,则可以将后验概率转化为分类置信度。若使用支持向量机,则可将间隔大小转化为分类置信度。
位于相同聚类的样本点倾向于有同样的标签
样本的标签应该在稠密的区域变化小,在稀疏的区域变化大。
----标签的变化在相似度上是平滑的
标签传播实验