Paper
Last updated
Was this helpful?
Last updated
Was this helpful?
来源:李沐视频
视频链接:https://www.bilibili.com/video/BV19S4y1M7hm
论文链接在:https://github.com/mli/paper-reading/
Unsupervised Feature Learning via Non-Parametric Instance Discrimination
个体判别任务
把每张图片看成一个类别,学习每张图片的特征
使用CNN
从memory bank里抽负样本,memory bank里存着所有的特征
Unsupervised Embedding Learning via Invariant and Spreading Instance Feature
个体判别任务
一个batch里所有的非正样本都是负样本。这样可以做端到端训练,只用一个编码器。
Representation Learning with Contrastive Predictive Coding
一个编码器+自回归模型
Contrastive Multiview Coding
数据集:NYU RGBD,有四个视角
正样本是多个视角的
使用多个编码器
之后的clip也是类似的思想
模型:Res50
可以看做是InstDisc的改进
证明了无监督训练可以比有监督的预训练好
论文写作水平高
不同的数据增强
g函数(mlp)的增加直接提升了10个点。
InvaSpread可以看做是这个的前身
在smiclr启发下,mocov1加上mlp proj,更多的数据增强。
更大的模型
加深proj,2层最好
动量编码器
聚类+对比学习,multi-crop
效果非常好
负样本是为了防止模型坍塌(什么都没有学到)
把匹配问题换成预测问题,自己预测自己
目标函数是MSE loss
有意思的解释博客:understanding self-supervised and contrastive learning with BYOL
batchnorm起了关键作用,是隐式的对比学习。
化繁为简
不需要负样本,不需要大的batchsize,不需要动量编码器
stop gradient
MoCo V2 下游任务迁移好用
BYOL分类任务好
研究如何使得ViT(vision transformer)训练更稳定