NEZHA
论文地址:paper
代码地址:code
NEZHA论文是也是基于Transformer的预训练模型,从文章来看,它对BERT模型进行了四点改进,具体如下:
增加相对位置编码函数(Functional Relative Positional Encoding)
全词掩码(Whole Word Masking)
混合精度训练(Mixed Precision Training)
优化器改进(LAMB Optimizer)
在BERT模型预训练时,很多数据的真实数据长度达不到最大长度,因此靠后位置的位置向量训练的次数要比靠前位置的位置向量的次数少,造成靠后的参数位置编码学习的不够。在计算当前位置的向量的时候,应该考虑与它相互依赖的token之间相对位置关系,可以更好地学习到信息之间的交互传递。
参考资料
Last updated
Was this helpful?