NEZHA

论文地址：paper

代码地址：code

NEZHA论文是也是基于Transformer的预训练模型，从文章来看，它对BERT模型进行了四点改进，具体如下：

在BERT模型预训练时，很多数据的真实数据长度达不到最大长度，因此靠后位置的位置向量训练的次数要比靠前位置的位置向量的次数少，造成靠后的参数位置编码学习的不够。在计算当前位置的向量的时候，应该考虑与它相互依赖的token之间相对位置关系，可以更好地学习到信息之间的交互传递。

Last updated 4 years ago