兼顾理解和生成的中文预训练模型CPT

如何训练一个全能的预训练模型?——兼顾理解和生成的中文预训练模型CPT,邱锡鹏

image-20211128115236683
image-20211128115424199

中文预训练模型中没有考虑到的?

image-20211128115501329

T5和BART用了Encoder-Decoder架构(难以训练)

image-20211128115547050
image-20211128115642722
image-20211128115731269

挑战

image-20211128115741944
image-20211128115832589
image-20211128120053423
image-20211128120306074

同时支持理解和生成任务,生成效率提升2倍以上

image-20211128120603444
image-20211128120613667
image-20211128120653943
image-20211128120733725
image-20211128120759033
image-20211128120814108
image-20211128120830411

模型效果

image-20211128120930437
image-20211128121003259
image-20211128121014358
image-20211128121117952
image-20211128121129700

未来的工作:中文的字、词级别的兼顾

Last updated

Was this helpful?