Transformer-XL及XLNet论文笔记

之前谈到的很多Transfomer模型,例如GPT、GPT-2、BERT及RoBERTa,存在一些显著的问题,例如无法有效建模超长文本、MLM存在的Pre-training和Fine-tuning不一致、训练测试比较慢等问题。2019年以来,很多学者在研究如何让Transformer变得更优秀、更加实用。这一篇文章将要介绍的Transformer-XL和XLNet,是其中比较好的研究结果。
Continue reading Transformer-XL及XLNet论文笔记