《芝麻街》人物赏析

这个题目其实是我们组一个同学在年初时关于预训练语言模型的一次主题分享,听完之后感觉很有趣。这几天读完一些paper后,也觉得把它们放在一起看,也许更有意思,于是有了今天这篇番外——《芝麻街》人物赏析。希望以更轻松、简明的笔法和大家聊聊这些年来从NNLM到BERT的历史过程,谈谈自己的一些认识和观察。
Continue reading 《芝麻街》人物赏析

经典词向量方法回顾

看遍近几年由Transformer衍生出来的语言预训练模型后,让我们走进历史,看看在此之前曾经辉煌夺目的word vectors。这篇内容是很早以前整理的,主要是cs224n word vectors两节课程及部分课外阅读资料的一些笔记要点。这次做了一些修改和补充,发布出来,与大家交流学习。
Continue reading 经典词向量方法回顾

ERNIE及ERNIE 2.0论文笔记

前面几篇语言预训练模型都是外国企业或院校的工作,今天我们将视线转回国内,看看由百度NLP团队提出的ERNIE(同期好像清华组也提出了一个同名的类似模型)及其2.0版本的细节。ERNIE也是基于BERT,更加专注于中文领域,很多NLP中文任务大幅领先,且在不少英文任务上也取得最好效果。
Continue reading ERNIE及ERNIE 2.0论文笔记

Transformer-XL及XLNet论文笔记

之前谈到的很多Transfomer模型,例如GPT、GPT-2、BERT及RoBERTa,存在一些显著的问题,例如无法有效建模超长文本、MLM存在的Pre-training和Fine-tuning不一致、训练测试比较慢等问题。2019年以来,很多学者在研究如何让Transformer变得更优秀、更加实用。这一篇文章将要介绍的Transformer-XL和XLNet,是其中比较好的研究结果。
Continue reading Transformer-XL及XLNet论文笔记

BERT及RoBERTa论文笔记

NLP领域最近一年多来,各种语言预训练模型层出不穷,去年Google团队发布的BERT一出场就技惊四座,刷新了GLUE 11项NLP测试的最高纪录,甚至超越了人类的表现,荣获NAACL 2019最佳长论文奖,可谓实至名归。2019年上半年,虽然又涌现出了GPT-2、Transformer-XL、XLNet等新贵,一度将BERT拉下了冠军宝座。但是,最近Facebook团队开源的基于BERT开发的加强版预训练模型RoBERTa又卷土重来,再次站上了GLUE的巅峰,并且在SQuADRACE排行榜上都名列前茅。真是应了那句话——“能打败你的,只有你自己”
Continue reading BERT及RoBERTa论文笔记

GPT及GPT-2论文笔记

2017年中Google提出的Transformer结构,今天看来真是一篇经典的开山之作,启发了如今NLP领域大火的BERT、XLNET等模型。今天要介绍的GPT及GPT-2也是Transformer的重要发展之一,主要是基于Transformer的Decoder进行的升级,两项工作都是由OpenAI团队完成的。从时间线上来看,GPT要比BERT早,但是GPT-2要稍晚些,为了叙述方便,这里放在一起来讨论了。下一篇就会介绍到BERT,如果希望保持时间线索,可以两篇交替来看。
Continue reading GPT及GPT-2论文笔记