加入收藏    设为首页
首页
国内资讯 社会 财经 科技 教育 旅游 体育 时尚 娱乐 房产 家居 汽车 母婴 健康 商业 区块链 生活 企业 传媒 区域经济
您现在的位置:首页 > 科技 > 正文
基于知识蒸馏的BERT模型压缩
2019-10-22 13:14:21       来源:      编辑:admin      

  大数据文摘授权转载自数据派编译:孙思琦、成宇、甘哲、刘晶晶

  在过去一年里,语言模型的研究有了许多突破性的进展, 比如GPT用来生成的句子足够以假乱真[1];BERT, XLNet, RoBERTa [2,3,4]等等作为特征提取器更是横扫各大NLP榜单。但是,这些模型的参数量也相当惊人,比如BERT-base有一亿零九百万参数,BERT-large的参数量则高达三亿三千万,从而导致模型的运行速度过慢。为了提高模型的运行时间,本文率先提出了一种新的知识蒸馏 (Knowledge Distillation) [5] 方法来对模型进行压缩,从而在不损失太多精度的情况下,节省运行时间和内存。文章发表在EMNLP 2019。

  “耐心的知识蒸馏”模型

  具体来说,对于句子分类类型的任务,当普通的知识蒸馏模型用来对模型进行压缩的时候, 通常都会损失很多精度。原因是学生模型 (student model) 在学习的时候只是学到了教师模型 (teacher model) 最终预测的概率分布,而完全忽略了中间隐藏层的表示。

  就像老师在教学生的时候,学生只记住了最终的答案,但是对于中间的过程确完全没有学习。这样在遇到新问题的时候,学生模型犯错误的概率更高。基于这个假设,文章提出了一种损失函数,使得学生模型的隐藏层表示接近教师模型的隐藏层表示,从而让学生模型的泛化能力更强。文章称这种模型为“耐心的知识蒸馏”模型 (Patient Knowledge Distillation, 或者PKD)。

  因为对于句子分类问题,模型的预测都是基于[CLS]字符的特征表示之上,比如在这个特征上加两层全连接。因此研究者提出一个新的损失函数,使得模型能够同时学到[CLS]字符的特征表示:

  其中M是学生的层数(比如3,6), N是老师模型的层数(比如12,24),h是[CLS]在模型中隐藏层的表示,而i, j则表示学生-老师隐藏层的对应关系,具体如下图所示。比如,对于6层的学生模型,在学习12层的教师模型的时候, 学生模型可以学习教师模型的 (2,4,6,8,10)层隐藏层的表示 (左侧PKD-skip), 或者教师模型最后几层的表示 (7,8,9,10,11, 右侧PKD-last). 最后一层因为直接学习了教师模型的预测概率,因此略过了最后一个隐藏层的学习。

  验证猜测

  研究者将提出的模型与模型微调(fine-tuning)和正常的知识蒸馏在7个句子分类的保准数据集上进行比较,在12层教师模型蒸馏到6层或者3层学生模型的时候,绝大部分情况下PKD的表现都优于两种基线模型。并且在五个数据集上SST-2 (相比于教师模型-2.3%准确率), QQP (-0.1%), MNLI-m (-2.2%), MNLI-mm (-1.8%), and QNLI (-1.4%) 的表现接近于教师模型。具体结果参见图表1。从而进一步验证了研究者的猜测,学习了隐藏层表示的学生模型会优于只学教师预测概率的学生模型。

  图表1

  在速度方面,6层transformer模型几乎可以将推理 (inference) 速度提高两倍,总参数量减少1.64倍;而三层transformer模型可以提速3.73倍,总参数两减少2.4倍。具体结果见图表2。

  图表2

  Radford, Alec, et al. "Language models are unsupervised multitask learners." OpenAI Blog 1.8 (2019).

  Devlin, Jacob, et al. "Bert: Pre-training of deep bidirectional transformers for language understanding." arXiv preprint arXiv:1810.04805 (2018).

  Yang, Zhilin, et al. "XLNet: Generalized Autoregressive Pretraining for Language Understanding." arXiv preprint arXiv:1906.08237 (2019).

  Liu, Yinhan, et al. "Roberta: A robustly optimized BERT pretraining approach." arXiv preprint arXiv:1907.11692 (2019).

  Hinton, Geoffrey, Oriol Vinyals, and Jeff Dean. "Distilling the knowledge in a neural network." arXiv preprint arXiv:1503.02531 (2015).

  Siqi Sun: is a Research SDE in Microsoft. He is currently working on commonsense reasoning and knowledge graph related projects. Prior joining Microsoft, he was a PhD student in computer science at TTI Chicago, and before that he was an undergraduate student from school of mathematics at Fudan University.

  Yu Cheng: is a senior researcher at Microsoft. His research is about deep learning in general, with specific interests in model compression, deep generative model and adversarial learning. He is also interested in solving real-world problems in computer vision and natural language processing. Yu received his Ph.D.from Northwestern University in 2015 and his bachelor from Tsinghua University in 2010. Before join Microsoft, he spent three years as a Research Staff Member at IBM Research/MIT-IBM Watson AI Lab.

  Zhe Gan: is a senior researcher at Microsoft, primarily working on generative models, visual QA/dialog, machine reading comprehension (MRC), and natural language generation (NLG). He also has broad interests on various machine learning and NLP topics. Zhe received his PhD degree from Duke University in Spring 2018. Before that, he received his Master"s and Bachelor"s degree from Peking University in 2013 and 2010, respectively.

  Jingjing (JJ) Liu: is a Principal Research Manager at Microsoft, leading a research team in NLP and Computer Vision. Her current research interests include Machine Reading Comprehension, Commonsense Reasoning, Visual QA/Dialog and Text-to-Image Generation. She received her PhD degree in Computer Science from MIT EECS in 2011. She also holds an MBA degree from Judge Business School at University of Cambridge.Before joining MSR, Dr.Liu was the Director of Product at Mobvoi Inc and Research Scientist at MIT CSAIL.

  代码已经开源在:

  https://github.com/intersun/PKD-for-BERT-Model-Compression

  实习/全职编辑记者招聘ing

  加入我们,亲身体验一家专业科技媒体采写的每个细节,在最有前景的行业,和一群遍布全球最优秀的人一起成长。坐标北京·清华东门,在大数据文摘主页对话页回复“招聘”了解详情。简历请直接发送至zz@bigdatadigest.cn

本文首发于微信公众号:大数据文摘。文章内容属作者个人观点,不代表和讯网立场。投资者据此操作,风险请自担。

 
上一篇:去哪儿网被浙江永康法院列为“老赖” 拒退签证保证金
下一篇:科创板|海尔生物披露网上中签结果 中签号码超过60000个
 
     栏目排行
  1. 自驾游、观雪景、泡温泉、赏民俗、住民
  2. 萍乡芦溪县:“旅游+”助力乡村振兴
  3. 旅游业“新”效迭出
  4. 珠海海泉湾传承非遗文化,带您体验传统
  5. 海泉湾国际温泉节盛大开幕 五地联动打
  6. 魅力好声音唱响国庆假期 珠海海泉湾邀
  7. 日本商场举行新年“初卖” 上千人5点排
  8. 越南旅行团在台脱团又有4人到案 28人暂
  9. 多地传“继父虐童”视频?网警:孩子爬高
  10. 韩国记者直播时被两个俄罗斯美女强吻,
     栏目推荐
中国金融网:将统筹推进违法金融广告和中国金融网:将统筹推进违法金融广告和营销宣传行为治理
中国金融网:南宁:培育金融人才 跑出中国金融网:南宁:培育金融人才 跑出金融“加速度”
中国金融网:多家欧美金融机构落户佛山中国金融网:多家欧美金融机构落户佛山这个高新区,服务大湾区
中国金融网:最难毕业季 金融科技人才中国金融网:最难毕业季 金融科技人才成了“香饽饽”
中国金融网:商业银行如何助力科创金融中国金融网:商业银行如何助力科创金融?
迪丽热巴穿军绿色也好美!和吴磊同框丝迪丽热巴穿军绿色也好美!和吴磊同框丝毫没有年龄差,让人羡慕
央视《新闻联播》头条聚焦铁建重工,聚央视《新闻联播》头条聚焦铁建重工,聚力攻克“卡脖子”技术难题
刚刚!我又上央视新闻联播头条了!刚刚!我又上央视新闻联播头条了!
“电动牙刷”到底值不值得用?牙医:这3“电动牙刷”到底值不值得用?牙医:这3个优点,让你省事还省钱
我国将建第一个国家公园:为何是三江源我国将建第一个国家公园:为何是三江源