巴蜀网

 找回密码
 免费注册

QQ登录

只需一步,快速开始

同板块主题的 前一篇 同板块主题的 后一篇
开启左侧
查看: 236|回复: 0
1# 贡嘎山
跳转到指定楼层
 太山 发表于: 2021-12-31 12:24:14|只看该作者|只看大图回帖奖励|倒序浏览|阅读模式

[2021年让Transformer的推理速度提高4.5倍,这个小trick还能给你省十几万

 [复制链接]
源自:创事记
  丰色 发自 凹非寺
  量子位
  | 公众号 QbitAI
  最近,NLP明星公司Hugging Face发布了一个叫做Infinity的产品,可以以1ms延时完成Transformer的推理,性能相当高了。
但是,厉害归厉害,还是有点贵──1年至少要十几万块(2万美元)。
  那有没有什么平替的方法呢?
  有的!还是开源的、“不费吹灰之力”就可以达到Infinity一些公共基准的那种。
并且现在,通过在该方法上施加一个小trick,将Transformer的推理速度提高4.5倍!

  帖子发布不到一天就收获了250+热度
  那么,一个“平替”到底为什么能达到“付费”的效果呢?
一个trick让Transformer推理速度提高4.5倍
  先来认识一下这个方法:Transformer-deploy。
它可以用一行命令优化和部署Hugging Face上的Transformer模型,并支持大多数基于Transformer编码器的模型,比如Bert、Roberta、miniLM、Camembert、Albert、XLM-R、Distilbert等。
Transformer-deploy推理服务器用的是NVIDIA Triton。
  推理引擎为Microsoft ONNX Runtime(用于CPU和GPU推理)和Nvidia TensorRT(仅限 GPU)。
  如果想在GPU上获得一流的性能,Nvidia Triton+Nvidia TensorRT这样的组合无疑是最佳选择。
  虽然TensorRT用起来有点难,但它确实能比用Pytorch快5~10倍。
在实际性能测试中,Transformer-deploy在batch size为1、token分别为16和128的输入序列中的推理速度,都比付费的Hugging Face Infinity要快:
  Transformer-deploy在token为16时要1.52ms,Infinity则需要1.7ms;token为128时需要1.99ms,Infinity则需要2.5ms。
那前面说的能让Transformer的推理性能进一步提高的小trick是什么呢?
  GPU量化(quantization)。
  作者表示:
  据我所知,目前任何OOS云服务都还没用到过这个方法。
  不过执行GPU量化需要修改模型源代码(需在矩阵乘法等代价高昂的操作上添加一些叫做QDQ的特定节点),既容易出错,又很无聊,并且还需自己维护修改后的代码。
  因此作者已经为多个基于Transformer的模型手动完成了这项工作。
  后来,他们又发现似乎只需修补模型模块的抽象语法树(AST)也可以自动完成。
  在用户端,在GPU上执行模型的基本量化类似这样:
最终,该方法在Roberta-base模型和MNLI数据集(分类任务)上实现了4.53倍的推理速度。
当然这也牺牲了0.4个点的精度;如果一点不牺牲的话,也可以加速3.2倍左右。
  作者表示,与Transformer-deploy原来的版本相比,这已经是一个很大的改进了,毕竟原版本的加速成本需要超过1个点的精确度。
  最终他们用Albert、Bert(包括miniLM)、Distilbert、Roberta(包括 Camembert、XLM-R、DistilRoberta等)、Electra测试了该trick。
  结果是对于任何可以导出为ONNX格式的Transformer模型,都可以“开箱即用”。

§ 参考文献
  https://www.reddit.com/r/MachineLearning/comments/rr17f9/p_45_times_FASTer_hugging_face_transformer
『 巴蜀网 』提醒,在使用本论坛之前您必须仔细阅读并同意下列条款:
  1. 遵守《全国人大常委会关于维护互联网安全的决定》及中华人民共和国其他各项有关法律法规,并遵守您在会员注册时已同意的《『 巴蜀网 』管理办法》;
  2. 严禁发表危害国家安全、破坏民族团结、破坏国家宗教政策、破坏社会稳定、侮辱、诽谤、教唆、淫秽等内容;
  3. 本帖子由 太山 发表,享有版权和著作权(转帖除外),如需转载或引用本帖子中的图片和文字等内容时,必须事前征得 太山 的书面同意;
  4. 本帖子由 太山 发表,仅代表用户本人所为和观点,与『 巴蜀网 』的立场无关,太山 承担一切因您的行为而直接或间接导致的民事或刑事法律责任。
  5. 本帖子由 太山 发表,帖子内容(可能)转载自其它媒体,但并不代表『 巴蜀网 』赞同其观点和对其真实性负责。
  6. 本帖子由 太山 发表,如违规、或侵犯到任何版权问题,请立即举报,本论坛将及时删除并致歉。
  7. 『 巴蜀网 』管理员和版主有权不事先通知发帖者而删除其所发的帖子。
中国气象局:2022年将着力提升暴雨预警准确率 6万车主使用智能驾驶不给钱,理想汽车竟然还说越多越好?
您需要登录后才可以回帖 登录 | 免费注册

本版积分规则

© 2002-2024, 蜀ICP备12031014号, Powered by 5Panda
GMT+8, 2024-6-17 05:45, Processed in 0.062400 second(s), 9 queries, Gzip On, MemCache On
同板块主题的 后一篇 !last_thread! 快速回复 返回顶部 返回列表