投机采样(Speculative Decoding)原理与实验验证
创作时间:
作者:
@小白创作中心
投机采样(Speculative Decoding)原理与实验验证
引用
CSDN
1.
https://blog.csdn.net/qq_41664845/article/details/86470705
投机采样(Speculative Decoding)是一种用于优化大模型推理速度的技术。通过使用一个参数量较小的Draft模型和一个参数量较大的Target模型,可以在保持推理精度的同时显著提高生成速度。本文详细介绍了投机采样的原理、实现方法以及实验结果。
概念
大模型推理过程中存在一个重要的性能瓶颈:内存访问带宽。在自回归采样过程中,每个Token的生成都需要将所有参数从存储单元传输到计算单元,导致decode阶段的速度远低于prefill阶段。现有的优化方法如in-flight batching和prefix cache虽然缓解了内存访问问题,但带宽瓶颈仍然存在。
投机采样原理
投机采样提供了一种从根本上解决内存访问带宽瓶颈的方法。其核心思想是使用两个具有不同参数量但共享相同词汇表的模型:Target模型(大模型)和Draft模型(小模型)。具体步骤如下:
- 给定输入序列,由Draft模型生成K个token得到输出序列。
- 将输入序列和Draft模型输出序列拼接,得到新的输入序列,由Target模型进行推理。
- 评估Target模型在每个位置上的概率分布,保留与Draft模型输出一致的token作为最终输出。
最佳与最差情况分析
- 最佳情况:Draft模型生成的K个token与Target模型完全一致。此时,Draft模型推理K次,Target模型推理一次,可以得到K个可用的token,节省了K-1次大模型的推理。
- 最差情况:Draft模型生成的K个token与Target模型都不一致。此时,Draft模型推理K次,Target模型推理一次,只有1个可用的token,性能与原始推理相当。
实验结果
实验中使用了一个4B参数量的Draft模型和一个70B参数量的Target模型。实验结果表明,在HumanEval数据集上,投机采样的加速效果达到了2.5倍。随着K值的增大,总耗时会出现先降后增的现象,XSum数据集上的最优K值为3。分析显示,编程数据集Human Eval的接受率明显高于XSum,这可能是因为编程任务的字符搭配更具有规律性,更容易预测。
投机采样在不同数据集上的加速效果
K值对投机采样性能的影响分析
热门推荐
现浇钢筋混凝土楼板裂缝的成因分析与防治措施
MCV偏低的原因及疾病解析
化学汉字:如何区别氨、铵根、胺?
10年了,李相赫还在压着LPL打
创新探索“1+3”模式 百万成都老人出新风采
如何建立一套完善的固定资产管理制度
普通法系判例法系:历史沿革、特点与影响
本田倒车雷达传感器故障怎么办?专业维修指南
化学汉字:如何区别氨、铵根、胺?
新电动摩托车如何进行有效充电?这种充电方式有哪些优缺点?
遍地开花的俄罗斯商品馆,打着进口旗号卖国货?企业回应
西甲第22轮前瞻:马竞迎500场里程碑,皇马客战西班牙人
别不当回事!老旧家电几年一换最合适:看完秒懂
火龙果挑选全攻略:从外观到口感,教你挑选最优质的火龙果
【朝医科普】一起来做颈椎保健操
张雪峰成功预判4个热门专业!附各专业2024录取分数线
食品喷花美学,能否让每一份佳肴都成为艺术品般的存在?
明朝女性发型演变:从桃花髻到牡丹头
中原证券:A股宽幅震荡 建议投资者把握结构性机会
选对帽子,时髦过冬!
世界白癜风日:白癜风真的治不好了吗?
汽车研发工程师的发展前景如何?
多个链接合成一个二维码
排水系统如何与城市共融,提升城市价值?
教师职业道德与法律责任
乌龟摆放指南:选对位置,好运自然来!
中国最大佛像排行榜前十名:中原大佛排第一名,高208米
身份证用途及法律合规要点解析
五阶魔方复原详解:从基础到精通的完整指南
学习人工智能所需的数学知识及路线规划