投机采样(Speculative Decoding)原理与实验验证
创作时间:
作者:
@小白创作中心
投机采样(Speculative Decoding)原理与实验验证
引用
CSDN
1.
https://blog.csdn.net/qq_41664845/article/details/86470705
投机采样(Speculative Decoding)是一种用于优化大模型推理速度的技术。通过使用一个参数量较小的Draft模型和一个参数量较大的Target模型,可以在保持推理精度的同时显著提高生成速度。本文详细介绍了投机采样的原理、实现方法以及实验结果。
概念
大模型推理过程中存在一个重要的性能瓶颈:内存访问带宽。在自回归采样过程中,每个Token的生成都需要将所有参数从存储单元传输到计算单元,导致decode阶段的速度远低于prefill阶段。现有的优化方法如in-flight batching和prefix cache虽然缓解了内存访问问题,但带宽瓶颈仍然存在。
投机采样原理
投机采样提供了一种从根本上解决内存访问带宽瓶颈的方法。其核心思想是使用两个具有不同参数量但共享相同词汇表的模型:Target模型(大模型)和Draft模型(小模型)。具体步骤如下:
- 给定输入序列,由Draft模型生成K个token得到输出序列。
- 将输入序列和Draft模型输出序列拼接,得到新的输入序列,由Target模型进行推理。
- 评估Target模型在每个位置上的概率分布,保留与Draft模型输出一致的token作为最终输出。
最佳与最差情况分析
- 最佳情况:Draft模型生成的K个token与Target模型完全一致。此时,Draft模型推理K次,Target模型推理一次,可以得到K个可用的token,节省了K-1次大模型的推理。
- 最差情况:Draft模型生成的K个token与Target模型都不一致。此时,Draft模型推理K次,Target模型推理一次,只有1个可用的token,性能与原始推理相当。
实验结果
实验中使用了一个4B参数量的Draft模型和一个70B参数量的Target模型。实验结果表明,在HumanEval数据集上,投机采样的加速效果达到了2.5倍。随着K值的增大,总耗时会出现先降后增的现象,XSum数据集上的最优K值为3。分析显示,编程数据集Human Eval的接受率明显高于XSum,这可能是因为编程任务的字符搭配更具有规律性,更容易预测。
投机采样在不同数据集上的加速效果
K值对投机采样性能的影响分析
热门推荐
涂料施工工艺及注意事项详解
房产中介遭客户"跳单"?法院判了
土耳其通涨原因?深入分析土耳其通胀现状及成因
浙江上虞打造“青春之城”:年轻产业吸引年轻人
以下几类人群可以免交医疗保险
水培竹柏的养殖方法与注意事项(掌握这些技巧,让你的竹柏生长更健康)
警方提示:严查非法群组,保护社会
大蒜胜过幽门螺旋杆菌?60岁翁用后3月,胃癌曝光!重要看副作用
【NBA】快船VS活塞:双核对决,谁能主宰洛杉矶?
守护绿色生命线:根结线虫病的防治策略解析
新车提车后是否需要贴隐形车衣?这取决于你的需求
三分钟读懂备份相关知识
拙趣教育理念:自然和谐的教育之道,尊重成长规律,培养综合素质
通货膨胀的影响具体有哪些?通货膨胀的类型有哪几类?
关系型数据库Oracle备份频率
国家医保服务平台医保电子凭证激活方法全攻略
每年用药2次,缩小鼻息肉、改善鼻塞,还有望减少激素用药和手术!
老鼠多久生一窝,一窝生几个,附老鼠繁殖季节
Excel表格中复制上一行内容的多种方法
溪口镇:历史文化、自然风光与特色美食全解析
黑乌龙茶:品种、产地、口感、功效与泡法全面解析
斗鱼为什么这么好斗?揭秘斗鱼的进化历史和饲养方法
如何鉴别打印机好坏(掌握这些方法轻松判断打印机质量)
塑料中框和金属中框区别
程序员薪资会一直高吗?未来十年呢?
邯郸成语典故知多少?这部典籍不得不读
耍社火,一场西北人的年度狂欢
空气也能这样玩?水下恒压压缩空气储能来了!
抗战胜利前夕:国民党军队15000多门火炮的构成揭秘
清朝康乾盛世下的社会变革与文化传承