投机采样(Speculative Decoding)原理与实验验证
创作时间:
作者:
@小白创作中心
投机采样(Speculative Decoding)原理与实验验证
引用
CSDN
1.
https://blog.csdn.net/qq_41664845/article/details/86470705
投机采样(Speculative Decoding)是一种用于优化大模型推理速度的技术。通过使用一个参数量较小的Draft模型和一个参数量较大的Target模型,可以在保持推理精度的同时显著提高生成速度。本文详细介绍了投机采样的原理、实现方法以及实验结果。
概念
大模型推理过程中存在一个重要的性能瓶颈:内存访问带宽。在自回归采样过程中,每个Token的生成都需要将所有参数从存储单元传输到计算单元,导致decode阶段的速度远低于prefill阶段。现有的优化方法如in-flight batching和prefix cache虽然缓解了内存访问问题,但带宽瓶颈仍然存在。
投机采样原理
投机采样提供了一种从根本上解决内存访问带宽瓶颈的方法。其核心思想是使用两个具有不同参数量但共享相同词汇表的模型:Target模型(大模型)和Draft模型(小模型)。具体步骤如下:
- 给定输入序列,由Draft模型生成K个token得到输出序列。
- 将输入序列和Draft模型输出序列拼接,得到新的输入序列,由Target模型进行推理。
- 评估Target模型在每个位置上的概率分布,保留与Draft模型输出一致的token作为最终输出。
最佳与最差情况分析
- 最佳情况:Draft模型生成的K个token与Target模型完全一致。此时,Draft模型推理K次,Target模型推理一次,可以得到K个可用的token,节省了K-1次大模型的推理。
- 最差情况:Draft模型生成的K个token与Target模型都不一致。此时,Draft模型推理K次,Target模型推理一次,只有1个可用的token,性能与原始推理相当。
实验结果
实验中使用了一个4B参数量的Draft模型和一个70B参数量的Target模型。实验结果表明,在HumanEval数据集上,投机采样的加速效果达到了2.5倍。随着K值的增大,总耗时会出现先降后增的现象,XSum数据集上的最优K值为3。分析显示,编程数据集Human Eval的接受率明显高于XSum,这可能是因为编程任务的字符搭配更具有规律性,更容易预测。
投机采样在不同数据集上的加速效果
K值对投机采样性能的影响分析
热门推荐
怀化旅游必去景点推荐,探索这座魅力城市的精彩!
100年量子力学:从理论诞生到现代应用的全景回顾
2025年高考人数大概预估多少?各省报名人数统计
短视频文案写作技巧全攻略
前端开发:使用CSS offset属性实现图片沿SVG路径运动
明明什么都没做,却总觉得很累?警惕慢性疲劳综合征
高效复习的艺术:掌握技巧与乐趣,助力学习成长
《御街行·秋日怀旧》原文翻译以及赏析
教你糯米粘糕最简单做法,软糯香甜,好吃解馋营养足,孩子超爱吃
收入与生活满意度、快乐及幸福感的关系
专科生就业:破局之路,未来可期
软考高级自学能过吗?要怎么准备
电子工程师必须掌握的20个模拟电路
根管治疗到底痛不痛?会有不适感可逐渐缓解
EBITDA财务指标的含义、作用及其局限性
EBITDA怎么算?详解税息折旧及摊销前利润的计算方法与应用
93年!关于“飞将军”的秘密 有着跨越三代的守护
如何分析房地产行业的财务结构?房地产行业有哪些关键指标?
自驾蒙山周边游山玩水,经典一日游路线分享,不收费,原生态,有美景,有美食
诉讼离婚需要准备哪些文件和证据
探索海南高铁环线之旅:行程规划、景点推荐与实用贴士
青光眼不仅“静悄悄”,还不可逆,我们应该如何对待它?
Web错误如何定位排查思路
椴树蜜和普通蜂蜜哪个好(土蜂蜜和椴树蜜哪种更好要从四个方面来比较)
人為什麼會有既視感?
為什麼會發生既視感?揭開這個神秘現象背後的真相
如何在中考作文中脱颖而出
龙潭大峡谷旅游攻略及费用
做红烧茄子,不要直接下锅炸,这样做,茄子外焦里嫩还不吸油
睡眠质量与偏头痛风险:新研究揭示早晨头痛关键诱因