问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

DeepSeek R1数学解题能力研究:准确性与效率的权衡

创作时间:
作者:
@小白创作中心

DeepSeek R1数学解题能力研究:准确性与效率的权衡

引用
1
来源
1.
https://developer.volcengine.com/articles/7468723308356173887

DeepSeek R1 是一个基于Transformer架构的大型语言模型,以其独特的基于Token的推理方式而闻名。在最近的一项研究中,DeepSeek R1 在解决来自MATH数据集的30个具有挑战性的数学问题时表现出色,其准确性显著领先于其他四种主流模型。然而,这一卓越表现是以生成大量Token为代价的,揭示了在复杂问题求解中,准确性与效率之间的重要权衡。

研究背景

近年来,自然语言处理技术的进步激发了人们将大语言模型(LLMs)应用于数学问题解决的兴趣。尽管最初的符号方法在处理自然语言细微差别方面存在局限性,但基于Transformer的模型的出现显著提升了LLMs处理和生成数学文本的能力。然而,更复杂的问题,如MATH数据集中发现的问题,通常需要多步骤推理和符号操作,仍然是一个巨大的挑战。

本研究关注的DeepSeek R1模型因其记录的基于 Token 推理步骤的依赖性而特别引起兴趣,这表明通过更迭过程可能提高准确性的潜在机制。此外,温度设置对模型输出的影响,它影响着创造性与连贯性的平衡,在数学推理的背景下值得考虑。

研究方法

本研究基于先前基准实验的结果,即“逐词再生与领域偏差:高级数学问题解决中大语言模型(LLMs)的基准测试”,该实验评估了各种大语言模型(LLMs)在MATH数据集上的表现。先前研究对响应生成设定了严格的时间限制,以防止无限循环,这一限制显著阻碍了DeepSeek Rl模型的表现。当前实验旨在探索DeepSeek Rl和其他LLMs在MATH数据集子集上的能力,不受这些时间限制,而是专注于识别和减轻重复性响应模式。

数据集创建

本研究的数据集来源于前述先前实验的结果。具体来说,从MATH数据集中选取了30个问题,这些问题是原始研究中没有任何模型能在规定的时限内正确解决的。这30个问题构成了本实验的数据集,代表了数学推理任务中的一个具有挑战性的子集。

模型选择

本次实验中选出了五种不同的大语言模型进行评估:

  • 本研究的重点模型为deepseek-rl:8b,由于前次实验的时间限制,该模型受到显著影响。官方文档建议在0.6至0.8的温度设置下达到最佳性能,并警告不要使用系统 Prompt 。
  • Gemini-1.5-Flash-8b:谷歌提出的一个采用不同架构方法的模型。
  • OpenAI近期发布的一个模型,用于比较分析。
  • Llama3.1:8b:一个以在各种基准测试中表现出色而闻名的开源模型。
  • Mistral-8b-latest:另一个强大的开源模型,作为比较的基准。

每个模型都经过11种不同温度设置的测试,温度范围从0.0到1.0,增量为0.1。这总共导致了1650次实验运行(30个问题,5个模型,11个温度)。

评估指标

主要评估指标是每个问题的解决方案的正确性。鉴于可能存在过于冗长或重复的回答,实施了以下程序:

  • 超过1000字符的回复被截断,仅保留最后1000字符进行评估。这假设回复的最后一部分包含了模型的最终答案。
  • 为了解决潜在的无限循环问题,实施了一个重复检测机制。如果发现回复的最后40个字符重复了400次,生成过程将被强制终止。
  • 最终或截断的回复与已知的正确答案进行了比较。每个回复的正确性使用二进制指标进行评估:如果模型的答案与预期答案完全匹配,则为1,否则为0。这次评估使用了mistral-large-2411模型作为评判标准。
  • 此外,还计算了所有成功运行中每个模型平均生成的 Token 数。

实验结果

实验产生了1650个数据点,代表了每个模型在每个温度设置下对每个问题的响应。其中只有一部分运行产生了正确答案。表1展示了每个模型在其各自的成功运行中的平均 Token 数。图1直观地描绘了这些结果,突出了DeepSeek R1与其他模型在 Token 使用上的显著差异。


关键观察

研究结果明确表明,DeepSeek R1虽然能够解决在先前受限实验中其他模型无法解决的复杂数学问题,但这样做是以显著增加的token使用为代价的。DeepSeek R1的平均token计数(4717.5)比测试的其他模型高出整整一个数量级。这一观察结果与该模型的架构设计相符,根据其文档,该设计高度依赖基于token的推理步骤,甚至暗示了这些“推理token”对于正常工作所必需的。

此外,该实验强调了温度设置对模型行为的影响的重要性。观察到Llama 3.1仅在0.4的温度下才能得到正确结果,这突显了某些模型对这一参数的敏感性,并表明最佳性能可能需要超出默认设置的微调。

这些发现表明,在复杂数学问题求解的背景下,速度与准确性之间存在权衡。尽管DeepSeek R1在拥有充足计算资源(即 Token 生成)时,在解决具有挑战性的问题上表现出卓越的准确性,但其性能是以显著更长的处理时间为代价的,相比之下,那些生成更简洁、但可能准确性较低的响应的模型。这突显了在选择合适的语言模型时,仔细考虑特定任务的特定要求的重要性。对于需要快速响应的任务,Mistral模型可能更为可取,而那些优先考虑复杂问题准确性的任务可能从DeepSeek R1更为谨慎、注重 Token 的方法中获益。

进一步的研究应探究DeepSeek R1的内部机制,以更好地理解“推理 Token ”的作用,并调查可能降低 Token 使用量而不牺牲准确性的潜在优化方案。此外,研究不同 Prompt 工程策略对模型性能的影响,尤其是对于DeepSeek R1这样的模型,可能为最大化其能力提供宝贵的见解。

总结与结论

本研究评估了五种大语言模型在30个具有挑战性的数学问题上的表现,特别关注DeepSeek R1模型在先前时间限制下,解决其他模型无法解决的问题的能力。结果显示,当DeepSeek R1被允许生成显著更多的 Token 时,它能够在这些复杂问题上实现高精度,证实了其依赖于多步推理过程。然而,这种方法与其他模型相比, Token 数量大幅增加,表明了准确性与效率之间的权衡。

总结来说,研究结果表明在选择大语言模型来解决数学问题时,考虑任务的具体要求至关重要。虽然DeepSeek R1在解决难题时准确性突出,但其密集的token处理方式可能不适用于需要快速响应的应用。相反,生成token较少的模型可能在速度上更快,但在复杂任务上的准确性可能较低。这项研究强调了深入理解不同大语言模型架构的优缺点的重要性,并强调了在优化性能中温度设置等因素的显著作用。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号