从想太多到想不透?DeepSeek-R1等长推理模型也存在「思考不足」问题
创作时间:
作者:
@小白创作中心
从想太多到想不透?DeepSeek-R1等长推理模型也存在「思考不足」问题
引用
1
来源
1.
https://m.php.cn/faq/1219865.html
腾讯AILab联合苏州大学、上海交通大学团队的一项最新研究揭示了长推理模型的“思考不足”现象,并提出了一种改进方法。这项研究发表于arxiv,通讯作者为腾讯专家研究员涂兆鹏。
研究发现,类似OpenAI o1等长推理模型,虽然展现出强大的深度思考能力,但在解决复杂问题时,往往会频繁切换思路,无法深入思考某个方向,导致最终答案错误。研究团队将这种现象称为“思考不足”(Underthinking),并将其比喻为模型的“注意力缺陷多动障碍”。
研究团队通过分析不同难度级别的数学问题,发现模型在难题上的错误答案往往伴随着更多的思路切换和更长的 token 数量,但准确率并未提升。他们进一步提出了一种“思考不足”评分机制,定量评估模型在错误回答中推理效率的低下程度。
为解决这个问题,研究团队提出了一种名为“思路转换惩罚”(Thought Switching Penalty,TIP)的解码策略,通过惩罚思路切换行为来鼓励模型更深入地思考。实验结果表明,TIP策略能够有效提升模型的准确率并降低“思考不足”现象。这项研究为改进长推理模型提供了新的思路和方法。
论文信息:
- 论文题目:Thoughts Are All Over the Place: On the Underthinking of o1-Like LLMs
- 论文地址:https://www.php.cn/link/3e33f40836bd425bbdf92b71cc707cee
热门推荐
流感、肺炎、带状疱疹:老年人春季防护指南
最新教育理念有哪些
美国学校与中国学校的差异有哪些
从1848到2024:《拉德斯基进行曲》见证新年欢庆175年
拉德斯基进行曲:维也纳新年音乐会的互动传奇
观众鼓掌互动,揭秘维也纳新年音乐会的压轴传统
粤Z车牌身价揭秘:从几十万到上百万的跨境“香饽饽”
Android Profiler:让手机内存管理不再神秘
“天赐”:一个贯穿古今的中华文化美好象征
苛性钠遇酸性氧化物:高考化学重要考点解析
布伦特福德 vs 曼城:瓜帅如何破解铁桶阵?
布伦特福德vs曼城:哈兰德领衔蓝月亮客场争胜
布伦特福德VS曼城:谁将笑到最后?
复旦华山皮肤科,值得信赖的选择
皮肤问题带来的心理困扰:表现、原因与应对方法
铜绿假单胞菌来袭,你的绿色浓痰怎么治?
慢性咳嗽让你焦虑失眠?专家支招来了!
青萝卜:维C界的扛把子,秒杀咳嗽绿痰
阿莫西林使用指南:餐前服用效果佳,滥用会致细菌耐药
仅11.7%家庭父母共担教育,杭州中学推“好爸爸计划”
父亲的10堂人生课:培养心理强大的下一代
忠诚履职,公正执法:辅警职业道德与规范的双重保障
冬日暖心必备:白萝卜牛骨汤制作详解
工业粘合剂全解析:环氧树脂、丙烯酸树脂和有机硅的特性与应用
特大地磁暴来袭!北极光惊现黑龙江漠河,网友纷纷分享绝美瞬间
【听见云南】“天然染料”密蒙花
研究证实:父亲全方位影响孩子成长,从情感支持到未来规划
《和平精英》VS《堡垒之夜》:谁才是吃鸡王者?
《和平精英》无法进入?最新解决指南来了!
和平精英网络优化全攻略:从游戏设置到路由器调优