问小白 wenxiaobai

资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

揭秘LLM计算数字的障碍的底层原理

创作时间:

作者:

@小白创作中心

揭秘LLM计算数字的障碍的底层原理

引用

CSDN

1.

https://blog.csdn.net/lifetragedy/article/details/142303701

大语言模型（LLM）在处理语言任务时表现出色，但在进行数字运算时却常常出现错误。这种现象背后有着复杂的底层原理。本文将从多个维度深入分析LLM在计算数字时面临的障碍，并探讨可能的解决方案。

LLM的 Tokenizer与数字切分

大语言模型在处理语言时，通常依赖Tokenization技术来将文本切分为可操作的单元。早期版本的Tokenizer对数字处理不够精确，常常将多个连续数字合并为一个Token。比如“13579”可能被切分为“13”、“57”和“9”。在这种情况下，LLM难以准确理解数字的本质及其相互关系。因此，处理多位数加法时，LLM会遭遇极大的挑战。随着技术进步，后来的模型逐渐改进了这一点，能将每个数字单独切分。这项技术虽必要，却不足以解决所有问题。

数字序列的输入顺序

在进行数字运算时，通常会将数字正序输入模型。然而，LLM的运算机制更适合于逆序输入。输入“13579+24680”这样的算式时，建议将其转为“97531+08642”。这个方法与人类处理数学问题的方式相似，通常会从低位到高位进行计算。逆序输入减少了模型在推算时的复杂度，大幅提升了运算的准确性。LLM需逐个生成Token，若高位在前，模型必须在第一次输出时就算出正确的结果，这无形中增加了难度。

数字对齐的重要性

即使将数字逆序输入，LLM还是难以做到完美计算。这是因为数字在输入时可能未能精确对齐。以“13579+24680”为例，模型可能把相应位置的数字对错。这是因为在运算过程中，数据的相对位置变得模糊，而这部分偏差会直接导致计算错误。最有效的解决办法是通过引入位置信息，确保每个相同位置的数字都有提示字符。采用新的位置编码技术，能够提高LLM的数字对齐能力，从而提升计算的准确度。

外推能力的局限性

LLM在训练过程中，若未接触过长长度的数字串，在实际应用中容易出现错误。这种外推能力的不足往往源于位置编码的设计不够成熟。模型在处理超出训练范围的输入时，可能机制失灵。通过引入新型位置编码技术及随机位置编码，可以在训练期间解决这个问题，使得模型能够应对更长的数字串，提升其运算能力。

大模型的幻觉问题

大语言模型在生成内容时，可能会产生虚假的信息。这一现象在数字运算中尤为明显，模型可能声称其计算结果是正确的，但实际上却是基于错误的推测。这一现象不仅影响用户的信任感，也在实际应用中可能造成严重后果。可以通过更加严谨的训练技巧与策略来缓解这一问题。

结论

大语言模型在数字运算中表现不佳，主要是由多种因素导致的，包括Tokenizer对数字的处理、输入顺序、数字对齐、长度外推能力以及模型幻觉等。然而，随着研究的深入，已有部分层面得到了有效改善。未来，随着技术的发展，期待大语言模型能够在数字运算上取得更好表现。

本文原文来自CSDN

热门推荐

榴莲肉硬放一晚上能熟吗？榴莲肉硬度与成熟度的探索！

榴莲肉硬放一晚上能熟吗？榴莲肉硬度与成熟度的探索！

四物汤配方的标准剂量,四物汤怎么喝才不上火

四物汤配方的标准剂量,四物汤怎么喝才不上火

女性骗彩礼案件判决：一起典型案例深度解析

女性骗彩礼案件判决：一起典型案例深度解析

车贷合同真假查询及法律风险防范

车贷合同真假查询及法律风险防范

孕妇临产前3天的症状

孕妇临产前3天的症状

女性去清真寺注意什么

女性去清真寺注意什么

甲状腺癌131I治疗：可怕的辐射？

甲状腺癌131I治疗：可怕的辐射？

必看系列：新手年轻人如何选择自己的第一辆摩托车？

必看系列：新手年轻人如何选择自己的第一辆摩托车？

老年人做好这3点，找回丢失的“睡眠”！

老年人做好这3点，找回丢失的“睡眠”！

日本十大赏樱胜地：从三万株到万株樱花的绝美花海

日本十大赏樱胜地：从三万株到万株樱花的绝美花海

新时代下的天文科学教育

新时代下的天文科学教育

“狗无8年”有道理吗？狗的寿命与人类年龄如何换算？

“狗无8年”有道理吗？狗的寿命与人类年龄如何换算？

苹果供应链转移进行时

苹果供应链转移进行时

买面粉别只看品牌和价格，认准面袋“3行字”，挑到健康优质面粉

买面粉别只看品牌和价格，认准面袋“3行字”，挑到健康优质面粉

退休后，养老金如何巧妙“生钱”？5招低风险理财秘籍大公开

退休后，养老金如何巧妙“生钱”？5招低风险理财秘籍大公开

他是新中国首位世界冠军，31岁为何上吊而亡？10字遗书让人泪目

他是新中国首位世界冠军，31岁为何上吊而亡？10字遗书让人泪目

日本美女歌手推荐歌曲-探索才华洋溢和迷人的声音

日本美女歌手推荐歌曲-探索才华洋溢和迷人的声音

大脑骗局：为何我们总被自己欺骗？

大脑骗局：为何我们总被自己欺骗？

第三代残疾证办理流程及地点

第三代残疾证办理流程及地点

榴莲打开发现不熟别急着扔！这几招让你轻松催熟榴莲享受极致美味！

榴莲打开发现不熟别急着扔！这几招让你轻松催熟榴莲享受极致美味！

终身寿险可以取消吗怎么办理

终身寿险可以取消吗怎么办理

日语零基础能赴日留学？2025年语言要求与备考策略

日语零基础能赴日留学？2025年语言要求与备考策略

白细胞低注意事项

白细胞低注意事项

战略调适：企业如何应对市场变化的有效策略

战略调适：企业如何应对市场变化的有效策略

艾滋与性少数群体：打破误解，共筑健康防线

艾滋与性少数群体：打破误解，共筑健康防线

债市大跌！投资者直呼：天塌了！一不小心，30年国债直逼2%...

债市大跌！投资者直呼：天塌了！一不小心，30年国债直逼2%...

与人关系再好，都要懂得"三七定律"，为自己留退路

与人关系再好，都要懂得"三七定律"，为自己留退路

胃不好吃什么？营养师推荐养胃食物和日常保健方法

胃不好吃什么？营养师推荐养胃食物和日常保健方法

中国短期融资券及中期票据信用分析周报

中国短期融资券及中期票据信用分析周报

Win11任务管理器效率模式永久关闭的方法

Win11任务管理器效率模式永久关闭的方法

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号