深入理解 Token:大模型为什么用token计费,token到底是什么东东
创作时间:
作者:
@小白创作中心
深入理解 Token:大模型为什么用token计费,token到底是什么东东
引用
CSDN
1.
https://blog.csdn.net/qq_27471405/article/details/140486945
在AI大模型的世界里,Token是一个至关重要的概念。它不仅影响着模型的训练和推理效率,还直接关系到用户的使用成本。本文将深入浅出地解释Token是什么,它是如何工作的,以及为什么大模型会使用Token来计费。
一、Token 是什么?
想象一下,你写了一封信,但不是给人类看,而是给一台机器。机器怎么理解你写的每一个字呢?这就是 Token 的作用。简单来说,Token 就是把文字拆成机器能理解的小片段。比如,你写的“你好,老余!”会被拆成“你”、“好”、“,”、“老”、“余”、“!”这些小块。
词汇表
就像你写信前要查字典一样,机器在处理文字前也会查一个叫“词汇表”的东西。这个词汇表里列出了所有它认识和能理解的 Token。
二、Token 是怎么工作的?
把文字拆成 Token 的过程就像是把一本书拆成一页一页。不同的机器可能会用不同的方法来拆书:
- 字词分词:就像把书的每一页都撕下来。
- 子词分词:更细致一些,把每一页再撕成几块。
- 字节对编码(BPE):通过合并经常出现的字母对来制作新的词汇表。
- WordPiece:和 BPE 类似,但更注重保持单词的完整性。
三、Token 为什么重要?
Token 在大模型里的作用可大了:
- 理解上下文:就像你读信时能理解每句话的意思一样,机器通过 Token 能理解你写的文字。
- 处理复杂语言:比如“大美女”这个词,机器会把它拆成“大”和“美女”,这样它就能更好地理解这个词。
- 提高效率:就像你用电脑处理文件比手写快一样,机器通过 Token 化能更快地处理文字。
- 控制资源:就像你用手机时会注意流量一样,机器通过控制 Token 的数量来控制计算资源的使用。
四、Token 的数量有多重要?
Token 的数量就像是你写信时用的纸张数量。用多了可能浪费,用少了可能说不清楚:
- 训练语料数量:就像你练习写作时用的材料,Token 的数量和分布会影响机器学习的效果。
- 上下文限制:就像你读信时只能看到一部分内容,Token 的数量会限制机器能理解的范围。
- 生成速度:就像你写信的速度,通常通过每秒能写多少字来衡量。
五、Token 计价方式
就像你用手机流量一样,Token 也有计价方式:
- 按 Token 数量计费:适合那些想通过编程调用机器模型的人。
- 包月计费:更适合普通用户,简单易懂。
六、Token 计算工具
平台 | Token与汉字的关系 | Token与英文的关系 |
---|---|---|
通义千问 | 约等于1个汉字 | 1个token通常对应3至4个字母 |
ChatGPT | 约等于1个汉字 | 1token约等于4个字符或者0.75个单词 |
千帆大模型 (文心一言) | 约等于1个汉字 | tokens约等于「服务输入+服务输出」的「中文字+其他语种单词数×1.3],由此计算3-4个字母 |
混元大模型 | 约等于1.8个中文汉字 | 3个英文字母 |
星火大模型 | 约等于1.5个中文汉字 | 约0.8个英文单词或4个字符 |
Baichuan 53B | 约等于1.5个中文汉字 | 约0.8个英文单词或4个字符 |
为了方便大家,有些平台提供了计算 Token 的工具,比如:
- OpenAI的工具:
https://platform.openai.com/tokenizer
- 百度文心一言的工具:
https://console.bce.baidu.com/support/#/tokenizer
- 阿里通义千问的工具:
https://dashscope.console.aliyun.com/tokenizer
这里我用“小小鱼儿小小林”这7个字进行测试,看看各个平台消耗的tokens都是多少
七、为什么大模型会使用token来计算
- 文本标准化:Token 化是将文本转换成模型可以理解的标准化格式。不同的语言和文本包含各种复杂的结构,Token 化可以帮助模型以统一的方式处理这些结构。
- 上下文理解:Token 允许模型捕捉到文本中的上下文信息。通过将文本分解为更小的单元,模型可以更细致地理解每个词或短语的含义和用途。
- 处理复杂性:语言是复杂的,包含多种语法和语义现象。Token 化使得模型能够处理如复合词、习语、缩写等复杂的语言结构。
- 优化性能:使用 Token 作为计算的基本单位,可以帮助模型更高效地进行并行处理,提高运算速度和性能。
所以说,现在各个大模型基本都是通过token来计费的,因为通过token是最能够计算出成本的,那为什么国内很多厂商会用包月,包年呢,就不怕你使用超了吗?
当很多人使用的时候,包月的话,并不是每一个人每天都在用的,那那些不用的人摊到那些一直在用的人身上,就不会亏本了,所以使用频繁的人就适合开会员划算,使用不频繁的人就按token计费更划算
希望这篇文章能让你对 Token 有更直观的理解。
热门推荐
乡村迎来“追花人”
MBTI 人格理论:了解自我与他人及 16 型分类
等离子清洗机清洗原理图解析及其应用实例
什么样的投资产品具有更高价值?这些投资产品的价值如何评估?
右脚后跟疼痛的原因及治疗方法
春天来了,花粉过敏的机会增加,我们如何与过敏“和解”?
爱的播种,成长的果实:家长如何助力孩子实现梦想
烟雾报警器法规,烟雾报警器安全、烟雾报警器类型和选择
冷天胳肢窝为何还会出汗
冷天腋下出汗是什么原因
北京车辆年检需要什么资料
【健康科普】迎考倒计时,这些方法补脑益智、缓解压力!
研究生自我价值感提升术:个人成长与目标设定的科学方法
巴黎奥运男篮巡礼:04年挑落梦六,波多黎各时隔20年再战奥运
STM32单片机异常复位问题及处理方法
央视终于转播国足了!
芦台大集:一场“物质+文化”的新春盛宴
哈萨克斯坦的气候
损失5万后,志愿军九兵团如何在严寒与饥饿中,重振军威?
买房首付支付方式解析:现金、银行卡与监管账户
一筐草莓下肚,三门大叔一夜吃出高钾血症……
高钾血症病人,怎样饮食
艾滋病急性期:揭秘SAA(血清淀粉样蛋白A)的波动之谜
独立冷酷的女强人,内心温柔又正义!P5X的角色反差感这么强吗?
秋葵属植物:自然馈赠的多面手
甲流来势汹汹冲上热搜!甲流、乙流、肺炎支原体如何区分及用药?一文带你了解
肝硬化患者为什么会出现腹水
高血脂不能吃油?吃对油,不仅能降脂,还能减肥、消斑块、护血管
激光雷达在高阶智驾中的作用
新疆草原与湖泊:大自然的宁静与壮阔