深入理解 Token:大模型为什么用token计费,token到底是什么东东
创作时间:
作者:
@小白创作中心
深入理解 Token:大模型为什么用token计费,token到底是什么东东
引用
CSDN
1.
https://blog.csdn.net/qq_27471405/article/details/140486945
在AI大模型的世界里,Token是一个至关重要的概念。它不仅影响着模型的训练和推理效率,还直接关系到用户的使用成本。本文将深入浅出地解释Token是什么,它是如何工作的,以及为什么大模型会使用Token来计费。
一、Token 是什么?
想象一下,你写了一封信,但不是给人类看,而是给一台机器。机器怎么理解你写的每一个字呢?这就是 Token 的作用。简单来说,Token 就是把文字拆成机器能理解的小片段。比如,你写的“你好,老余!”会被拆成“你”、“好”、“,”、“老”、“余”、“!”这些小块。
词汇表
就像你写信前要查字典一样,机器在处理文字前也会查一个叫“词汇表”的东西。这个词汇表里列出了所有它认识和能理解的 Token。
二、Token 是怎么工作的?
把文字拆成 Token 的过程就像是把一本书拆成一页一页。不同的机器可能会用不同的方法来拆书:
- 字词分词:就像把书的每一页都撕下来。
- 子词分词:更细致一些,把每一页再撕成几块。
- 字节对编码(BPE):通过合并经常出现的字母对来制作新的词汇表。
- WordPiece:和 BPE 类似,但更注重保持单词的完整性。
三、Token 为什么重要?
Token 在大模型里的作用可大了:
- 理解上下文:就像你读信时能理解每句话的意思一样,机器通过 Token 能理解你写的文字。
- 处理复杂语言:比如“大美女”这个词,机器会把它拆成“大”和“美女”,这样它就能更好地理解这个词。
- 提高效率:就像你用电脑处理文件比手写快一样,机器通过 Token 化能更快地处理文字。
- 控制资源:就像你用手机时会注意流量一样,机器通过控制 Token 的数量来控制计算资源的使用。
四、Token 的数量有多重要?
Token 的数量就像是你写信时用的纸张数量。用多了可能浪费,用少了可能说不清楚:
- 训练语料数量:就像你练习写作时用的材料,Token 的数量和分布会影响机器学习的效果。
- 上下文限制:就像你读信时只能看到一部分内容,Token 的数量会限制机器能理解的范围。
- 生成速度:就像你写信的速度,通常通过每秒能写多少字来衡量。
五、Token 计价方式
就像你用手机流量一样,Token 也有计价方式:
- 按 Token 数量计费:适合那些想通过编程调用机器模型的人。
- 包月计费:更适合普通用户,简单易懂。
六、Token 计算工具
平台 | Token与汉字的关系 | Token与英文的关系 |
|---|---|---|
通义千问 | 约等于1个汉字 | 1个token通常对应3至4个字母 |
ChatGPT | 约等于1个汉字 | 1token约等于4个字符或者0.75个单词 |
千帆大模型 (文心一言) | 约等于1个汉字 | tokens约等于「服务输入+服务输出」的「中文字+其他语种单词数×1.3],由此计算3-4个字母 |
混元大模型 | 约等于1.8个中文汉字 | 3个英文字母 |
星火大模型 | 约等于1.5个中文汉字 | 约0.8个英文单词或4个字符 |
Baichuan 53B | 约等于1.5个中文汉字 | 约0.8个英文单词或4个字符 |
为了方便大家,有些平台提供了计算 Token 的工具,比如:
- OpenAI的工具:
https://platform.openai.com/tokenizer
- 百度文心一言的工具:
https://console.bce.baidu.com/support/#/tokenizer
- 阿里通义千问的工具:
https://dashscope.console.aliyun.com/tokenizer
这里我用“小小鱼儿小小林”这7个字进行测试,看看各个平台消耗的tokens都是多少
七、为什么大模型会使用token来计算
- 文本标准化:Token 化是将文本转换成模型可以理解的标准化格式。不同的语言和文本包含各种复杂的结构,Token 化可以帮助模型以统一的方式处理这些结构。
- 上下文理解:Token 允许模型捕捉到文本中的上下文信息。通过将文本分解为更小的单元,模型可以更细致地理解每个词或短语的含义和用途。
- 处理复杂性:语言是复杂的,包含多种语法和语义现象。Token 化使得模型能够处理如复合词、习语、缩写等复杂的语言结构。
- 优化性能:使用 Token 作为计算的基本单位,可以帮助模型更高效地进行并行处理,提高运算速度和性能。
所以说,现在各个大模型基本都是通过token来计费的,因为通过token是最能够计算出成本的,那为什么国内很多厂商会用包月,包年呢,就不怕你使用超了吗?
当很多人使用的时候,包月的话,并不是每一个人每天都在用的,那那些不用的人摊到那些一直在用的人身上,就不会亏本了,所以使用频繁的人就适合开会员划算,使用不频繁的人就按token计费更划算
希望这篇文章能让你对 Token 有更直观的理解。
热门推荐
高速开车超速会受到哪些处罚?这种超速行为的法律后果和安全风险有哪些?
如何评价现代发动机技术的水平?这种技术水平对车辆性能有何影响?
解馋又解腻,榨菜肉丝——餐桌上的清新之选
鸡蛋和大虾能一起吃吗
滑雪课堂:雪崩三件套的正确打开方式
车辆应该选择何种标号的燃油?这种燃油选择对车辆性能有何影响?
货拉拉用什么车型最好跑?六种车型优劣全解析
学术论文写作全攻略:从框架搭建到细节打磨的全面指南
抑郁症患者依赖上一个人了怎么办
灰土中的灰是哪种成分
揭秘:被误读千年的"白痴皇帝"司马衷
晋惠帝司马衷:拨开历史迷雾,揭秘真实的傻子皇帝!
韦伯望远镜发现:早期宇宙中的行星形成盘寿命更长
香港绿色金融发展与趋势:2025年重点工作与未来展望
数据揭秘:苹果用户忠诚度高达53.8%,国产手机难抢走果粉
花雕酒,黄酒中的瑰宝,其功效与饮用之道
草莓采摘园几月份可以摘?
申请劳务派遣公司资质需要哪些步骤?
GRE是什么考试
PCB快速打样提升关键路径:焊接缺陷防控与质量检测体系构建
炒股技巧与方法:洞察股市风云,提升盈利机遇
德语培训课程如何提升听力水平?
电动机线圈匝数计算方法详解
误工费赔偿需要什么证明材料,误工费怎么计算
安卓应用信任攻略:保护个人信息从下载开始
Steam账号选哪个国家地区好?全方位分析帮你省钱+避坑
无人机上的传感器,一篇图文讲清楚
商铺土地出让金计算方法和缴纳流程详解
IMEI是什么?
别让西洋菜只在南方 “火”!北方人也该知道的营养宝藏与舌尖美味