深入理解 Token:大模型为什么用token计费,token到底是什么东东
创作时间:
作者:
@小白创作中心
深入理解 Token:大模型为什么用token计费,token到底是什么东东
引用
CSDN
1.
https://blog.csdn.net/qq_27471405/article/details/140486945
在AI大模型的世界里,Token是一个至关重要的概念。它不仅影响着模型的训练和推理效率,还直接关系到用户的使用成本。本文将深入浅出地解释Token是什么,它是如何工作的,以及为什么大模型会使用Token来计费。
一、Token 是什么?
想象一下,你写了一封信,但不是给人类看,而是给一台机器。机器怎么理解你写的每一个字呢?这就是 Token 的作用。简单来说,Token 就是把文字拆成机器能理解的小片段。比如,你写的“你好,老余!”会被拆成“你”、“好”、“,”、“老”、“余”、“!”这些小块。
词汇表
就像你写信前要查字典一样,机器在处理文字前也会查一个叫“词汇表”的东西。这个词汇表里列出了所有它认识和能理解的 Token。
二、Token 是怎么工作的?
把文字拆成 Token 的过程就像是把一本书拆成一页一页。不同的机器可能会用不同的方法来拆书:
- 字词分词:就像把书的每一页都撕下来。
- 子词分词:更细致一些,把每一页再撕成几块。
- 字节对编码(BPE):通过合并经常出现的字母对来制作新的词汇表。
- WordPiece:和 BPE 类似,但更注重保持单词的完整性。
三、Token 为什么重要?
Token 在大模型里的作用可大了:
- 理解上下文:就像你读信时能理解每句话的意思一样,机器通过 Token 能理解你写的文字。
- 处理复杂语言:比如“大美女”这个词,机器会把它拆成“大”和“美女”,这样它就能更好地理解这个词。
- 提高效率:就像你用电脑处理文件比手写快一样,机器通过 Token 化能更快地处理文字。
- 控制资源:就像你用手机时会注意流量一样,机器通过控制 Token 的数量来控制计算资源的使用。
四、Token 的数量有多重要?
Token 的数量就像是你写信时用的纸张数量。用多了可能浪费,用少了可能说不清楚:
- 训练语料数量:就像你练习写作时用的材料,Token 的数量和分布会影响机器学习的效果。
- 上下文限制:就像你读信时只能看到一部分内容,Token 的数量会限制机器能理解的范围。
- 生成速度:就像你写信的速度,通常通过每秒能写多少字来衡量。
五、Token 计价方式
就像你用手机流量一样,Token 也有计价方式:
- 按 Token 数量计费:适合那些想通过编程调用机器模型的人。
- 包月计费:更适合普通用户,简单易懂。
六、Token 计算工具
平台 | Token与汉字的关系 | Token与英文的关系 |
---|---|---|
通义千问 | 约等于1个汉字 | 1个token通常对应3至4个字母 |
ChatGPT | 约等于1个汉字 | 1token约等于4个字符或者0.75个单词 |
千帆大模型 (文心一言) | 约等于1个汉字 | tokens约等于「服务输入+服务输出」的「中文字+其他语种单词数×1.3],由此计算3-4个字母 |
混元大模型 | 约等于1.8个中文汉字 | 3个英文字母 |
星火大模型 | 约等于1.5个中文汉字 | 约0.8个英文单词或4个字符 |
Baichuan 53B | 约等于1.5个中文汉字 | 约0.8个英文单词或4个字符 |
为了方便大家,有些平台提供了计算 Token 的工具,比如:
- OpenAI的工具:
https://platform.openai.com/tokenizer
- 百度文心一言的工具:
https://console.bce.baidu.com/support/#/tokenizer
- 阿里通义千问的工具:
https://dashscope.console.aliyun.com/tokenizer
这里我用“小小鱼儿小小林”这7个字进行测试,看看各个平台消耗的tokens都是多少
七、为什么大模型会使用token来计算
- 文本标准化:Token 化是将文本转换成模型可以理解的标准化格式。不同的语言和文本包含各种复杂的结构,Token 化可以帮助模型以统一的方式处理这些结构。
- 上下文理解:Token 允许模型捕捉到文本中的上下文信息。通过将文本分解为更小的单元,模型可以更细致地理解每个词或短语的含义和用途。
- 处理复杂性:语言是复杂的,包含多种语法和语义现象。Token 化使得模型能够处理如复合词、习语、缩写等复杂的语言结构。
- 优化性能:使用 Token 作为计算的基本单位,可以帮助模型更高效地进行并行处理,提高运算速度和性能。
所以说,现在各个大模型基本都是通过token来计费的,因为通过token是最能够计算出成本的,那为什么国内很多厂商会用包月,包年呢,就不怕你使用超了吗?
当很多人使用的时候,包月的话,并不是每一个人每天都在用的,那那些不用的人摊到那些一直在用的人身上,就不会亏本了,所以使用频繁的人就适合开会员划算,使用不频繁的人就按token计费更划算
希望这篇文章能让你对 Token 有更直观的理解。
热门推荐
120万罗兴亚人滞留孟加拉,孟加拉向中国求助:只有中国能帮助遣返
济宁周边必游景点推荐,感受文化魅力与自然风光的完美结合
杭州这群人姓金,却是刘邦后裔
智贤和尚借梅花,道出了功德增长的终极法门——回向,如何做到?
最难考的证书排行榜?揭秘那些让人望而生畏的“超级证书”!
跑步时心率170正常吗?一文读懂跑步心率的黄金区间
如何成功设立外国公司在中国的合资企业:全方位指南
驭烈焰而驾冰寒:卫星热管理技术揭秘
手机坏了,修和换哪个更实惠?我们一起算算!
打造个人IP,持股1%的董明珠注定复制不了雷军?
水晶光电股价创新高,融资客抢先加仓
直观理解偏导数、方向导数和法向量和梯度
如何去除卫生间下水道的臭味?下水道反味原因
椎体楔形病变的原因有哪些
八字中的“十恶大败”:传统命理学中的特殊概念
农村医疗保险能跨省报销吗
中国书法艺术中的“精、气、神”探析及其养成
感冒、流感后咳嗽是否已发展成危险的肺炎?这样判断……
arctan与tan如何互换?深入解析反正切与正切的关系
福州烟台山约会的地点推荐
职业技能培训在线有哪些热门课程?
水蛭在抗血栓治疗中的应用
汪小菲支付起诉费用:遗产继承与共同债务的法律分析
最高温30℃!南宁27日起“火箭”升温
「课题分离」显得你很冷漠?如何在中国人情社会中应用“课题分离”
劳动仲裁中对方出示伪证的应对策略与法律后果分析
VB6是什么?从入门到精通的全面解析
为什么无锡总是被央视报道,九大原因深度剖析
从郭小鹏到丁元英,再到严守一 聊聊 王志文的角色塑造
应对职场小人,运用四个逆向思维策略,轻松避免吃亏上当