问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

Karpathy用表情包揭秘Strawberry拼写谜团:AI为何数不清字母?

创作时间:
作者:
@小白创作中心

Karpathy用表情包揭秘Strawberry拼写谜团:AI为何数不清字母?

引用
CSDN
9
来源
1.
https://blog.csdn.net/weixin_41446370/article/details/142008093
2.
https://www.pconline.com.cn/focus/1771/17716869.html
3.
https://www.sohu.com/a/856297423_122105141/
4.
https://blog.csdn.net/m0_46163918/article/details/140758900
5.
https://blog.csdn.net/m0_46163918/article/month/2024/07/01
6.
https://nebius.com/blog/posts/what-is-token-in-ai
7.
https://www.zengqueling.com/category/blog/page/2/
8.
https://jina.ai/zh-CN/news/a-deep-dive-into-tokenization/
9.
https://towardsdatascience.com/the-art-of-tokenization-breaking-down-text-for-ai-43c7bccaed25

最近,AI领域发生了一件有趣的事情。OpenAI的联合创始人兼前首席技术官Ilya Sutskever(又名Karpathy)通过一个小程序展示了大模型是如何处理文字的,他用表情符号来表示token,揭示了为什么AI会数不清Strawberry里的字母'r'。

这一发现引发了人们对大模型认知自我知识的思考,同时也让网友调侃AI的低级错误。Karpathy认为,如果能教会大模型如何利用自己的能力,它们就能更好地解决问题。

AI的tokenization机制

要理解为什么AI会在这个简单的拼写问题上出错,我们首先需要了解AI是如何处理文字的。在自然语言处理(NLP)中,tokenization是将文本分解成更小单元的过程。这些单元可以是单词、子词或短语。在处理输入时,AI模型会将文本分割成这些单元,以便更容易地分析和生成响应。

然而,token的划分并不总是精确的。它们可能包含尾随空格或子词。例如,“unbreakable”可能会被拆分为“un-”和“breakable”。这种灵活性有助于AI处理各种语言结构,但也可能导致一些意想不到的问题。

为什么AI会数错字母?

在Strawberry的例子中,AI之所以会数错字母“r”的数量,是因为它的tokenization机制。当AI处理“strawberry”这个单词时,它可能会将其分解为以下几个token:

  1. “straw”
  2. “berry”

在处理这些token时,AI可能会忽略它们之间的重叠部分,从而导致计数错误。这种错误虽然看似简单,但却揭示了AI在处理语言时的一个重要局限性:AI无法像人类那样进行细微的推理和综合,将对所有不同事实的认识汇集成一个答案。

这一发现的意义

这一发现对AI发展具有重要启示。首先,它提醒我们即使是最先进的AI系统也存在局限性。AI虽然可以通过大量数据训练来定义词义、数数和识别字母,但它们无法像人类大脑那样进行微妙的推理和综合。

其次,这一发现也强调了在实际应用中需要对AI输出进行人工检查的重要性。正如Karpathy所说,如果能教会大模型如何利用自己的能力,它们就能更好地解决问题。这意味着我们需要不断优化AI的训练方法和算法,使其能够更准确地理解和处理语言。

专家和网友的反应

这一发现引发了学术界和网友的广泛讨论。一些专家认为,这一发现揭示了AI在语言处理方面的根本局限性。他们指出,AI虽然可以通过大量数据训练来定义词义、数数和识别字母,但它们无法像人类大脑那样进行微妙的推理和综合。

网友则以轻松幽默的方式调侃了AI的这一“低级错误”。有人开玩笑说:“看来AI也需要回到学校重新学习拼写了!”还有人制作了各种表情包和梗图,用幽默的方式展示了AI的这一有趣特性。

结语

Karpathy通过表情包展示的Strawberry拼写问题,不仅揭示了AI在处理文字时的一个有趣现象,更引发了我们对AI能力边界和未来发展方向的深入思考。正如他所说,如果能教会大模型如何利用自己的能力,它们就能更好地解决问题。这或许正是AI研究者们下一步需要努力的方向。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号