Karpathy揭秘：Emoji如何藏53个Token的背后秘密

创作时间:

作者:

@小白创作中心

Karpathy揭秘：Emoji如何藏53个Token的背后秘密

引用

搜狐

https://www.sohu.com/a/858776510_121798711

在人工智能的发展历程中，提示词的使用与信息的隐藏技术引发了不少讨论。最近，知名AI研究者Karpathy的实验再次将这个话题推向了前沿，让我们聚焦这位大师与AI模型之间的耐人寻味的互动。通过一枚看似简单的表情符号😀，Karpathy揭示了它背后暗藏的默默无闻的Unicode编码，令人惊讶的是，这个表情竟然能够占据53个Token，从而引发了DeepSeek模型近10分钟的思考，依然没能准确解答。

Karpathy的实验引起了人们对提示词注入技术的广泛关注。他指出，表面上似乎没有异样的字符实际可以携带复杂的信息。这种方法的基础是Unicode编码的灵活性，许多符号和字符实际上通过多个序号连在一起形成。这使得我们能够在一个字符中藏入多个信息片段，比如用多个变体选择符来对普通字符进行隐藏处理。

正如Karpathy提到的，一些Unicode字符如中日韩统一表意文字（CJK UI）利用变体选择符进行信息编码的潜力是巨大的。通过将一些信息注入到字符中，表面上看似没有变化，但其实可以表达各种隐藏信息。一旦字符被重新编码，甚至可以通过解码算法来恢复隐藏的原信息。

例如，在量子位的例子中，Karpathy将他们的宣传语“追踪人工智能新趋势，关注科技行业新突破”藏在由变体选择符构成的“100分”emoji中，这个过程中变体选择符的数量达到了58个。对于习惯于通过简单提示词思考的AI模型而言，这无疑是一个挑战。

随后的实验显示，DeepSeek尽管耗费了529秒，最终却确认了隐藏的信息是“lol”。这一发现不仅引起了Karpathy的思考，更引发了对AI在解码特定信息时能力的广泛讨论。值得注意的是，虽然ChatGPT和Claude能够识别并分析编码信息，但面对变体选择符的复杂性，DeepSeek却显得有些力不从心。

从Karpathy的实验中，我们可以感受到现代AI模型不仅在表面上执行任务，更与我们进行复杂的逻辑交互。通过这一实验，Karpathy建议将此技术融入预训练的模型中，以期能够无提示地识别和解码变体选择符信息。这一理念预示着未来的AI模型可以大幅提升理解和处理复杂信息的能力，进而更好地服务于人类的需求。

Karpathy的探讨不仅是对AI技术的深入剖析，更是展示了潜藏在字符背后的无限可能，也许不久的未来，AI会通过潜在的信息解码能力，帮助我们探索更深层次的知识与真理。

如此看来，对于希望在这个信息化高度发达时代中更好理解和使用AI工具的我们，掌握这些基本的加密、编码知识无疑是通向成功的第一步。随着技术的进步，AI在应用过程中是否能引领我们进入一个更高效的信息交互新局面，将是值得关注的重点。在此背景下，大家不妨关注一下类似DeepSeek和ChatGPT这样的AI工具，同时思考在创新技术面前，我们如何才能更好地把握信息的真正价值。