问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

深度学习术语:词嵌入(大模型基础)

创作时间:
作者:
@小白创作中心

深度学习术语:词嵌入(大模型基础)

引用
CSDN
1.
https://blog.csdn.net/yyh2508298730/article/details/139147684

词嵌入是深度学习中将文本转化为数字表示的关键技术,它使得机器能够理解和处理自然语言。本文将详细介绍词嵌入的基本概念、重要性以及几种主流的实现方法,帮助读者深入理解这一深度学习的基础技术。

词嵌入(Word Embedding)

词嵌入的主要思想是将文本转化为数字,然后通过深度学习等算法可以摄取和处理数字,以形成对自然语言的理解。小说家 EL Doctorow 的一句可爱的话,他非常诗意地表达了这个想法:

It’s like numbers are language, like all the letters in the language are turned into numbers, and so it’s something that everyone understands the same way. You lose the sounds of the letters and whether they click or pop or touch the palate, or go ooh or aah, and anything that can be misread or con you with its music or the pictures it puts in your mind, all of that is gone, along with the accent, and you have a new understanding entirely, a language of numbers, and everything becomes as clear to everyone as the writing on the wall. So as I say there comes a certain time for the reading of the numbers.

翻译如下:

它就像数字是一种语言,好像语言中的所有字母都被转换成了数字,因此每个人都以相同的方式理解它。你失去了字母的声音,不管它们是点击声、爆破声、触碰到上颚的声音,还是发出“噢”或“啊”的声音,以及任何可能被误读的东西,或者那些通过它们的音乐或者它们在你脑海中勾画的画面来欺骗你的东西,所有这些都消失了,连同口音一起,你完全获得了一种新的理解,一种数字的语言,一切对每个人来说都像墙上的文字一样清晰。所以正如我所说,阅读数字的时刻到了。

作者通过比喻的方式表达了一种观点:如果语言中的文字和声音都被转化为数字,那么语言的理解就会变得非常直接和清晰,没有了误解和个人情感色彩的干扰。数字作为一种更加客观和精确的表达方式,可以消除语言中的歧义和主观性,让信息的传递变得像“墙上的文字”一样明显和易于理解。这里提到的“阅读数字的时刻”意味着在某个特定时刻,人们会更依赖数字这种形式的语言来交流和理解世界。

这种数字转化是必要的,因为许多机器学习算法(包括深度网络)要求其输入是连续值的向量;换句话说,机器学习算法需要能够进行数学计算的数据格式,而文本字符串无法直接提供这种格式。这就是为什么我们需要词嵌入技术来将文本转化为数值向量的原因。这种转换使得文本数据可以被算法“理解”和使用。

因此,像词嵌入这样的自然语言建模技术用于将词汇表中的单词或短语映射到相应的实数向量。除了易于通过学习算法进行处理之外,这种向量表示还有两个重要且有利的属性:

  • 降维——这是一种更有效的表示
  • 上下文相似性——这是一种更具表现力的表示

目前常用的几种词嵌入方法:

Word2Vec:由Google提出的一种基于神经网络的词嵌入方法。
GloVe:由斯坦福大学提出的方法,它通过统计语料库中词与词共现的频率矩阵,并对矩阵进行因式分解,从而获得词的向量表示。
BERT:由Google提出的一种预训练语言模型,使用Transformer架构,能够生成上下文相关的词嵌入。

一、Word2Vec

实现Word2Vec主要有两种方法:CBOW(Continuous Bag of Words)和Skip-gram。CBOW通过上下文预测中心词,Skip-gram通过中心词预测上下文。

1. CBOW

CBOW模型的目标是通过一个词的上下文(即周围的词)来预测这个词本身。在这个模型中,输入是一个词的上下文,模型会输出一个预测的目标词。例如,如果我们的句子是

“猫坐在垫子上”

,而目标词是

“垫子”

,那么其上下文可能是

“猫”

“坐”

“在”

“上”

。CBOW模型会尝试根据这些上下文词来预测

“垫子”

Bag of Words

在自然语言处理(Natural Language Processing, NLP)中,

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号