问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

大模型在文本理解和生成中的应用概述

创作时间:
作者:
@小白创作中心

大模型在文本理解和生成中的应用概述

引用
CSDN
1.
https://blog.csdn.net/kittyzc/article/details/136144838

大模型在自然语言处理领域的应用越来越广泛,从信息检索到知识问答,再到文本生成,大模型正在改变我们与计算机交互的方式。本文将从信息检索、知识问答和文本生成三个方面,介绍大模型在文本理解和生成方面的应用。

1. 概述

大模型在自然语言处理领域的应用主要分为两类:文本理解和文本生成。其中,BERT系列模型主要用于文本理解,GPT系列模型主要用于文本生成,而T5则是一个通用的序列到序列模型,可以同时处理理解和生成任务。

2. 信息检索(IR)

2.1 传统方法:BM25

传统信息检索方法主要基于词频-逆文档频率(TF-IDF)算法,如BM25。这种方法存在两个主要问题:一是同义词问题,即同一个词可能有多种含义;二是多义词问题,即同一个含义可能用不同的词表达。这些问题导致了检索结果的精确度和召回率难以兼顾。

2.2 大模型方法

大模型在信息检索中的应用主要通过将查询和文档库都输入神经网络,得到它们的向量表示,然后计算查询和文档之间的相似度。这种方法主要有两种实现方式:cross-encoder和dual-encoder。

一般来说,会先使用dual-encoder进行粗筛,然后使用cross-encoder进行精排。

3. 知识问答

3.1 理解类QA

理解类QA类似于英语阅读理解,传统方法需要复杂的模型架构,而大模型则大大简化了这一过程。基于BERT的模型可以直接将问题和参考文本输入BERT,然后使用CLS标记的embedding进行分类。更简单的方法是使用prompt learning,通过设计特定的prompt来引导模型生成答案。

3.2 开放类QA

开放类QA主要分为生成式和检索式两种。生成式问答直接基于模型生成答案,而检索式问答则需要先从文档库中检索相关信息,再生成答案。大模型在检索阶段也可以发挥作用,通过训练模型来优化检索效果。

3.3 微调代码

这部分内容主要介绍了如何使用openDelta进行知识问答的微调,与主题关联度不高,可以适当删减。

4. 文本生成

4.1 语言建模LM

大模型中的seq2seq代表是BART和T5,使用下面的方法,学习到了很强的填空能力。GPT是自回归的模型,结构上是把transformer的decoder单独拿出来。GPT学习到的是预测下一个词的能力。而BERT则是非回归的模型,结构上可以理解为transformer的encoder。没有时序关系,因此可以做上下文理解任务。

4.2 解码过程

语言模型生成文本的过程需要通过解码算法将词表的概率分布转换为人类可读的文本。常见的解码方法包括贪心解码、束搜索和随机采样。其中,温度参数(temperature)控制着采样的随机性,温度越高,采样结果越随机。

4.3 可控文本生成

可控文本生成主要有三种方法:prompt方法、修改概率分布和直接修改模型结构。prompt方法可以通过在输入文本前添加特定的prompt或prefix来控制生成结果。修改概率分布的方法则通过正负样本生成器来调整模型的输出。直接修改模型结构的方法则通过额外的encoder来编码指导信息。

4.4 测评

文本生成效果的评估主要通过BLEU、PPL和ROUGE等指标。BLEU通过计算n-gram的相似度来评估生成文本与参考文本的相似度。PPL(Perplexity)衡量模型生成文本的概率。ROUGE则是一个基于召回率的评估方法。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号