问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

自然语言处理中的生成式任务详解

创作时间:
作者:
@小白创作中心

自然语言处理中的生成式任务详解

引用
CSDN
1.
https://blog.csdn.net/zly_ir/article/details/136674147

自然语言处理(NLP)中的生成式任务是人工智能领域的重要研究方向,涵盖了机器翻译、文本摘要和对话系统等多个方面。本文将详细介绍这些生成式任务的核心技术和实现方法,包括基于规则和神经网络的机器翻译、抽取式和生成式文本摘要,以及检索式和生成式对话系统。

4.0 机器翻译

机器翻译是将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。输入为源语言句子,输出为目标语言的句子。口语中文平均句子长度为7.8个词,书写中文平均句子长度为22.5个词。

传统的机器翻译

  1. 基于规则的方法:这种方法依赖于句法分析和人工编写的规则。基于统计的方法则通过计算给定源语言s时目标语言t的条件概率p(t | s)来实现翻译。这种方法的效果与现代神经网络方法相比有较大差距。

  2. 基于神经网络的方法:最早使用循环神经网络(RNN)进行机器翻译,但RNN存在梯度爆炸问题,无法记住很长的上下文信息。随后,Transformer模型的出现彻底改变了机器翻译的格局。

4.1 文本摘要

文本摘要可以分为抽取式摘要和生成式摘要两大类。

4.1.1 抽取式摘要

抽取式摘要依据主题、查询词等,找出文章中最相关的n个句子,组成摘要。这种方法连贯性较差,但实现相对简单。

  1. Lead-3算法:基于文章开头的前三句生成摘要。
  2. TextRank:仿照PageRank算法,将句子作为节点,使用句子间相似度构造无向有权边,迭代更新节点值,最后选取得分最高的节点作为摘要。
  3. 聚类方式:将文章中的句子视为点,使用K-means等聚类算法,选择每个类别中最接近中心的句子作为摘要。
  4. 序列标注方法:为原文中的每一个句子打一个二分类标签(0或1),0代表该句不属于摘要,1代表该句属于摘要。最终摘要由所有标签为1的句子构成。
  5. 排序式摘要生成方法:将打分和选择句子放在一个步骤进行,使用单向GRU记录已抽取的句子和双层MLP打分,每一步训练选择使目标评价函数最大的句子。

4.2.2 生成式摘要

生成式摘要基于原文的上下文信息,重新生成m字数内的文章,出现的词不一定要在原文中出现过。常见的方法包括:

  1. Pointer-Generator指针生成器网络:基础模型是LSTM+Attention,通过encoder-decoder架构生成摘要。这种方法可以解决词汇表外词的问题。

  1. 基于Transformer的方法
  • 对话式摘要
  • BART
  • Pegasus
  • T5(Text-To-Text Transfer Transformer)
  • GPT

4.3 对话系统、问答系统

对话系统和问答系统可以分为检索式和生成式两大类。

  1. 检索式对话和问答系统:对答案进行建库(向量或字符串),对问题进行特征提取(语义理解、向量化),从库中匹配问题相关的答案,排序,抽取相关答案中的关键词组成最终答案返回给用户。

自然语言理解(NLU)需要完成三个任务:域分类(判断用户的passage属于哪个域)、意图检测(判断用户的需求)和槽位填充(标注出有用的槽位信息)。

  1. 生成式对话和问答系统:典型代表是ChatGPT,通过大规模预训练模型和微调技术实现高质量的对话生成。
© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号