问小白 wenxiaobai

资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

自然语言处理中的生成式任务详解

创作时间:

作者:

@小白创作中心

自然语言处理中的生成式任务详解

引用

CSDN

1.

https://blog.csdn.net/zly_ir/article/details/136674147

自然语言处理（NLP）中的生成式任务是人工智能领域的重要研究方向，涵盖了机器翻译、文本摘要和对话系统等多个方面。本文将详细介绍这些生成式任务的核心技术和实现方法，包括基于规则和神经网络的机器翻译、抽取式和生成式文本摘要，以及检索式和生成式对话系统。

4.0 机器翻译

机器翻译是将一种自然语言（源语言）转换为另一种自然语言（目标语言）的过程。输入为源语言句子，输出为目标语言的句子。口语中文平均句子长度为7.8个词，书写中文平均句子长度为22.5个词。

传统的机器翻译

基于规则的方法：这种方法依赖于句法分析和人工编写的规则。基于统计的方法则通过计算给定源语言s时目标语言t的条件概率p(t | s)来实现翻译。这种方法的效果与现代神经网络方法相比有较大差距。
基于神经网络的方法：最早使用循环神经网络（RNN）进行机器翻译，但RNN存在梯度爆炸问题，无法记住很长的上下文信息。随后，Transformer模型的出现彻底改变了机器翻译的格局。

4.1 文本摘要

文本摘要可以分为抽取式摘要和生成式摘要两大类。

4.1.1 抽取式摘要

抽取式摘要依据主题、查询词等，找出文章中最相关的n个句子，组成摘要。这种方法连贯性较差，但实现相对简单。

Lead-3算法：基于文章开头的前三句生成摘要。
TextRank：仿照PageRank算法，将句子作为节点，使用句子间相似度构造无向有权边，迭代更新节点值，最后选取得分最高的节点作为摘要。
聚类方式：将文章中的句子视为点，使用K-means等聚类算法，选择每个类别中最接近中心的句子作为摘要。
序列标注方法：为原文中的每一个句子打一个二分类标签（0或1），0代表该句不属于摘要，1代表该句属于摘要。最终摘要由所有标签为1的句子构成。
排序式摘要生成方法：将打分和选择句子放在一个步骤进行，使用单向GRU记录已抽取的句子和双层MLP打分，每一步训练选择使目标评价函数最大的句子。

4.2.2 生成式摘要

生成式摘要基于原文的上下文信息，重新生成m字数内的文章，出现的词不一定要在原文中出现过。常见的方法包括：

Pointer-Generator指针生成器网络：基础模型是LSTM+Attention，通过encoder-decoder架构生成摘要。这种方法可以解决词汇表外词的问题。

基于Transformer的方法：

对话式摘要
BART
Pegasus
T5（Text-To-Text Transfer Transformer）
GPT

4.3 对话系统、问答系统

对话系统和问答系统可以分为检索式和生成式两大类。

检索式对话和问答系统：对答案进行建库（向量或字符串），对问题进行特征提取（语义理解、向量化），从库中匹配问题相关的答案，排序，抽取相关答案中的关键词组成最终答案返回给用户。

自然语言理解（NLU）需要完成三个任务：域分类（判断用户的passage属于哪个域）、意图检测（判断用户的需求）和槽位填充（标注出有用的槽位信息）。

生成式对话和问答系统：典型代表是ChatGPT，通过大规模预训练模型和微调技术实现高质量的对话生成。

热门推荐

Grok-3 与黎曼猜想：人工智能带来的震撼与挑战

Grok-3 与黎曼猜想：人工智能带来的震撼与挑战

曲线行驶怎么对正入口

曲线行驶怎么对正入口

如何合理规划和设计房屋的空间布局？这种布局在实际生活中的实用性如何？

如何合理规划和设计房屋的空间布局？这种布局在实际生活中的实用性如何？

网络生理学：如何识别和量化器官相互作用网络？

网络生理学：如何识别和量化器官相互作用网络？

两岁宝宝去哪儿玩？这份亲子游攻略请收好

两岁宝宝去哪儿玩？这份亲子游攻略请收好

如何唤醒人工智能助手

如何唤醒人工智能助手

改装前杠是否需要备案？前杠改装对车辆安全有什么影响？

改装前杠是否需要备案？前杠改装对车辆安全有什么影响？

探索AI如何改变开发者的工作方式与提升效率

探索AI如何改变开发者的工作方式与提升效率

黑长直动漫人物有哪些（7位黑长直代表动漫人物）

黑长直动漫人物有哪些（7位黑长直代表动漫人物）

六年级语文上册《弱水三千，我只取一瓢饮》课堂笔记，深情诗词解析实用指导

六年级语文上册《弱水三千，我只取一瓢饮》课堂笔记，深情诗词解析实用指导

Android上是否缺少 OEM 解锁？如何启用和修复它

Android上是否缺少 OEM 解锁？如何启用和修复它

解析资产负债表：公司财务状况一目了然

解析资产负债表：公司财务状况一目了然

怀孕出现血小板聚集率高怎么办

怀孕出现血小板聚集率高怎么办

HTTP 与 HTTPS 协议 – 在线用户数据安全

HTTP 与 HTTPS 协议 – 在线用户数据安全

历史上真实的鳌拜：对清王朝忠心耿耿，却为何会被康熙除掉？

历史上真实的鳌拜：对清王朝忠心耿耿，却为何会被康熙除掉？

LCK十支队伍阵容评点！新赛季HLE能否继续连冠

LCK十支队伍阵容评点！新赛季HLE能否继续连冠

执业中药师含金量还在上升吗？考证有哪些好处？

执业中药师含金量还在上升吗？考证有哪些好处？

环氧树脂自流平施工工艺解决方案

环氧树脂自流平施工工艺解决方案

科目二 | 曲线行驶要领来了，步骤详解+注意事项！

科目二 | 曲线行驶要领来了，步骤详解+注意事项！

环氧树脂自流平施工工艺解决方案

环氧树脂自流平施工工艺解决方案

唐僧肉的"不死"属性蕴含着深厚的文化意味

唐僧肉的"不死"属性蕴含着深厚的文化意味

《数码宝贝02：最初的召唤》从童年记忆到永恒经典探寻成长与感动

《数码宝贝02：最初的召唤》从童年记忆到永恒经典探寻成长与感动

乔峰：江湖悲歌中的豪情与糊涂，命运的抉择与反思

乔峰：江湖悲歌中的豪情与糊涂，命运的抉择与反思

景区免费开放算的是大账

景区免费开放算的是大账

为何总有人质疑进化论，反而相信神创论？

为何总有人质疑进化论，反而相信神创论？

2024年度旅行计划：探寻神秘埃及之旅

2024年度旅行计划：探寻神秘埃及之旅

深度解析中国模具企业40年数字化征途，前瞻未来发展趋势

深度解析中国模具企业40年数字化征途，前瞻未来发展趋势

“少年白头”越来越常见，白头发的来源到底是什么？这几点别忽视

“少年白头”越来越常见，白头发的来源到底是什么？这几点别忽视

和ISFJ谈恋爱是种什么体验？

和ISFJ谈恋爱是种什么体验？

姐妹情深，花开为证（用花语诠释最真挚的情谊）

姐妹情深，花开为证（用花语诠释最真挚的情谊）

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号