自然语言处理中的生成式任务详解
创作时间:
作者:
@小白创作中心
自然语言处理中的生成式任务详解
引用
CSDN
1.
https://blog.csdn.net/zly_ir/article/details/136674147
自然语言处理(NLP)中的生成式任务是人工智能领域的重要研究方向,涵盖了机器翻译、文本摘要和对话系统等多个方面。本文将详细介绍这些生成式任务的核心技术和实现方法,包括基于规则和神经网络的机器翻译、抽取式和生成式文本摘要,以及检索式和生成式对话系统。
4.0 机器翻译
机器翻译是将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。输入为源语言句子,输出为目标语言的句子。口语中文平均句子长度为7.8个词,书写中文平均句子长度为22.5个词。
传统的机器翻译
基于规则的方法:这种方法依赖于句法分析和人工编写的规则。基于统计的方法则通过计算给定源语言s时目标语言t的条件概率p(t | s)来实现翻译。这种方法的效果与现代神经网络方法相比有较大差距。
基于神经网络的方法:最早使用循环神经网络(RNN)进行机器翻译,但RNN存在梯度爆炸问题,无法记住很长的上下文信息。随后,Transformer模型的出现彻底改变了机器翻译的格局。
4.1 文本摘要
文本摘要可以分为抽取式摘要和生成式摘要两大类。
4.1.1 抽取式摘要
抽取式摘要依据主题、查询词等,找出文章中最相关的n个句子,组成摘要。这种方法连贯性较差,但实现相对简单。
- Lead-3算法:基于文章开头的前三句生成摘要。
- TextRank:仿照PageRank算法,将句子作为节点,使用句子间相似度构造无向有权边,迭代更新节点值,最后选取得分最高的节点作为摘要。
- 聚类方式:将文章中的句子视为点,使用K-means等聚类算法,选择每个类别中最接近中心的句子作为摘要。
- 序列标注方法:为原文中的每一个句子打一个二分类标签(0或1),0代表该句不属于摘要,1代表该句属于摘要。最终摘要由所有标签为1的句子构成。
- 排序式摘要生成方法:将打分和选择句子放在一个步骤进行,使用单向GRU记录已抽取的句子和双层MLP打分,每一步训练选择使目标评价函数最大的句子。
4.2.2 生成式摘要
生成式摘要基于原文的上下文信息,重新生成m字数内的文章,出现的词不一定要在原文中出现过。常见的方法包括:
- Pointer-Generator指针生成器网络:基础模型是LSTM+Attention,通过encoder-decoder架构生成摘要。这种方法可以解决词汇表外词的问题。
- 基于Transformer的方法:
- 对话式摘要
- BART
- Pegasus
- T5(Text-To-Text Transfer Transformer)
- GPT
4.3 对话系统、问答系统
对话系统和问答系统可以分为检索式和生成式两大类。
- 检索式对话和问答系统:对答案进行建库(向量或字符串),对问题进行特征提取(语义理解、向量化),从库中匹配问题相关的答案,排序,抽取相关答案中的关键词组成最终答案返回给用户。
自然语言理解(NLU)需要完成三个任务:域分类(判断用户的passage属于哪个域)、意图检测(判断用户的需求)和槽位填充(标注出有用的槽位信息)。
- 生成式对话和问答系统:典型代表是ChatGPT,通过大规模预训练模型和微调技术实现高质量的对话生成。
热门推荐
颈动脉血栓的早期诊断与治疗:妙佑医疗国际专家建议
冬季防寒小妙招,远离颈动脉血栓!
苏大附一院走进社区开展颈动脉筛查义诊活动
成都七日游:打卡必去的历史文化景点
元宇宙概念中的虚拟经济是如何运作的?
多邻国用户激励体系设计:如何让学习像游戏一样有趣?
面神经炎肌肉痉挛怎么办?医生给出专业建议
无损音质大战:FLAC vs APE谁更胜一筹?
无损音乐发烧友必读:FLAC vs APE大揭秘!
谢咏谈五行起名:补缺不如寻喜用神
电影业,都在羡慕《熊出没》和华强方特
大厨教你炒出餐厅级美味
秋冬养生:用橄榄油炒出健康美味
EF Core vs Dapper:.NET ORM框架深度对比
天津年俗:“二十九贴道酉”的讲究与传统
女司机酒驾后如何缓解心理压力?从处罚到心理疏导全解析
北京三天查处122名酒驾司机!严查酒驾,守护平安出行
酒驾被罚,你的职业生涯还能翻盘吗?
大运会助力成都美食经济腾飞
锦里小吃一条街:成都美食新地标
成都美食文化节:一场“国际范、成都味”的美食盛宴
王琪新歌《巴里坤的孩子》:用音乐讲述新疆故事
王琪新专辑即将发布,再续《可可托海的牧羊人》辉煌
从春晚舞台到可可托海:王琪与《可可托海的牧羊人》背后的故事
范志红教授教你如何健康炒菜
打造理想厨房,双排吊柜+内嵌油烟机=炒菜不累!
健康炒菜小窍门,你get了吗?
《英雄联盟》通行证系统遭玩家吐槽,拳头公司承诺优化奖励机制
什么是虚拟商品?从定义到法律性质的全面解析
心理学上有一种效应叫:马蝇效应(当注意力成为双刃剑)