文本分析流程
创作时间:
作者:
@小白创作中心
文本分析流程
引用
CSDN
1.
https://blog.csdn.net/stevence112/article/details/136233923
文本分析是自然语言处理(NLP)中的一个重要环节,主要用于从大量文本数据中提取有价值的信息。本文将介绍文本分析的基本流程,包括停用词处理、TF-IDF计算、语料清洗、分词、构造语料库、统计词频、词频向量以及计算相似度等内容。
停用词
在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词,这些字或词即被称为Stop Words(停用词)。
网上有很多现成的停用词表
中文停用词表
TF-IDF
TF-IDF 是一种统计方法,用以评估一个词对于一个语料库中的其中一份文件的重要程度。
文本分析
语料清洗(数据预处理)
去掉停用词,筛选重复的话
分词(用分词器)
句子A:我/喜欢/看/电影
句子B:我/不/喜欢/看/电影
语料库(构造语料库)
我,喜欢,看,电影,不
词频(统计词频)
句子A:我1,喜欢1,看1,电影1,不1
句子B:我1,喜欢1,看1,电影1,不0
词频向量(字符串转换成向量,根据词频构造向量)gensim
句子A:[1, 1, 1, 1, 1]
句子B:[1, 1, 1, 1, 0]
计算相似度
用余弦计算相似度
热门推荐
SQL中的DISTINCT关键字详解:用法与注意事项
出生证明网上怎么申请?双亲单亲变更指南
关于运算放大器自激震荡的讨论
【图像超分辨率】一个简单的总结
《鸣潮》守岸人角色攻略:技能详解与阵容搭配
【汉字解析】邕不读“yì”,99%的人都读错了,你知道正确读音吗?
橡树生态价值评估与保护策略探讨
化解五鬼最有效方法?有8种!
电池突破:神奇材料如何让太阳能电池更高效更持久?效率超过23%
龙虎榜是什么意思?对股票有什么影响?一文读懂
汇丰:印度股市的“十大风险”
如何选择合适的全险方案?全险的保障范围包括哪些方面?
松鼠桂鱼:苏菜中的经典美味
架构师如何搭建平台:从需求分析到测试部署的完整指南
黑色信标圣遗物获取方法
PointNet:点云处理领域的革命性方法
投资收益率多少合适?——投资理财的收益与风险平衡之道
文档章节次序管理指南
金牛座恋人分手后的挽回秘籍(提升自身吸引力,重燃爱情火花)
临时工工伤责任怎么划分?一文详解责任归属与赔付标准
云盘如何备份通讯录
跖间神经瘤的治疗
IT技术支持工程师的职业规划指南
只狼:影逝二度的四个结局中,完美结局的剧情并不完美
农村信用社待遇如何?
折耳猫的遗传病情况及预防措施
折耳猫的遗传病情况及预防措施
网上侮辱他人承担什么责任
PPT中动画的逐字显示
AE的文字特效有哪些?探索AE文字特效的多样性与创意应用