文本分析流程
创作时间:
作者:
@小白创作中心
文本分析流程
引用
CSDN
1.
https://blog.csdn.net/stevence112/article/details/136233923
文本分析是自然语言处理(NLP)中的一个重要环节,主要用于从大量文本数据中提取有价值的信息。本文将介绍文本分析的基本流程,包括停用词处理、TF-IDF计算、语料清洗、分词、构造语料库、统计词频、词频向量以及计算相似度等内容。
停用词
在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词,这些字或词即被称为Stop Words(停用词)。
网上有很多现成的停用词表
中文停用词表
TF-IDF
TF-IDF 是一种统计方法,用以评估一个词对于一个语料库中的其中一份文件的重要程度。
文本分析
语料清洗(数据预处理)
去掉停用词,筛选重复的话
分词(用分词器)
句子A:我/喜欢/看/电影
句子B:我/不/喜欢/看/电影
语料库(构造语料库)
我,喜欢,看,电影,不
词频(统计词频)
句子A:我1,喜欢1,看1,电影1,不1
句子B:我1,喜欢1,看1,电影1,不0
词频向量(字符串转换成向量,根据词频构造向量)gensim
句子A:[1, 1, 1, 1, 1]
句子B:[1, 1, 1, 1, 0]
计算相似度
用余弦计算相似度
热门推荐
2比0!中国小将爆发,百分钟7ACE力克强敌,第3次闯进巡回赛8强
噪音污染相关法律问题详解:如何收集证据、是否违法及对公民权利的影响
法定六险二金:揭秘我国保险制度
护工合同工作如何签订?全面解析护工劳动合同的法律要点
如何个性化手机设置,提升使用体验与效率的实用指南
机器学习中的训练集、验证集与测试集:概念与实现
浅静脉血栓是怎么回事
优化Mac系统,7个技巧提升运行速度!
SPDT射频开关:无线通信的关键纽带
保险转换年金是什么意思,保险转年金合适吗
“未盈利”企业频获政策落地支持 资本市场服务新质生产力打开新空间
小学一年级课时标准时间表
吃山楂助消化不怕油膩!山楂的4大功效、禁忌、食譜一次看
注塑硫化工艺详解:从原理到应用
口干口苦是消化系统出问题?中医专家解析原因并推荐食疗方案
这些“粗粮”一样升血糖很厉害!想要低血糖,建议你这样吃→
书法中的“第一美人”,美了上千年!
书法中的“第一美人”,美了上千年!
引体向上训练方法与技巧
家用选大屏幕电视还是投影仪?看过这6点对比之后再决定!
从一隅之地到欧洲第二大国,乌克兰领土变迁的背后是地缘分裂隐患
马弗炉的保养和维护指南
5E反作弊团队谈账号保护:没有开挂,为何被封禁?
噪音扰民怎么补偿
避免在高峰时段掉线和滞后 Web 呼叫流量
英雄联盟四大赛区实力大比拼,LCK和LPL谁更胜一筹?
孕期缺铁:对胎儿的影响及补铁实用指南
重庆中职学校新能源汽车专业:就业前景与行业趋势
经常喝什么茶有助睡眠?多种助眠茶饮推荐
如何走出失恋的痛苦,重新拥抱爱情