文本分析流程
创作时间:
作者:
@小白创作中心
文本分析流程
引用
CSDN
1.
https://blog.csdn.net/stevence112/article/details/136233923
文本分析是自然语言处理(NLP)中的一个重要环节,主要用于从大量文本数据中提取有价值的信息。本文将介绍文本分析的基本流程,包括停用词处理、TF-IDF计算、语料清洗、分词、构造语料库、统计词频、词频向量以及计算相似度等内容。
停用词
在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词,这些字或词即被称为Stop Words(停用词)。
网上有很多现成的停用词表
中文停用词表
TF-IDF
TF-IDF 是一种统计方法,用以评估一个词对于一个语料库中的其中一份文件的重要程度。
文本分析
语料清洗(数据预处理)
去掉停用词,筛选重复的话
分词(用分词器)
句子A:我/喜欢/看/电影
句子B:我/不/喜欢/看/电影
语料库(构造语料库)
我,喜欢,看,电影,不
词频(统计词频)
句子A:我1,喜欢1,看1,电影1,不1
句子B:我1,喜欢1,看1,电影1,不0
词频向量(字符串转换成向量,根据词频构造向量)gensim
句子A:[1, 1, 1, 1, 1]
句子B:[1, 1, 1, 1, 0]
计算相似度
用余弦计算相似度
热门推荐
微博如何发视频?一篇教你轻松发布精彩内容的完整指南
第三型糖尿病:阿兹海默症是大脑的糖尿病?
买电压力锅的10大忠告是什么
如何在IDE中使用拼写检查
如何选择合适的软件部署方式:本地部署、云端(SaaS)还是自带云(BYOC)?
水蛭的医疗用途:从传统到现代的多重功效
全面解析:头条写作技巧与策略,涵盖热门话题、关键词优化及用户痛点解答
用唐诗给男孩起个冷门独特稀少的名字
深蹲,一直被低估的6个好处
夏养金鱼首重“六防”
马谡决策失误分析:历史教训与现代启示
警民合力救助珍稀白颈鸦,国家一级保护动物重获新生
胆固醇高十大饮食禁忌降低胆固醇
以数字化时代下的资产管理创新为焦点
左肾囊肿怎么消除
厦门山海健康步道线路图
中国历史上11大一统朝代的“个性标签”
16个基本导数公式及性质详解
鬼谷八荒悟性怎么提升:快速提高方法与丹药推荐
钢结构设计与施工中的成本控制策略
老生常谈的膝关节滑膜炎,骨科医护告诉您怎么治疗最管用?
南平市人口数据报告:从第七次人口普查看人口变迁
2024年购车优惠政策全攻略:国家补贴、地方补贴、以旧换新政策详解
托福写作必看:8个常见错误词汇!
吃什么皮肤越来越白
杨字的五行属性是什么
贫血三项检查:指标解读与注意事项
《宝可梦剑盾》初始精灵选择攻略:火主、草主还是水主?
私营企业事假扣款现象引发关注:员工权益如何保障?
成语“庖丁解牛”是什么意思?“庖丁解牛”有什么典故?