问小白 wenxiaobai

资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

文本分析流程

创作时间:

作者:

@小白创作中心

文本分析流程

引用

CSDN

1.

https://blog.csdn.net/stevence112/article/details/136233923

文本分析是自然语言处理（NLP）中的一个重要环节，主要用于从大量文本数据中提取有价值的信息。本文将介绍文本分析的基本流程，包括停用词处理、TF-IDF计算、语料清洗、分词、构造语料库、统计词频、词频向量以及计算相似度等内容。

停用词

在信息检索中，为节省存储空间和提高搜索效率，在处理自然语言数据（或文本）之前或之后会自动过滤掉某些字或词，这些字或词即被称为Stop Words（停用词）。

网上有很多现成的停用词表

中文停用词表

TF-IDF

TF-IDF 是一种统计方法，用以评估一个词对于一个语料库中的其中一份文件的重要程度。

文本分析

语料清洗（数据预处理）

去掉停用词，筛选重复的话

分词（用分词器）

句子A：我/喜欢/看/电影

句子B：我/不/喜欢/看/电影

语料库（构造语料库）

我，喜欢，看，电影，不

词频（统计词频）

句子A：我1，喜欢1，看1，电影1，不1

句子B：我1，喜欢1，看1，电影1，不0

词频向量（字符串转换成向量，根据词频构造向量）gensim

句子A：[1, 1, 1, 1, 1]

句子B：[1, 1, 1, 1, 0]

计算相似度

用余弦计算相似度

热门推荐

微博如何发视频？一篇教你轻松发布精彩内容的完整指南

微博如何发视频？一篇教你轻松发布精彩内容的完整指南

第三型糖尿病：阿兹海默症是大脑的糖尿病？

第三型糖尿病：阿兹海默症是大脑的糖尿病？

买电压力锅的10大忠告是什么

买电压力锅的10大忠告是什么

如何在IDE中使用拼写检查

如何在IDE中使用拼写检查

如何选择合适的软件部署方式：本地部署、云端（SaaS）还是自带云（BYOC）？

如何选择合适的软件部署方式：本地部署、云端（SaaS）还是自带云（BYOC）？

水蛭的医疗用途：从传统到现代的多重功效

水蛭的医疗用途：从传统到现代的多重功效

全面解析：头条写作技巧与策略，涵盖热门话题、关键词优化及用户痛点解答

全面解析：头条写作技巧与策略，涵盖热门话题、关键词优化及用户痛点解答

用唐诗给男孩起个冷门独特稀少的名字

用唐诗给男孩起个冷门独特稀少的名字

深蹲，一直被低估的6个好处

深蹲，一直被低估的6个好处

夏养金鱼首重“六防”

夏养金鱼首重“六防”

马谡决策失误分析：历史教训与现代启示

马谡决策失误分析：历史教训与现代启示

警民合力救助珍稀白颈鸦，国家一级保护动物重获新生

警民合力救助珍稀白颈鸦，国家一级保护动物重获新生

胆固醇高十大饮食禁忌降低胆固醇

胆固醇高十大饮食禁忌降低胆固醇

以数字化时代下的资产管理创新为焦点

以数字化时代下的资产管理创新为焦点

左肾囊肿怎么消除

左肾囊肿怎么消除

厦门山海健康步道线路图

厦门山海健康步道线路图

中国历史上11大一统朝代的“个性标签”

中国历史上11大一统朝代的“个性标签”

16个基本导数公式及性质详解

16个基本导数公式及性质详解

鬼谷八荒悟性怎么提升：快速提高方法与丹药推荐

鬼谷八荒悟性怎么提升：快速提高方法与丹药推荐

钢结构设计与施工中的成本控制策略

钢结构设计与施工中的成本控制策略

老生常谈的膝关节滑膜炎，骨科医护告诉您怎么治疗最管用？

老生常谈的膝关节滑膜炎，骨科医护告诉您怎么治疗最管用？

南平市人口数据报告：从第七次人口普查看人口变迁

南平市人口数据报告：从第七次人口普查看人口变迁

2024年购车优惠政策全攻略：国家补贴、地方补贴、以旧换新政策详解

2024年购车优惠政策全攻略：国家补贴、地方补贴、以旧换新政策详解

托福写作必看：8个常见错误词汇！

托福写作必看：8个常见错误词汇！

吃什么皮肤越来越白

吃什么皮肤越来越白

杨字的五行属性是什么

杨字的五行属性是什么

贫血三项检查：指标解读与注意事项

贫血三项检查：指标解读与注意事项

《宝可梦剑盾》初始精灵选择攻略：火主、草主还是水主？

《宝可梦剑盾》初始精灵选择攻略：火主、草主还是水主？

私营企业事假扣款现象引发关注：员工权益如何保障？

私营企业事假扣款现象引发关注：员工权益如何保障？

成语“庖丁解牛”是什么意思？“庖丁解牛”有什么典故？

成语“庖丁解牛”是什么意思？“庖丁解牛”有什么典故？

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号