文本分析流程
创作时间:
作者:
@小白创作中心
文本分析流程
引用
CSDN
1.
https://blog.csdn.net/stevence112/article/details/136233923
文本分析是自然语言处理(NLP)中的一个重要环节,主要用于从大量文本数据中提取有价值的信息。本文将介绍文本分析的基本流程,包括停用词处理、TF-IDF计算、语料清洗、分词、构造语料库、统计词频、词频向量以及计算相似度等内容。
停用词
在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词,这些字或词即被称为Stop Words(停用词)。
网上有很多现成的停用词表
中文停用词表
TF-IDF
TF-IDF 是一种统计方法,用以评估一个词对于一个语料库中的其中一份文件的重要程度。
文本分析
语料清洗(数据预处理)
去掉停用词,筛选重复的话
分词(用分词器)
句子A:我/喜欢/看/电影
句子B:我/不/喜欢/看/电影
语料库(构造语料库)
我,喜欢,看,电影,不
词频(统计词频)
句子A:我1,喜欢1,看1,电影1,不1
句子B:我1,喜欢1,看1,电影1,不0
词频向量(字符串转换成向量,根据词频构造向量)gensim
句子A:[1, 1, 1, 1, 1]
句子B:[1, 1, 1, 1, 0]
计算相似度
用余弦计算相似度
热门推荐
彩虹糖吃多了对身体有害吗
躺着也能瘦!5个瑜伽动作帮你轻松减肥
双十一后想快速减脂?HIIT训练让你高效燃脂!
江苏启东圆陀角:江海交汇处的度假天堂
网约车司机和出租车司机的矛盾,何时才能化解?
农历癸卯兔年“闰二月”,全年共有384天
解析智能手表血压监测数据:准确性评估与常见使用误区
测量血压仪器哪种好?八款家用血压计详细评测
轻松规划自驾路线,从新手到老司机的必备指南
结婚和离婚的都少了 一季度结婚登记减少17.8万对
《流放之路2》终局解锁玩法及奖励一览 终局玩法奖励介绍
刑满释放人员再就业难?这些方法帮你破局!
成都女子监狱:职业技能培训助力刑满释放人员重启人生
全方位解析:如何查看汽车违章记录的多种途径
固原交警严查货车违法,多措并举筑牢交通安全防线
成都2天1晚逛吃攻略:必打卡网红地
成都十大历史文化景点深度游:从三国到现代的时空穿越
成都栖点花园酒店:信息不足,建议重新选题
哈佛研究证实:碧根果降低心血管疾病风险达17%
双十一必看!四川农信卡跨行取款费用全解析
秋冬必备!用美国碧根果DIY美味零食
秋冬种碧根果,高产秘诀大揭秘!
孕期吃碧根果,真的能让宝宝更聪明吗?
春天打卡兴化油菜花海,9个拍照姿势让你美出圈!
清明打卡:兴化千垛景区油菜花海
春天打卡兴化千垛油菜花海,美到爆表!
律师年终总结怎么写?这份实用指南请收好!
年终奖来了!你的法务KPI达标了吗?
老人嗜睡是什么原因造成的
餐前负荷法:轻松控糖新姿势!