小白也能懂文本挖掘之LDA主题模型及代码详解
创作时间:
作者:
@小白创作中心
小白也能懂文本挖掘之LDA主题模型及代码详解
引用
CSDN
1.
https://blog.csdn.net/Hou556/article/details/144915890
LDA(Latent Dirichlet Allocation)主题模型是一种常用的文本挖掘技术,用于从大量文档中自动发现主题结构。本文将从实际应用出发,详细介绍LDA模型的基本概念及其在Python中的实现,帮助读者快速掌握这一技术。
一、LDA模型的基本概念
LDA模型认为一篇文档是由多个主题混合而成的,而每个主题又是由若干词语混合而成的。这里,“混合”的意思是每个文档或每个主题中的词语都按照一定的概率分布出现。换句话说,LDA模型将文档的构造过程看作是一个概率过程:首先以一定的概率选择某个主题,然后再在这个主题下以一定的概率选择某个词语,不断重复这个过程,就生成了整篇文章。需要注意的是,LDA模型中假设词与词之间是没有顺序的,即所有词无序地堆放在一个大袋子中,这种方式可以使算法相对简化。
二、代码拆解
主要讲代码分成6个部分 1.数据处理 2.LDA模型的建立 3. 输出每个主题的关键词 4.输出每个句子所属主题并保存到excel中 5.各个主题词云图绘制 6.LDA可视化展示
1.数据处理
读取数据,并进行去停用词和分词操作
2.LDA模型的建立
机器学习模型只能分析数字数据,所以要对文本数据进行转化,CountVectorizer会将文本中的单词转换为词频特征,即统计每个单词在文档中出现的次数。
参数解释:
- max_df=0.95:这个参数用于过滤掉在太多文档中出现的单词。0.95意味着如果一个单词在超过85%的文档中出现,那么它将被忽略。这有助于去除那些太常见、对主题区分帮助不大的单词(如“的”、“是”等)。
- min_df=2:这个参数用于过滤掉在太少文档中出现的单词。2意味着如果一个单词在少于2个文档中出现,那么它将被忽略。这有助于去除那些太罕见、可能是拼写错误或特定上下文的单词。
- max_features=1000:这个参数用于限制词频矩阵中的特征数量(即单词的数量)。在这里,1000意味着只保留词频最高的1000个单词作为特征,其余单词将被忽略。这有助于减少计算量,并可能提高模型的性能(尽管有时可能会丢失一些有用的信息)。
3.输出每个主题的关键词
代码逻辑也很简单,用了一个循环进行遍历,然后用LDA自带函数进行输出
4.输出每个句子所属主题并保存到excel中
使用循环遍历,输出每个句子所属主题,并保存到excel中
5.各个主题词云图绘制
6.LDA可视化展示
三、完整代码展示
热门推荐
FTIR vs XRD:哪种分析技术更适合你的需求?
“隽永”怎么读?形容词发音及含义解析!
一篇文章讲透全平台录屏方法,从原生到第三方工具全解析
埃及人开始修金字塔的时候,我们的祖先在干嘛?说出来你可能不信
可控核聚变新里程碑,AI首次实现双托卡马克3D场全自动优化,登Nature子刊
山西醋哪个牌子最正宗?历史名牌VS新兴势力
校园YY小说的魅力与写作技巧
欧芹种植方法和注意事项
质量工程师发展前景
股票分红了要多久到账?
Telegram用“加密”给自己和用户挖了两个大坑
小鱼缸多久换一次水?这份详细的换水指南请收好
原神钱汤馒头食谱获取攻略
喉咙右侧疼痛一咽口水就疼怎么办?
正常人怎么查乙肝
孕期吃鸡蛋有讲究,您吃对了吗?
子女抚养权在离婚时怎么分配
熬夜真的会使人快乐?最新Neuron研究揭示睡眠剥夺与多巴胺的关系
肝郁脾虚的症状和调理方法
如何管理小朋友的零用钱
小户型精装房大改造:创新设计与高效收纳技巧大揭秘
MySQL连接类型总结:内连接、外连接和自连接详解
科目一理论学时怎么刷?如何高效备考并顺利通过考试?
智能客服的四大优势,提升企业服务效率
机械设计初学者必看:轻松掌握CAD的全面指南
火风鼎卦详解:火风鼎卦预示着什么
捕捉瞬间,表达情感:探索照片背后的语言
电脑制作手抄报完全指南:从软件选择到排版技巧
回族传统文化探秘及其历史意义
冲锋衣脏了怎么洗?这 2 种情况早点扔洗衣机(附清洗指南)