问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

干货 | 日采100W新闻数据,如何实现新闻自动分类

创作时间:
作者:
@小白创作中心

干货 | 日采100W新闻数据,如何实现新闻自动分类

引用
51CTO
1.
https://blog.51cto.com/bazhuayudata/12152907

在信息爆炸的时代,个性化新闻推荐技术已经成为许多新闻网站和App的关键技术。为了实现精准推荐,新闻媒体平台需要高效地组织并获取信息数据,并系统地将新闻内容进行分类。本文将深入探讨新闻自动分类的技术发展历程和具体实现方法。

新闻分类的发展历程

上图是专业学者对于文本分类技术发展的总结,我们可以将其简要总结为4个阶段:

  1. 初始阶段:新闻数据有限,计算机未大范围使用,完全依赖人工分类。
  2. 90年代:伴随着互联网的发展和计算机性能的提升,统计机器学习开始快速发展。早期算法如TF-IDF等展现出更大价值。
  3. 近10年:深度学习得到长足发展,基于CNN和RNN的神经网络模型(如LSTM、TextCNN等)被广泛应用。
  4. 近两年:BERT等基于Transformer的预训练语言模型开始主导自然语言处理领域,实现了更好的效果。

小结:深度学习为自然语言处理带来了飞跃式进步,但其运算成本较高。在实际应用中,需要综合选用最合适的技术。

如何实现新闻的分类?

在获取到新闻数据后,对新闻进行分类需要经过以下流程:

数据清洗

数据清洗主要用于提升文本质量,统一和对齐各个数据渠道的文本格式。具体包括:

  • 滤除或统一替换特殊符号(如HTML标签、emoji表情等)
  • 去除与新闻类别无关的特殊前缀、小尾巴等文本
  • 去重,减少运算量,避免重复文本影响聚类算法

特征筛选

特征筛选是根据业务需求,针对性地对特定内容进行提取。对于新闻数据,通常可以分为以下几种:

文本特征:

  • 关键词抽取:常用的实现包括基于TextRank和TF-IDF的关键词提取
  • 新闻标题:信息量最集中
  • 新闻的首尾段落:往往包含主要内容
  • 抽取式摘要:通过算法抽出重要句子

结构化特征:

  • 发布时间:判断新闻归属的重要参考
  • 发布媒体、渠道等

特征向量化

特征向量化是将每篇新闻的特征汇总为一个固定长度的向量,以便分类算法进行运算。具体包括:

文本特征:

  • 词向量:常用Word2Vec、GloVe等
  • 文本编码:包括字词向量求和编码和模型编码(如Bi-LSTM、TextCNN)

非文本特征:

  • 非文本特征的向量化通常比较简单,可以直接拼接到文本特征向量

新闻分类

完成特征构建后,分类任务变得简单。常用方法包括:

  • 全连接-softmax神经网络
  • 传统分类算法(如SVM)

分类完成后,可以进一步通过余弦相似度等方法进行相似性度量,为个性化新闻推荐提供支持。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号