问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

干货 | 日采100W新闻数据,如何实现新闻自动分类

创作时间:
作者:
@小白创作中心

干货 | 日采100W新闻数据,如何实现新闻自动分类

引用
51CTO
1.
https://blog.51cto.com/bazhuayudata/12152907

在信息爆炸的时代,个性化新闻推荐技术已经成为许多新闻网站和App的关键技术。为了实现精准推荐,新闻媒体平台需要高效地组织并获取信息数据,并系统地将新闻内容进行分类。本文将深入探讨新闻自动分类的技术发展历程、具体实现流程以及应用场景,帮助读者了解这一重要技术的原理和实践方法。

新闻分类技术的重要性

个性化新闻推荐技术的应用,不仅能减轻信息过载的问题,还能提升用户的新闻阅读体验,提高用户粘性和留存率。以字节跳动为例,其旗下产品如今日头条、抖音等,都采用了强大的算法推荐系统,通过高效的内容分类和推荐机制,为用户推送个性化内容。

新闻分类的发展历程

上图展示了文本分类技术的发展历程,可以将其总结为四个阶段:

  1. 初始阶段:新闻数据有限,主要依靠人工分类。
  2. 90年代:随着互联网的发展和计算机性能的提升,统计机器学习开始兴起,TF-IDF等算法展现出价值。
  3. 近10年:深度学习快速发展,基于CNN和RNN的模型如LSTM、TextCNN等被广泛应用。
  4. 近两年:以BERT为代表的预训练语言模型成为主流,实现了更好的效果。

如何实现新闻的分类?

在获取到新闻数据后,对新闻进行分类需要经过以下流程:

1. 数据清洗

数据清洗主要用于提升文本质量,统一和对齐各个数据渠道的文本格式。具体包括:

  • 滤除或统一替换特殊符号(如html标签、emoji表情等)
  • 去除与新闻类别无关的特殊前缀、小尾巴等文本
  • 去重,减少运算量

2. 特征筛选

特征筛选是根据业务需求,针对性地对特定内容进行提取。主要包括:

  • 文本特征

  • 关键词抽取(基于TextRank或TF-IDF)

  • 新闻标题

  • 新闻的首尾段落

  • 抽取式摘要算法(如sumy)

  • 结构化特征

  • 发布时间

  • 发布媒体、渠道等

3. 特征向量化

特征向量化是将文本转化为数值特征向量的过程。具体方法包括:

  • 词向量:使用Word2Vec、GloVe等模型
  • 文本编码:字词向量求和编码、模型编码(如Bi-LSTM、TextCNN)
  • 非文本特征:直接数值化表示

4. 新闻分类

完成特征构建后,可以使用简单的全连接-softmax神经网络或传统分类算法(如SVM)进行分类。基于特征向量,还可以通过余弦相似度等方法进行相似性度量。

应用场景

新闻分类常用于常规的新闻领域划分,如体育、财经、科技、娱乐等。这类分类属于有监督学习任务,可以通过采集主流媒体的相关板块新闻作为训练数据。

参考资料

[1] A Survey on Text Classification: From Shallow to Deep Learning, 2020
[2] Semi-supervised recursive autoencoders for predicting sentiment distributions
[3] Semantic compositionality through recursive matrix-vector spaces
[4] Recursive deep models for semantic compositionality over a sentiment treebank

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号