问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

基于用户行为关系分析的微博水军识别方法研究

创作时间:
作者:
@小白创作中心

基于用户行为关系分析的微博水军识别方法研究

引用
1
来源
1.
https://m.renrendoc.com/paper/389150737.html

随着社交媒体的普及,网络水军问题日益严重。本文提出了一种基于用户行为关系分析的微博水军识别方法,通过构建概率矩阵模型和带权无向图模型,实现了对微博水军的精准识别。

项目背景与研究现状

网络水军是指受雇于网络公关公司,为其发帖造势,引导社会舆论走向的一群人。目前不少研究从单一的特征方面进行水军的识别分析,但随着水军行为的日益复杂化,现有算法研究所覆盖的行为特征不够全面,易于形成识别漏洞。而且往往由于错误收集一些特征不明显的数据,造成无法准确区分正常用户和水军用户的问题,对于不具有充分可信度的认为是否为水军的用户,仍然没有找到一个合适的解决办法。

数据整合与特点分析

将可提供的数据进行信息元素整合与分类:

  • 源指标:评论语言、时间结点、转发微博结点、用户账号信息等。
  • 数据信息元素背后所呈现的关系网:
  • 以单个用户为中心的子信息网
  • 以单个用户为中心的用户信息网

问题提出与分析方法

基于微博水军行为的研究,对微博水军自身行为与正常用户进行比对,通过对水军一些鲜明的特征进行研究,筛选出满足一些行为特征的用户,从而判断水军的概率。具体包括:

  • 情感分析:基于微博水军情感的研究,通过对用户情感倾向的比较,得出情感比较接近且有着显著不同的人群,通过人群来筛选出水军。
  • 关系分析:基于微博水军关系的研究,通过对用户进行关系网比对与调查,得到各个用户之间的关系连线,基于水军特殊的网络关系的比较,从而筛选出水军。
  • 行为分析:基于问题与数据的分析,制定如下拟解决的问题:
    1. 如何建立一个相对完善的评价体系,综合而准确地识别水军用户?
    2. 对于不具有充分可信度的认为其是否为水军的用户,如何寻找其他办法识别?
    3. 如何通过已提供数据,将两种关系网反应到模型中去?

解决方案

采用两重筛选策略:

  1. 第一重筛选:基于用户行为的筛选,选取了如活跃度、微博原创比等典型的特征作为指标,利用数模的知识,通过对行为指标用不同方法量化,最终得出一个用户所具备水军行为的概率值。
  2. 第二重筛选:基于用户关系的筛选,选取了如共同话题数等五个具有关系行为特征的维度,通过利用第一重筛选剩余出来的用户,进行生成疑似水军用户的关系无向图,通过对无向图关键节点和连接线段的分析,最终“查获”水军。

模型构建与解决方案

流程总图

基于贝叶斯定理的概率矩阵模型

研究的三个依据:

  1. 模型使用矩阵的方法描述数据间的相互关系,运算性与可操作性强,且对应关系明确。
  2. 贝叶斯模型与遗传算法结合,使分类准确度增高。
  3. 概率模型有强大的不确定性问题处理能力,能够有效降低偶然误差,提高准确性。

基于关系图特征的带权无向图模型

主要解决两个问题:

  1. 对于得出的两个概率差异较小的用户,如何用更精准的方法加以鉴别?
  2. 关系分析:单个用户 vs 多个用户

可行性分析

  • 概率矩阵模型

  • 操作可行性:量化指标可以有数据进行筛选,对各个指标的量化有各自的筛选方案,在操作上可以实现,且可以通过算法的优化使筛选和统计等操作更简便。

  • 技术可行性:通过强大的数值分析软件,数据的处理有着较好可行性,但数据的统计和来源以及对高维指标变量的不断优化处理将成为后续的难点。

  • 经济可行性:网络筛选,花时间在大数据的处理和得出结论,经济要求较低。

  • 带权无向图模型

  • 操作可行性:针对五个指标量化分析,利用权值构建模型,在具体关系图将抽象特征形象化,易操作。

  • 技术可行性:通过对数据的整理,期望的无向图基本可行,但是网络的稳定程度以及数据算法的具体操作在后期需要不断优化以达到最佳。

  • 经济可行性:关系图模型构建,在数据筛选方面花费时间,在经济方面要求较低。

改进与展望

  1. 减少指标杂糅:精炼指标特征,对不同模型下的指标继续进行精简和具体化,防止源指标重叠和杂糅的产生。
  2. 建立多维筛选网:以更多维的模型筛选方法进行平行筛选,在保证一定时间复杂度的前提下,提高识别精度。
© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号