面向中文有害模因的综合性检测
面向中文有害模因的综合性检测
随着互联网的迅速发展,有害模因在网络上日益泛滥。为了应对这一挑战,研究人员提出了首个中文有害模因数据集ToxiCN MM,并开发了一种多模态知识增强(MKE)检测器,以提升对中文有害模因的理解和检测能力。
引言
有害模因被定义为一种包含图像和嵌入文本的多模态单元,通过针对特定社会实体对个人、组织、社区或社会群体造成伤害。这类模因可能加剧社会分裂、引发歧视行为,并破坏社会的和谐与团结。近年来,研究人员在检测有害模因方面取得了重要进展,但大部分研究主要集中在英文模因的检测上,中文有害模因的检测尚未得到充分研究。
中文有害模因的类型多样化,除了针对特定社会实体的模因外,许多平台上的模因还包含一般冒犯、性暗示或丧文化的内容。理解中文有害模因的真实含义需要结合文本和图像的背景信息,这为检测模型带来了严峻挑战。
问题定义
"有害模因"通常被定义为那些针对特定社会实体进行攻击的模因。然而,中文互联网上的大量模因虽未明确针对具体目标,但依然传播负面价值观,同样可能对社会造成危害。为此,研究者们提出了中文有害模因的定义:
中文有害模因是指包含图像和中文嵌入文本的多模态单元,具有对个人(甚至是发布者自身)、组织、社区、社会群体或整个社会造成潜在伤害的可能性。这类模因的表现形式多样,既可能通过冒犯或戏谑强化对特定社会实体的有害刻板印象,也可能以更隐晦和普遍的方式传播潜在的负面影响。中文有害模因的创作和传播可能是有意或无意的。它们往往反映并强化了中文网络环境中的潜在负面价值观和文化态度,从法律或道德角度来看,这些价值观具有危害性。
基于上述定义,研究者们进一步识别了中国网络平台上最常见的几类有害模因,主要包括:针对性危害、一般冒犯、性暗示和丧文化。
数据集
根据中文有害模因的定义构建了ToxiCN MM数据集。具体的构建过程包括数据采样、数据过滤和数据标注三个阶段:
- 数据采样:将微博和贴吧两个中文网络平台作为数据集,共采集模因约14,000条。
- 数据过滤:对质量较差的模因进行过滤,包括文本为非中文、图片过于模糊、或无实际含义的样本,同时删除完全相同的模因。最终获得12,000条高质量模因。
- 数据标注:构建了一个三级标注框架:首先,根据"中文有害模因"的定义来判断模因是否有害;其次,对有害模因的毒性类型进行分析,包括针对性危害、一般冒犯、性暗示和丧文化四种类别;最后,考虑到模因可能通过单一或融合的模态信息表达毒性,提供了文本和图像信息的组合特征。
研究者们以4:1的比例划分ToxiCN MM的训练集和测试集。最终,ToxiCN MM的基本统计信息和与现有的有害模因数据集的对比如下表。
检测器
为了提升检测器对模因的理解能力,提出了一个高效且易部署的基线——多模态知识增强(MKE),通过融合模因内容的背景信息来实现更准确的预测。主要包括知识挖掘和知识嵌入两个阶段。
知识挖掘:研究者们利用多模态大模型(MLLM)分别捕捉模因中的内嵌文本和图像的背景信息,并生成增强性描述。具体而言,考虑到嵌入文本中可能包含中文俚语,要求MLLM结合中文特有的语言特性进行语义分析。模板设计如下:"请结合中文的语言学特性,分析文本的含义"。类似地,研究者们进一步利用MLLM将图像转化为文本描述,以捕捉符合中国文化背景的有害元素。模板设计如下:"请结合中文文化背景,描述图像的内容"。为了便于后续的知识嵌入,利用文本编码器对增强性描述文本进行编码。
知识嵌入:为利用LLM挖掘的背景信息,研究者们采用交叉注意力机制,基于文本向量空间的一致性,将内联文本与两种类型的图像描述信息进行融合。具体而言,结合文本描述的特征定义为,其中为嵌入文本的编码表示。类似地,结合视觉描述的特征表示为。利用均化计算将这些特征融合为知识增强表示,并将其与原始图像特征连接,得到模因的最终表示。最后,通过一个可训练的分类器进行中文有害模因的检测。
实验结果
采用五折交叉验证的方式评估了多个传统预训练基线和大模型在 ToxiCN MM数据集上的检测性能。根据实验结果,这篇论文得出如下结论:
- 相比于无监督的LLMs,微调后的传统的预训练模型在检测性能上表现更优,表明其在特定任务中的有效性。此外,在单峰模型的对比上,文本编码器(如RoBERTa)明显优于图像编码器(如ViT),验证了文本理解在有害模因检测中起到更为关键的作用。
- 在仅使用内嵌文本时,GPT-4 与 GPT-3.5 在二分类检测任务中表现相似,但在多类别任务上GPT-4的性能有所提升。在引入图像信息后,GPT-4 在识别性暗示模因上表现最佳,但在一般冒犯和丧文化模因上有所下降,这表明视觉信息对其决策的显著影响。
- MKE 模型通过引入背景信息提升了模型的检测性能。消融实验显示,增强后的文本和图像描述均能提升模型对模因的理解。同时,对于不同的模因类型,MKE的提升幅度也有所不同。例如,对于依赖图文结合的针对性危害模因,图像描述的提升更明显;而对于以文字为主的丧文化模因,文本描述的贡献更大。
- 研究者们也尝试评估了几款开源中文大模型在检测中文有害模因方面的性能,但结果并不理想。这可能是由于模型参数量较小,限制了其背景知识和多模态推理能力。在未来工作中,研究者也将进一步探索其他先进模型在零样本场景下的表现,并通过提示工程和指令微调提升模型的检测效果。
案例分析
研究者们通过案例分析进一步总结中文有害模因检测的挑战。除了模因的原始信息,还提供了GPT-4所生成的增强性描述以及模因含义的解释。如下表所示:
具体而言,中文有害模因检测存在两种挑战:
第一类挑战:有害模因中的良性信息可能误导模型判断。在实验 Exp(b) 中,当仅呈现内联文本时,GPT-4 能准确解析模因的含义,将"我"自比为"小老鼠"以传达丧文化。然而,加入图像后,GPT-4出现幻觉,误认为老鼠在被"轻轻抚摸",并错误地将模因归类为无害。这表明,模型可能因模因中表面的良性元素而忽略其潜在的毒性。
第二类挑战:网络平台上丰富的词汇变体干扰了模型对模因的正确理解。在实验 Exp© 中,"狗蕉"一词是"狗叫"的谐音,隐含表达了对他人的不满,因此本质上是一个含蓄冒犯的有害模因。然而,由于模型缺乏相关的语言知识和语境理解,无法准确识别这些变体的真实含义,导致检测失败。
结论
这篇论文聚焦于中文有害模因的全面检测。提出了首个中文有害模因数据集 ToxiCN MM,包含 12,000 个样本,涵盖了多样化的有害类型以贴合中文网络环境。同时,为了提升对中文有害模因的理解,设计了多模态知识增强(MKE)检测器,结合嵌入文本与图像的背景信息增强模型的检测能力。在实验阶段中,研究者们评估了多种基线模型的检测效果。研究表明,整合多模态信息与丰富的语言学知识对于有效检测至关重要。
伦理声明
数据集中可能包含被视为冒犯性的样本,其内容不代表作者的观点或立场。作者真诚地希望使用者以负责任的方式使用数据集,避免任何形式的误用或滥用。所有资源仅限用于科学研究,禁止任何商业用途。