情感分析：从文档级到方面级的技术详解

创作时间:

作者:

@小白创作中心

情感分析：从文档级到方面级的技术详解

引用

来源

https://wintersky.plus/index.php/archives/379/

情感分析（Sentiment Analysis）是自然语言处理（NLP）领域的一个重要分支，主要用于判断文本的情感倾向。根据分析的粒度不同，情感分析可以分为三个层次：文档级、句子级和方面级。

情感分析的三个层次

文档级（Document level）：在这个层次上，任务通常是评估整个文档的性质，如情感倾向、主题内容或者作者的意图等。比如，可以对一篇文章进行情感分析，以确定其总体是积极的、消极的还是中性的。
句子级（Sentence level）：这一层次的任务关注单个句子，分析句子中表达的信息或情感。例如，评估一个评论中的每个句子是否表达了正面或负面的情绪。
方面级（Aspect level）：这种任务则是更加细粒度的分析，专注于文本中的具体方面或属性，如产品的某一特定特性。例如，在产品评论中，可以对“电池寿命”、“屏幕质量”或“客户服务”等特定方面进行评估。

情感分析的流程和方法

图1：情感分析的基本流程图

如图1所示，一份文档被输入到一个机器学习模型，该模型用来预测情感。预测的输出可以是两类：分类（Classification）和回归（Regression）。分类可以进一步细分为二元分类（Binary，比如正面（P）或负面（N））和多类分类（Multi，比如1至5星级评分）。回归则是输出一个评分（Score），通常是一个连续的数值，表示情感的强度或者情感倾向的程度。

文档级情感分析的表示方法

Bag-of-words (BoW)：

向量大小等于词汇量，表明这是一个稀疏且高维的表示。
缺点包括没有词序（使用Bag-of-n-gram可以一定程度上解决这个问题）和缺乏语义信息。

Document Embedding：

BoW是最基础的方法，通常在简单任务中效果不错，但它不考虑词序和语义。
词嵌入是一种更先进的表示，能够捕捉更多的上下文和语义信息。这些表示方法对于构建一个准确预测文档情感的模型是很关键的。

句子级情感分析的关键技术

Bag-of-words (BoW)：一种将文本表示为其词汇的无序集合的方法，不考虑语法或词序。
Sentence Embedding：

Word Embedding：这种方法通过训练将词汇转换为向量，可以捕捉单词的语义和上下文。

Parse Tree：一种树形结构，表示句子的语法结构，如上图中的例子显示了一个简单句子“John hit the ball”的语法树。其中"S"代表句子，"NP"代表名词短语，"VP"代表动词短语，"Det"代表限定词，"N"代表名词，"V"代表动词。
Opinion Lexicons：这些是用于情感分析的特定词典，包含已知情感极性的单词列表。图片中提供了一个资源链接（不过请注意，由于我不能直接访问互联网，因此无法验证链接的有效性）。
CNN and RNN：卷积神经网络（CNN）和递归神经网络（RNN）是两种机器学习模型，通常用于处理序列数据，如文本。CNN通过滑动窗口捕获局部特征，而RNN通过隐藏状态捕获序列数据的时间依赖性。

方面级情感分析

图2：方面级情感分析的概念框架

方面级情感分析（Aspect-level Sentiment Analysis）是一种更细粒度的情感分析方法，它不仅关注整体情感，还关注特定方面的评价。例如，对于句子“It has a horrible keyboard, but an awesome trackpad.”，方面级情感分析会识别出两个方面：“keyboard”和“trackpad”，并分别分析它们的情感倾向。

方面级情感分析的关键步骤：