基于知识引入的情感分析

2020-10-21 14:31:00
刘大牛
转自文章
231

1.引文

情感分析知识

当training数据不足以覆盖inference阶段遇到的特征时,是标注更多的数据还是利用现有外部知识充当监督信号?

基于 机器学习 深度学习 的情感分析方法,经常会遇到有标注数据不足,在实际应用过程中泛化能力差的局面。为了弥补这一缺点,学者们尝试引入外部情 感知 识为模型提供监督信号,提高模型分析性能。本文从常见的外部情 感知 识类型出发,简要介绍在情感分析中使用知识的一些代表性工作。

2.正文

我们为什么要不断尝试在情感分析中融入知识呢?笔者以为有如下几点原因:

1)一般的 文本分类 任务只提供句子或文档级别的情感标签,引入情感词典等先验情 感知 识可以给情感文本引入更细粒度监督信号,使得模型能学到更适合情感分析任务的特征表示。

2)底层的词性、句法等分析任务能给下游的 情感分类 、抽取任务提供参考信息,如评价表达通常是形容词或形容词短语,而评价对象通常是名词;不同情感分析任务本身存在相互促进作用,如评价对象和评价词在句子中出现的距离通常比较近,联合抽取能同时提高两者的性能表现。

3)短文本评论通常略去了大量的背景常识知识,从文本本身通常难以推断真实情感倾向性。例如一条有关大选的推文内容是“I am so grateful for Joe Biden. Vote for #JoeBiden!!”,文本中并未涉及任何有关Trump的描述,要判断它关于Trump的立场倾向性时,需要了解的背景知识是,二者是这次大选的竞争对手,支持一个人就意味着反对另一个人。

那情感分析常用的知识又有哪些呢?

2.1 知识的类型及情感分析常用知识库

依据对知识获取途径的划分方式 [1],我们简单总结了情感分析中常用的知识类型:

  • 显性知识
    • 一般情感词典(如MPQA,Bing Liu词典等),情感表情符;否定词(Negation)、强化词(Intensification)、连接词(Conjunction)等规则
    • SentiWordNet
    • ConceptNet,SenticNet
  • 数据
    • 数据 (Twitter、微博表情符弱标注数据)
    • 领域数据集 (例如某一类别商品评论数据)
  • 学习算法
    • 词法、句法、语义依存等模型
    • 多任务学习 算法
    • 预训练语言模型 、词向量学习算法

其中,以情感词典最为常用。情感分析数据通常结合 语言模型 算法,产生情感向量表示作为下游任务输入;词法、句法分析模型一般直接为下游情感分析任务提供特征输入或者以 多任务学习 的方式参与到下游情感分析任务的训练过程中;结构化的外部 知识库 通常需要借助图算法进行特征挖掘,为文本提供更丰富的常识、情感上下文信息。

2.2 知识的引入方式及在情感分析部分任务上的应用

下表展示了几种常见的知识类型及其特点,我们将根据知识的获取途径及引入方式,结合具体论文阐述其使用方式。

知识类型 优点 缺点
人工情感词典 质量高 规模小,静态,覆盖低
自动情感词典 规模大 静态、质量低
语言学 规则 适用范围广 不够准确
预训练 语言模型 上下文建模能力强 参数 量大,训练时间长,运行速度慢
常识 知识库 规模大、质量高、覆盖全 利用困难

目前,相关的情感分析工作可以大致分为以下几类:

  • 引入情感词典知识

要说情 感知 识,大部分人首先会想到的就是人工编纂的情感词典,它简明直观、质量高、极性明确,使用方便,广泛应用在 情感分类 、情感元素抽取、情感原因发现、情感文本风格迁移等多种情感分析任务上。情感词区别于非情感词的地方在于,它们一般表征一定的情感/情绪状态,通常情感词典中还会给出其强度打分。类似的,现在网络上流行的部分表情符 (emoj,如:) 、:( 、

发表评论
评论通过审核后显示。
文章分类
联系我们
联系人: 透明七彩巨人
Email: weok168@gmail.com