Using Chinese radical parts for sentiment analysis and domain-dependent seed set extraction

摘要

虽然在英语情感分析和资源方面取得了很大进展,但由于汉语的性质,英语研究不能直接用于汉语。以往的研究建议采用语法、语素等语言信息来辅助中文文本的情感分析。然而,基于语素的方法在识别种子方面存在问题。此外,这些方法没有利用汉字中包含大量语义信息的部首。一个汉字是由一个或多个字组成的,每个字都有它的部首。我们可以通过分析字中部首的意义来解读字的局部意义。因此,我们不仅把部首信息作为一个字的语义根,而且把一个词中字与字之间的部首部分作为进行情感分析的合适的语言单位。

在本研究中,我们以部首作为情感分析的特征单元,进行了一系列的实验。我们利用词性工具的切分结果作为汉语中一个有意义的语言单位(词),通过各种情感分析方法对单特征词(单字)和频繁出现的两个词(点状互信息搭配的双词)进行了分析。结果表明,部首特征可以比单词特征更好地工作,并且消耗更少的计算内存和时间。此外,还对种子的提取进行了扩展研究,结果表明,50个种子胚根特征表现良好。本研究还进行了跨语料库的比较,结果表明,使用50个提取的部首特征作为领域相关关键字比使用其他情感分析策略效果更好。本研究证实部首信息可以作为情感分析的特征单元,领域相关部首可以在不同语料库中重复使用。

1. 介绍

评论几乎是所有人类活动的核心,也是我们行为的关键影响因素(Liu,2012)。 从企业主的角度来看,监控在线评论已成为了解客户的重要营销策略。 从消费者的角度来看,能够全面、全面地了解可用的服务和产品是至关重要的。因此,当互联网上充斥着大量评论时,我们需要对评论进行情感分析。然而,情绪分析面临着许多挑战。首先,用户生成的内容以非结构化格式呈现,包含比Likert式调查答复(Pan等人,2007年)更多的细节;因此,很难为这些不同类型的内容建立一个固定的模型。其次,在制定评审分析模式之前,我们需要了解客户可能关心的产品的不同方面。例如,在餐厅评论中,等待和排队的时间与消费者相关。用于情感分析的语言资源是领域相关的(Pang and Lee,2008);因此,很难创建一个通用的情感词典。人们使用自己的母语来描述自己的经历和表达自己的情感,因此,理解书面评论的语义需要大量的自然语言处理(NLP)和额外的依赖语言资源。这些挑战推动了近年来情感分析和自然语言处理研究的快速发展,并引入了许多语言资源来帮助理解书面语篇中的情感。

不幸的是,并不是所有的语言资源和技术都可以直接适应中文环境进行文本挖掘(Yang和Chao,2015;郑等人,2015)。汉语是一种无空格、多音节和顺序解释的语言(Chao,1965),它有自己的字符、词汇和独特的句法,这些特点给情感分析的发展带来了语言依赖性的问题。为了寻求一种分析中文评论的母语方法,研究人员使用了一些语言信息,如形态词(Ku等人,2009;Liu,2010;Lu等人,2010;Fu and Wang,2010;Zhang等人,2012;Yang and Chao,2015),以揭示评论的语义意义。

汉语词形词可以由多个字组成,具有容易观察到的语义,可以作为单词分类或进行其他深入分析的指南(Ku et al., 2009)。一些研究表明,形态信息可以在词汇水平上帮助识别情感(Ku et al., 2006;Liu等人,2010),方面-情感水平(Zhang等人,2012),句子水平(Ku等人,2009;Fu和Wang, 2010),文献级别(Yang and Chao, 2015)。**然而,在基于语素的方法中,提供初始语素词(即种子)**是一项具有挑战性的任务,需要领域专家。

除了形态信息外,还可以观察到汉语语素字是象形文字,几乎90%的汉字可以分解为语义部首(“义符”)和语音部首(“音符”)(Li and Kang,1993)。这些语义符号通常可以用作组织字符的部首索引,它们可以揭示单个字符中混合的基本概念(Huang et al.,2008)。这样的观察促使我们在本研究中尝试利用部首信息来减轻基于语素的方法中定位语素词的负担。我们认为偏旁部分(即两个或两个以上特征词的偏旁形式)是基本的概念成分,可以用来在语言概念层面上识别情感特征。

例如,词“早餐”和“晚餐”可以被认为是偏旁” 日”和偏旁”食”的组合,也可以被理解为“特定时间的食物”。再比如,有否定意义的词,比如”愤怒“和”懒惰“,可以认为是偏旁”心“和”心“的组合,也可以理解为”发自内心的感觉“。

据我们所知,先前的研究还没有正式调查部首信息的使用,以促进情绪分析。本研究的目的是证明应用部首信息的优越性。因为以前的研究表明基于语素的情感分析方法比基于文本检索和基于关键词的方法更有效(张和申,2010;杨和晁,2015),具体来说,本研究试图证明基于部首的方法优于基于词的方法。

我们尝试了两种情况的比较:单一特征词(单字)和两个常见的词(即逐点互信息搭配双词)。在双词的情况下,语素根被应用。在这两种情况下,我们比较了基于单词的方法和相应的基于部首的方法。最后,我们提出将提取的基元特征作为与领域相关的关键字来分析来自不同来源的相似领域评论

在上述所有情况下,我们还进行了辅助比较-与基于关键字的方法进行比较。由于我们收集的评论语料库都是繁体中文的,由于同一汉字存在不同的文化问题和不同的部首,这些简体中文的语言资源(如知网)不适合进行本研究。例如,繁体中文中的“鳳”带有部首“鸟”,在简体中文中就变为了“几”(凤)。有一些繁体中文的资源,例如中文WordNet,E-知网(Extended-HowNet,扩展知网)等,其提供更多基于本体的语义,例如,实体关系、上层层次等。然而,它们并没有给出词语的极性分类。由于NTUSD(国立台湾大学情感词典)(Ku等人,2006)是在繁体中文环境下最常用于文本挖掘的预定义正反义词表,因此我们选择了它作为研究对象。我们在这项研究中使用的数据集来自两个不同的餐厅评论网站-一个由四个评级维度(即总体、口味、服务和环境排名)组成,另一个只显示总体排名。

在继续下面的章节之前,为了避免由于汉语的特点而可能产生的一些误解,我们在表1中总结了本研究中使用的一些术语。

image-20210623220057610

本文其余部分的结构如下。在第二节中,我们讨论了本研究的理论基础,并回顾了相关文献。在第三节中,我们提出了我们的方法,并对实验设计进行了总体概述。在第四节中,我们给出了实验结果。最后,在第五节中,我们给出了进一步研究的结论和建议。

2. 文献综述

在这一部分中,我们介绍了相关的情感分析研究,包括基于汉语语素的情感分析和相关的语言资源。我们还解释了中文部首,以及它们如何用于信息检索。

2.1 情感分析

情感分析不同于文本挖掘,它探索文本中语义上的积极或消极情感。然后,这些情感通常被表示为描述感觉的几个词,例如,高兴、愉快、悲伤、抱歉等。当将情感分析应用于产品或服务的评论时,情感词的集合取决于评论作者和产品的上下文而不同。刘(2012)定义了情感分析的五个要素:实体、方面、情感、意见持有人和时间。在大多数情况下,假设在处理选定数据集时时间保持不变是合理的。情感分析然后总结评论持有人的评论,其中包含对一个实体的一个方面的情感。因为情感分析涉及揭示文本数据的语义含义,所以在进行实际分析之前必须进行大量的自然语言处理。

为了理解评论中的情感,采用了预定义的语言资源来辅助解释语义。这些资源包括An NEW(英语词汇的情感规范)(Bradley and Lang,1999)、General Ququirer(Stone and Hunt,1963)和WordNet-Effect(Strapparava and Valitutti,2004)。语言资源被分为三类(积极的,消极的和中性的),并被用来通过模式匹配或统计方法来解释出现在评论中的单词。其中一种统计方法是PMI(点态互信息)(Church and Hanks, 1990;Turney, 2002),可以用来比较每一对单词之间独立的共现概率。该方法的定义如下:
$$
\operatorname { PMI } \left( \operatorname { word } _ { 1 } , \text { word } _ { 2 } \right) = \log _ { 2 } \left( \frac { \mathrm { p } \left( \text { word } _ { 1 } & \text { word } _ { 2 } \right) } { \mathrm { p } \left( \text { word } _ { 1 } \right) \mathrm { p } \left( \text { word } _ { 2 } \right) } \right)
$$
当通过较小的窗口进行观察时,PMI还可以用于搜索习语和常用短语;当在较大的窗口中使用时,它可以突出显示语义概念和其他重要的关系(Church和Hanks, 1990)。例如,它可以探索产品的特定特征(张等人,2011)和对特定特征的情感(苏等人,2008;张等,2012)。除了模式匹配方法之外,还需要预定义的词典和语法细节来建立模式,并且必须使用高级自然语言工具来将句子解析成依赖树,这使得识别情感特征成为可能。特尼(2002)使用形容词(JJ)、副词(RB)、动词(VB)和名词(NN)的组合来进行电影评论的情感分析,而中川等人(2010)使用依存树来提取子句子级别的情感。

各种机器学习技术也被应用到情感分析中。Zhang等人(2009)应用了三种流行的监督学习算法:支持向量机(SVM), na€ıve Bayes和决策树。这三种算法在许多分类应用中表现良好。其他算法,如条件随机场(CRF) (Nakagawa et al., 2010)、人工神经网络(ANN) (Ghiassi et al., 2013)和协同训练算法(Wan, 2009;巴拉胡尔和图尔奇,2014),也在最近的研究中使用。如果审查语料库是无标记的,无监督学习算法(例如,Hu等人,2013;Zhu et al., 2014)是合适的。然而,这些无监督学习算法依赖于复杂的方程,用户不容易得到提取的产品/服务特征。

2.2 中文情感信息

汉语是一种非空格分隔和按顺序解释的语言(Chao, 1965),现代汉语单词一般可以有一到六个表意意义(Wu and Tseng, 1993)。因此,在进行情感分析之前,必须将句子分割成合适的、有意义的粒度进行分析。汉语(尤其是繁体汉语)情感分析的语言资源并不丰富(Wan, 2009)。现有的带注释的情感词表,例如NTUSD(Ku等人,2006)和HowNet(董和董,2006),都是人工标注的,并且分别包含13,160和11,000个正负向词义。虽然不一定要用所有汉语词语的情感意义来进行分析,但与词典中的词语相比,这两个带注释的情感词表都是相对不足的。由于语料库的使用,词表中的词在不同的语境中可能会有不同的情感极性。此外,汉语环境可以分为传统环境(台湾、新加坡和香港)和简化环境。由于文化差异,有些词是语义上的假朋友(它们在意义上有显著差异)(洪和黄,2013)。进行自然语言处理时,使用合适的语言处理工具很重要。

在汉语中,一个单词由一个或多个字符组成,它的意思可以用复合字符来解释(Ku等人,2009)。汉语有从外国语言中引进的多音节语素,而汉语单词的意思是由存在于语素中的概念混合而成的。例如,我们可以找到字符“优”的正面情感词,“优秀”,;如字符“价”的方面词“价钱”,“价格”。

Ku等人。(2009)提出汉语情感词的意义是两个或两个以上汉字组合的函数。这正是人们在遇到生词时阅读表意文字的方式。

Bag-of-character (BOC) 方法计算未累积的字符的存在,也可以通过对字符出现在正负种子词中的观察概率进行平均来估计词的情感程度。Ku等人(2009)使用八种形态结构和BOC方法对词语情感极性进行分类,结果表明,与BOC方法相比,形态信息提高了检测性能。刘等人(2010)在继续研究BOC方法的同时,也提出了一种新的模型,将BOC方法和标签传播结合到构造的词图中来对中文单词进行分类。

Fu和Wang(2010)对BOC方法进行了扩展,创建了词表外的词极性(OOV),并使用模糊集算法在句子层面估计情感极性。

一些研究还将基于语素的特征选择方法应用于情感分析。张等人(2012)认为,含有特定语素的方面词,如产品特征,可以认为与产品特征相似;例如,语素“价”可以用来构成与价格相关的方面词,如“价钱”,“价格”,“特价”,“高价”。

詹等人认为方面情感是一种情感决定元组,可以通过确定文本中统计出现的共现来提取。杨和晁(2015)还进行了一项研究,表明八个词素根方面和搭配可以直接用来构建情感分类。他们的结果表明,基于语素的情感分析方法优于文本检索和基于关键词的方法。

2.3 中文部首

汉字是表意的,几乎90%的汉字可以分解成几个语义部首和语音部首(李和康,1993)。由于语义部首在汉字识别中起着加工单位的作用(Feldman and Siok,1997),所以一个字不仅有自己的语义,而且与指代部首有语义关系。

这里论述了简体字的部首变化,不适合本文的研究

部首也可以用来形成汉字的组织索引。公元100年,“许慎” 用了540个部首来标引汉字,解释了字与部首之间的语义关系。虽然现代索引已经将部首的数量减少到214个,但仍然可以在概念层面上解释汉字和部首之间的语义关系。Chou(2005)利用专家的解读,创建了一个基于部首的前沿本体,并将这个部首本体与上层本体和WordNet联系起来。

汉字和部首之间的语义关系也可以使用统计方法来处理,而不是依赖于专家的意见。Chao和Chung(2011)对词典确定的词与部首之间的语义关系进行了一项研究,结果表明,归入同一部首的词在接受更深层次的评估时,在概念上也会重叠。

3. 提出的方法和实验准备

在这一部分中,我们对所提出的方法进行了概述,并描述了为准备情感实验而选择的数据集。

3.1 汉语中的部首形式

如前所述,汉语中有意义的语言单位,即词,与英语不同。一个中文词,例如“金钱”,可以包含几个中文字,“金”,“钱”,如果每个字单独出现,每个字本身也可以是一个中文字。

研究(例如,Yang 和 Chao,2015)表明,将语素等语言信息应用于情感分析可以提高性能并克服特别困扰中文情感分析的稀缺情感分析语言资源。此外,汉字的语义可以从组成的汉字中推断出来,并且汉字与其内部的部首具有语义关系。因此,部首组合可以被认为是识别方面词(产品特征词)或情感词的可靠语言单位。在这种情况下,我们认为部首部分(一个或多个汉语词的部首形式)是可以用来在语言概念层面上识别情感特征的基本概念成分。这项研究表明,基于部首的方法可以根据给定的评论语料库捕捉到评论背后的根本概念,而且它与基于单词的方法不同,因为它不需要种子语素。例如,考虑到与菜肴相关的许多方面(特征词)都是用汉字”菜 “制作的,我们搜索了餐馆评论,寻找可能的候选。结果如表2所示。

image-20210624124539480

在表2中,基于词的方法搜索由语素“菜”组成的词,这样我们就可以观察到“菜”在每个可能的候选词中的用法。然而,基于部首的方法比基于单词的方法返回更多的候选项和概念。每个以偏旁为基础的候选词也可以根据偏旁的意思来解释。例如,在表2中,与部首“艸”匹配的词是草本植物,而与部首“艸木”匹配的词是木本植物。部首”水艸“可以被解释为与”海“,”泡“,”洋“相关;部首”艸口“可以被解释为 “單”的后缀,或者“味”的前缀,因为它们的部首都是“口”。

但是部首部分可能的组合受到语料库的限制;例如,在餐馆评论中,我们很少发现部首部分,比如“痛苦”,“病菌”,其部首是“疒艸”。

很明显,基于部首的方法可以比基于词的方法包含更多不同的词和意义,尽管基于部首的方法的组合依赖于语料库。在评论中识别正确的词根词素是基于词的方法的一个挑战,因为很难猜测普通消费者的心态。在情感分析中采用偏旁信息可以获得更高的汉语词汇概念水平,从而可以缓解词根问题。

3.2 数据准备

3.2.1 收集语料库

为了证实我们的假设,即采用部首部分可以改善情感分析,我们需要确保数据集很大,并且包含相关维度的单词。我们从IPEEN.com.
tw和TripAdvisor.com上收集了餐厅评论,然后将它们汇编成餐厅评论语料库。IPEEN评论语料库包含四个维度的排名系统,分别被标记为“整体”、“品味”、“服务”和“环境”。该语料库可以用来生成不同子维的部首。

TRIPADVISOR 评论语料库被认为是一种比较语料库,有助于检查我们应用于 IPEEN 语料库的基于部首的提取方法的性能。

IPEEN和TripAdvisor使用的评估排名系统不同。在IPEEN中,“总体”维度有一个高达60分的12级排名系统,而“品味”、“服务”和“环境”则采用五星级排名系统。采用更严格的正面评价标准,我们认为前两个级别(从60分到55分)是正面评价,而评分低于45分的评论则被认为是负面评价。我们在语料库中收集了60,000条评论(30,000条正面评论和30,000条负面评论)。至于TripAdvisor语料库,我们处理了给餐厅打了4到5星好评的评论,任何低于3.5星的评论都被认为是负面评论。我们将13462篇评论汇编成一个不平衡的评论语料库,其中包含了数量不等的正面和负面评论。经过初步分析,来自IPEEN语料库的词条为30,554,282个,词条为294,860个;来自TripAdvisor语料库的词条为887,895个,词条为26,098个。

3.2.2 应用自然语言处理

在编制了两个餐饮语料库之后,我们对这两个语料库进行了相同的NLP。首先,我们使用CKIP系统对收集到的评论进行词性标注,然后通过词性标注对样本进行过滤,排除动词和名词,包括 “^P,” “^C,” “^D,” “^N[c|d|e|f|g|h],”,“V_2”,“T”,和”^SHI“,以涵盖评论中大部分有意义的词。

接下来,我们对语料库进行否定处理。Das和Chen(2001)认为,否定词,例如\“不”、\“否”、\“从不”和\“从不”会影响后续词的情绪,直到标点符号出现。在这里,我们使用了11个中文否定词,包括”不“,”没有“,”不要“,”不能“,”没“,”无“,”不会“,“难”,“算不上” 和 “未”,如果在前一位置发现奇数个否定词,则标记随后的词。

3.2.3 部首划分和收集

我们扩展了杨和晁在2015年的研究中提出的基于语素的情感分析,使用部首作为特征选择单位来揭示概念层面的情感。若干研究(苏等,2008;张等,2011;张等人(2012)也通过使用PMI计算来探索基于语素的特征和搭配之间的关系。丘奇和汉克(1990)建议,特征和搭配的适当窗口大小限于五个位置,并指出只有高于三个的同现频率。

由于汉语语法可以容忍填充词,即对情感分析不重要的词,为了满足语义上下文,可以采用跳过语法(Xu等人,2013)来避免填充词。例如,给定一个英文句子,如“This price is high”,4-skip-2-gram(既,4个位置内同时出现的两个单词)将生成小写的二元语法集合 { (this,price), (price,is), (is, high),(this is), (price high),(this high) }。

本研究采用Church和Hank(1990)提出的窗口大小为5的建议,并使用跳过语法结构(称为5-跳过-2-语法)作为PMI情感调查单位,以探索在IPEEN语料库中基于部首和基于单词的PMI搭配。杨和晁(2015)也采用了类似的方法,他们建议使用0——3用于调查情感特征。

为了比较一个范围内特征词和部首的PMI搭配,我们计算了每个5-skip-2-gram的PMI值,并将PMI值几何归一化为0-1。IPEEN语料库中PMI关系的分布如图1所示。

image-20210624150719682

在图1中,基于部首的PMI集合比基于词的少(548,658对655,534),因为部首部分是汉语词的更高概念表示,并且具有相似语义部首概念的词被聚集成单个部首形式。自由基分布曲线的峰值也高于单词PMI收集曲线的峰值,因此,与较高频率共存的关系集中在给定的0-3范围内。

4. 情感实验结果

以中文的特征选择为例,让我们看看“我很喜歡這鍋菜”这句话。如果使用unigram,我们取“喜欢”,“锅”,“菜”的词表示,和它对应的部首表示“口”,“欠”,“金”,“艸”作为特征分别输入到SVM中。

如果使用 5-skip-2-gram,考虑种子“菜”,我们会取 “喜歡菜”,“鍋菜”集合的词表示和它对应的部首“口欠艸”,“金艸”作为特征输入SVM。

Using Chinese radical parts for sentiment analysis and domain-dependent seed set extraction

http://example.com/2021/06/23/部首情感分析2/

作者

bd160jbgm

发布于

2021-06-23

更新于

2021-06-24

许可协议