phonetic-enriched
摘要
汉语发音系统提供了两个区别于其他语言的特征:深层音位拼写和语调变化。在本文中,我们假设这两个重要的属性可以在中文情感分析中发挥重要作用。特别是,我们提出了两个有效的特征来编码语音信息,并因此将其与文本信息融合。基于这一假设,我们提出了情感分析的消歧语调(DISA),这是一个基于强化学习原理开发的网络。DISA消除了每个汉字(拼音)的歧义,因此学会了精确的语音表达。我们还将语音特征与文本和视觉特征相结合,以进一步提高性能。在五个不同的中文情感分析数据集上的实验结果表明,语音特征的包含显著且一致地提高了文本和视觉表示的性能,并且超过了最先进的中文字符级表示。
1. 介绍
近年来,情感分析在处理在线社区、博客、维基、微博平台和其他在线协作媒体上的社交媒体数据方面变得越来越流行[1]。它是自然语言处理(NLP)和情感计算[2]的一个领域,由许多子任务组成,如指代消解[3]和主观性检测[4],旨在将文本(有时也包括音频、图像和视频[5])分为正面、负面和中性[6]。情感分析技术可以大致分为无监督[7]、半监督[8]和监督[9]方法。
虽然文献中的大多数方法都是以独立于语言的方法来解决这个问题[10-12],但中文情感分析实际上需要解决依赖于语言的挑战,因为它的独特性质,包括分词[13,14]和成分分析[15-19]。
汉语区别于其他语言有两个主要特点。首先,它是一种象形文字[20],这意味着符号(称为汉字)本质上承载着意义。多个符号可能通过几何组合形成一个新的单一符号。中国文字的象形文字性质不同于许多印欧语言,如英语或德语。因此,它启发了许多作品通过文本的方法来探索子词的组成部分(如汉字和部首)[15-19,21]。另一条研究线通过从汉字的位图中提取视觉特征,使用字符的视觉存在来模拟组合性 [22,23],以进一步改进中文文本词嵌入。
汉语的第二个特点是,根据正字法深度假说,它是一种深层音素正字法语言[24,25]。换句话说,很难支持对涉及语言音系学的单词的识别。现代汉语的每一个符号都可以从语音上转录成一种罗马化的形式,称为拼音,由首字母(可选)、尾字母和声调组成。
具体来说,现代汉语作为一种有声调的语言,一个音节可以有五个不同的声调,即四个主声调和一个中性声调(见后面的表5)。我们认为,如表1所示,这种特殊形式的汉语提供了补充其文本形式的语义线索。值得注意的是,音调本身并没有直接联系到情感两极。相反,声调与特定音节和语境的共现决定了情感的极性。尽管它在汉语中扮演着重要的角色,但据我们所知,在汉语的自然语言处理任务中,它还没有被现有的工作所探索。
我们推测汉语的第二大因素在自然语言处理特别是情感分析中起着重要的作用。特别是,考虑到汉语的深层次音素正字法和语调变化,我们提出了两个步骤来学习汉语语音信息。
首先,我们提出两种语音特征。第一类是从真实的音频片段中提取音频特征。第二种类型从转换后的拼音语料库中学习拼音标记嵌入。对于每种特征类型,我们提供一个有语调的版本和一个没有语调的版本。
在建立了汉语拼音及其特征/嵌入之间的特征查询表之后,我们的第二步是设计一个基于拼音序列的情绪分析消歧语调网络(DISA),该网络能够自动确定每个拼音的正确语调。这一步骤对于消除汉字的意义甚至情感歧义至关重要。具体来说,受[26]的启发,我们采用了一个加固网络作为DISA网络的主要结构。行动者网络是一种典型的神经策略网络,其作用是为每个拼音从五个声调中选出一个。批评网络是一种长短时记忆(LSTM)序列模型,用于学习拼音句子序列表征。建立序列表示时,策略网络采用延迟奖励更新,批评网络采用情感类交叉熵损失更新。
由于最近多模态学习的成功,我们也将文本和视觉特征与语音特征结合起来。据我们所知,我们首次在多模态框架下考虑汉语情感分析的深层音位正字法特征和语调变化。实验结果表明,所提出的多模态框架在性能上明显优于目前最先进的中文情感分析方法。综上所述,本文的三个主要贡献是:
- 我们融合了与汉字相关的不同模式,以模仿人类阅读和理解中文的方式。
- 提出了一种基于强化学习的汉字语调消歧和情感歧义的联合学习框架。
- 我们在几个基准数据集上演示了我们的框架的有效性。
本文的主要内容如下:首先简要介绍了汉语语音的情感分析和嵌入特征;然后介绍我们的模型并提供技术细节;接下来,我们描述实验结果并进行分析讨论;最后,对全文进行了总结,并对今后的工作提出了建议。
2. 相关工作
我们首先简要回顾文本嵌入方法,然后分析包括文本嵌入和视觉嵌入的现有中文表示。接下来,我们简要回顾了情感分析和汉语语音。
2.1 中文文本嵌入
One-Hot表示法是自然语言处理中最初的数字词表示方法。然而,这通常会导致高维和稀疏的问题。为了解决这个问题,人们提出了分布式表示(或词嵌入)[27]。单词嵌入是一种利用神经网络将单词映射成实数的低维向量的表示。其核心思想是以分布假设为基础,对上下文词的表示方式以及上下文词与目标词之间的关系进行建模。
自2008年引入C&W模型[28]以来,直接学习单词嵌入变得流行起来。2013年,米科洛夫等人。[29]介绍了连续词袋模型(CBOW)和Skipgram模型。前者在输入层放置上下文词,在输出层放置目标词,后者在CBOW中交换输入和输出。2014年,Pennington等人创造了“GloVe”嵌入。不同于之前通过最小化预测损失来学习嵌入,GloVe使用共现计数矩阵的降维技术来学习嵌入。
2.2 中文表示
汉语文本与英语文本的区别主要体现在两个方面:一是汉语文本没有分词功能,二是汉语文本具有象形文字的成分特征。基于前一个方面,在文本表示之前总是使用分词工具,如ICTCLAS[30]、THULAC[31]、jieba等。在后者的基础上,已有多篇论文研究了利用子词成分(如字符和部首)来改进词嵌入。Chen等人提出了中文单词分解为汉字的方法,并提出了一种字符增强的词嵌入模型(CWE)。
Sun等人[15]和Li等人的研究成果[16]将汉字分解为部首,开发了部首增强的汉字嵌入。在[17]中,纯基于部首的嵌入被训练用于短文本分类、中文分词和网络搜索排序。Yen等人[18]通过引入多粒度中文词嵌入,扩展了纯部首嵌入。彭等人[19]和晁等人[32]探索了利用部首信息进行情感分析任务。最近,张等人[33]提出了一种用于中文文本情感分类的交互式多任务学习方法。
[19] H. Peng, E. Cambria, X. Zou, Radical-based hierarchical embeddings for Chinese sentiment analysis at sentence level, in: FLAIRS, 2017, pp. 347–352.
[32] A.F. Chao, H.-L. Yang, Using Chinese radical parts for sentiment analysis and domain-dependent seed set extraction, Comput. Speech Lang. 47 (2018) 194–213.
在过去的几年中,多模式表征已经成为一个日益增长的研究领域。Liu等[23]和Su等[22]探索了将视觉特征集成到文本词嵌入中。所提取的视觉特征对汉字的组合性建模是有效的。
2.3 情感分析与汉语语音
情绪分析提出了日益增长的兴趣在科学界,导致许多激动人心的开放的挑战,以及在商业世界,由于显著的好处从商业智能[34]政治预测[35],[36]推荐系统,社会网络分析[37],[38]对话框系统等等。近年来,从文献层面[39-41],到句子层面[42-44],再到方面层面[45-47],各个方向都在积极探索。大多数方法都从较高的角度来为广泛的语言[48]开发有效的模型。
只有少数的作品致力于研究语言特有的特征[16,22,49]。其中,几乎没有文献试图利用语音信息来表征汉语。然而,我们认为汉语语音信息对于汉语的表达和情感分析具有重要的价值,原因在于但不限于以下证据。
Shu和Anderson对[50]中的汉语语音意识进行了研究。这项研究涉及113名中国二年级、四年级和六年级的学生,他们就读于北京一所工人阶级小学。他们的任务是表示60个语义-语音复合字的发音。结果表明,二年级儿童表征规则字的发音能力优于不规则字和绑定音字。
熟悉度对发音的强烈影响突显了中国书写系统中一个不可避免的事实:该系统提供的发音提示不像许多其他书写系统(如英语)那样可靠或一致[51]。此外,肖和希尔考克认为,在7000个常用汉字中,义音复合词(或音复合词)约占81%[52]。如果我们能找到一种方法来有效地表示这些复合词的语音信息,那么这些复合词将会对语义产生很大的影响。
据我们所知,还没有将发音信息集成到中文表示中的工作。由于其深层的音素正字法,我们推测汉语发音信息可以将表征提升到一个更高的水平。因此,我们建议学习语音特征,并提出一个DISA网络来自动将汉字转换成具有正确语调的拼音。
3. 模型
在这一部分中,我们首先介绍如何从文本和视觉模态中提取特征。接下来,我们深入挖掘不同类型语音特征的细节。然后,我们介绍了一个DISA网络,它通过声调来分析汉字的读音。最后,我们演示了如何融合三种模态的特征进行情感分析。
3.1 文本嵌入
与大多数最近的文献一样,文本单词嵌入向量被视为文本的基本表示[27,29,53]。首先由Bengio等人介绍[27],低维单词嵌入向量学习了单词的分布式表示。与传统的N-GRAM字表示相比,它们在很大程度上减少了数据稀疏问题,并为神经网络提供了更友好的访问。2013年,米科洛夫等人[29]介绍了Word2vec工具包,该工具包以其快速的学习速度填补了Word嵌入向量的应用。在工具包中,提出了两种基于预测的词向量CBOW和Skip-gram。他们要么根据上下文预测目标词,要么根据上下文预测目标词。
Pennington等人在2014年开发了“GloVe”,它采用了基于计数的机制来嵌入词向量。按照约定,我们使用128维的’ GloVe ‘字符嵌入[53]来表示文本。
值得注意的是,我们将中文文本的基本符号设置为字符而不是单词,有两个原因。首先,字符被设计成与音频特征相匹配。语音特征只能在字符层面提取,因为每个汉字都有语音。
在汉语中,基本语音单位是在字符层面上,语义上是独立的。在英语中,基本语音单位是单词级的(除了一些前缀/后缀音节)。其次,字符级处理可以避免汉语分词产生的错误。虽然我们使用character GloVe嵌入作为文本嵌入,但我们使用CBOW[29]和Skip-gram嵌入进行了实验比较。
3.2 训练可视化特征
与拉丁语不同,汉语的书面语言起源于象形文字。之后,简单的符号被组合成复杂的符号来表达抽象的意义。例如,三个“(木)”的几何组合创造了一个新字符“(森)”。这一现象形成了汉语文本的一个构成特征。
我们没有使用子词[18,21]或子字符[15,16,19]元素来直接建模文本的组合性,而是选择了视觉模型。特别是,我们构建了一个卷积自动编码器(convAE)来提取视觉特征(视觉特征不是本工作的主要焦点)。表2列出了convAE的详细信息。
按照[54]和[22]中的约定,我们将模型的输入设置为每个汉字的60 × 60位图,模型的输出设置为一个维数为512的稠密向量。利用Adagrad优化器对模型进行原位图与重构位图之间的重构误差训练。损失给出如下:
$$
\sum _ { j = 1 } ^ { L } \left( \left| x _ { t } - x _ { r } \right| + \left( x _ { t } - x _ { r } \right) ^ { 2 } \right) \tag{1}
$$
其中,$L$ 是样本的数量。$x_t, ; x_r$ 分别是原始输入位图,重建输出位图。原始和重建位图的示例如图1所示。
训练视觉特征后,我们得到一个查找表,其中每个汉字对应一个512维的特征向量。
3.3 学习语音特征
汉语书面语和口语有几个根本的区别。据我们所知,所有关于中文自然语言处理的文献都忽略了音频通道的重要性。正如认知科学所表明的那样,人类的交流不仅依赖于视觉识别,还依赖于听觉的激活。这驱使我们探索音频通道(发音)和文本表示之间的相互影响。
流行的拉丁语和日耳曼语,如西班牙语、葡萄牙语、英语等,有两个显著的特点。首先,他们的音素正字法很浅。换句话说,单词的发音在很大程度上取决于这些语言的文本组成。给定文本拼写,人们几乎可以推断出单词的发音。从这个角度来看,文本信息可以与语音信息互换。
例如,如果英语单词“subject”和“marine”的发音已知,就不难推测单词“submarine”的发音,因为我们可以把“subject”和“marine”的发音结合起来。这意味着这些语言的语音信息可能没有比文本信息更多的信息熵。其次,语调信息在这些语言中是有限和隐含的。一般来说,重音、升调和降调是这些语言的主要变体。虽然他们在交流中对情感极性产生了很大的影响,但没有明显的线索仅从文本中推断出这样的信息[55]。
然而,汉语在几个关键方面不同于上述语言。首先,它是一种深音位正字法的语言。人们很难从汉字的文字中推断出它的发音。例如,汉字’日’和’月 ‘的读音分别是’ rì ‘和’ yuè ‘。将这两个字组合成另一个字’ 明’,发音为’ míng ‘。这一特点促使我们去探索汉语发音如何影响自然语言理解。其次,汉语的语调信息丰富而明确。除了强调,每个汉字都有一个音调(五个不同的音调中),由明确的变音符标记。这些声调在很大程度上影响着汉字的语义和情感。如表1所示。
为此,我们发现探索汉语发音如何影响自然语言理解,尤其是情感分析,并不是微不足道的。特别是,我们设计了两种语音信息学习方法,即从音频信号中提取特征和从文本语料库中提取嵌入向量。对于上述两种方法中的任何一种,我们都有两种变体,即使用(Ex04, PW)语调或不使用(Ex0, PO)语调。如表3所示。下面几节将介绍每种类型的详细信息。
3.3.1 从音频剪辑中提取的特征(Ex0, Ex04)
现代汉语的口语系统称为“汉语拼音”,缩写为“Pinyin”。它是中国大陆普通话的官方罗马化系统[56]。该系统包括四个变音符,表示四个不同的音调和一个中性音调。每一个汉字都有一个对应的拼音。这个拼音有五种不同的声调(我们把中性的声调当作一种特殊的声调)。汉字和拼音统计见表4。
结果表明,汉语拼音中常用字的数量要多于有声调或不带声调的拼音对应字的数量。这说明某些汉字具有相同的拼音,并进一步表明如果用拼音表示文本,one-hot维度会降低。
为了提取语音特征,对于每个拼音的每个声调,我们从语言学习资源中收集了一个音频片段,该片段记录了女性对该拼音(带声调)的发音。每个音频剪辑持续约1秒,标准发音一个带声调的拼音。这些片段的质量得到了两位母语人士的认可。接下来,我们使用openSMILE[57]对获得的每个拼音声调音频剪辑提取语音特征。在30 Hz帧率和20毫秒滑动窗口下提取音频特征。它们由39个低级描述符(LLD)及其统计量组成,如MFCC、二次方根平均数等。
在获得每个拼音声调片段的特征后,我们得到了每个片段的m×39维矩阵,其中m取决于片段的长度,39是特征的数量。为了调整每个片段的特征表示,我们对矩阵进行奇异值分解(SVD),将其简化为39维向量,提取包含奇异值的向量。最后,将每个拼音片段的高维特征矩阵转换为39维的密集特征向量。相应地构造拼音和音频特征向量之间的查找表。
特别是,我们准备了两组提取的语音特征。第一种类型带有声调,这是我们从上述处理中获得的特征。我们将其表示为Ex04,其中‘Ex’代表提取的特征,‘04’代表从0到4的一个声调(我们将轻声分别表示为0,第一到第四个声调分别表示为1到4)。第二类去掉了声调的变异,即从每个拼音的五个声调中取五个特征的算术平均值。我们将其表示为Ex0,其中‘0’代表无声调。在第二类特征中,不同声调的拼音文字将具有相同的语音特征,即使它们的意思可能不同。
3.3.2 从拼音语料库学习特征(PO、PW)
我们不是收集每个拼音的音频片段并提取音频特征,而是直接用拼音标记表示汉字,如表3所示。具体地说,我们将文本语料库中的每个汉字转换为拼音。将由汉字序列表示的原始语料库转换为由拼音符号序列表示的拼音语料库。
在语音语料库中,语境语义仍然保持在语篇语料库中。这是在在线解析器的帮助下实现的,在线解析器将汉字解析为拼音对应的汉字5。它们将汉字解析成对应的拼音。需要指出的是,常见的3500个汉字中(122个字左右)[58]有3.49%有多个拼音文字,即‘多音字’(异音)。虽然解析器声称支持异音词,但我们对每个异音词进行了统计上最有可能的拼音预测。
我们没有特别消除各种异义词的歧义,因为这不是我们试图在本文中论证的主要假设。然而,这可能是一个值得在未来努力的方向。DISA在汉字到拼音的转换中提供了两种模式,一种是有声调的,另一种是无声调的。
对于不带声调的模式,汉字将被转换为不带声调的拼音。例如,表3中PO行所示的标记,其中PO代表不带声调的拼音。之后,我们使用传统的“Glove”字符嵌入来训练128维拼音标记嵌入向量[53]。据此构造了无音准拼音和嵌入向量之间的查找表。发音相同但语调不同的拼音文字会共享相同的手套嵌入向量,如表3中的Jia和Jià。
对于带声调的模式,汉字将被转换为拼音加一个表示声调的数字。例如表3中PW行所示的标记,其中PW代表拼音w/声调。我们用数字1到4表示四个音调符号,用数字0表示中性音调。类似地,训练了128维“Glove”拼音嵌入向量。
总而言之,我们有四种语音特征,即Ex04、PW、Ex0和PO。Po与Pw的区别在于去掉语调。其中两个(Ex04,PW)通过语调区别于其他人。
预计会有一个问题,那就是如何根据拼音文字的文字知道拼音文字的正确语调。虽然在线解析器可以给出其统计猜测,但其性能和健壮性无法得到评估和保证。为了解决这个问题,我们设计了一个带有强化学习模型的句法分析器网络来学习每个拼音的正确语调。详细信息将在下一节中介绍。
为了得出正确的语调,他们设计一个DISA用来判断语调是否正确。
3.4 DISA
3.4.1 概述
该DISA网络以一句汉字作为输入。它首先通过查找操作将每个字符转换为其对应的拼音(无声调)。然后拼音序列将被提供给演员-评论家网络。对于每个拼音(时间步长),策略网络将随机抽样五个动作中的一个,其中每个动作代表一个音调。然后,从特征查找模块检索该特定带声调拼音的特征/嵌入。
在勘探阶段,行动将随机取样。在利用和预测阶段期间,该动作将是给出策略的最大概率的动作。然后将此功能/嵌入序列送入LSTM网络。来自LSTM的隐藏状态将返回策略网络以指导动作选择。 LSTM网络的最终隐藏状态将被馈送到SoftMax分类器以获取句子情绪类分布。地面真实标签的对数概率将被视为调整策略网络的延迟奖励。最后,将根据获得的情感类分布计算交叉熵损失,以调整批评网络。图2示出了图形描述,随后是下面的细节。
状态:对于环境,我们使用一个LSTM来模拟价值函数(稍后将详细介绍)。该LSTM的输入是从查找模块(稍后详述)检索的特征/嵌入序列,$x _ { 1 } , x _ { 2 } , \ldots , x _ { t } , \ldots , x _ { L }$,其中 $x_t$ 是句子中第 $t$ 个拼音的特征。LSTM单元的数学表示如下:
$$
\begin{aligned} f _ { t } & = \sigma \left( W _ { f } \left[ x _ { t } , h _ { t - 1 } \right] + b _ { f } \right) \ I _ { t } & = \sigma \left( W _ { I } \left[ x _ { t } , h _ { t - 1 } \right] + b _ { I } \right) \ \widetilde { C } _ { t } & = \tanh \left( W _ { C } \left[ x _ { t } , h _ { t - 1 } \right] + b _ { C } \right) \ C _ { t } & = f _ { t } * C _ { t - 1 } + I _ { t } * \widetilde { C } _ { t } \ o _ { t } & = \sigma \left( W _ { o } \left[ x _ { t } , h _ { t - 1 } \right] + b _ { o } \right) \ h _ { t } & = o _ { t } * \tanh \left( C _ { t } \right) \end{aligned} \tag{2}
$$
环境状态定义为:
$$
S _ { t } = \left[ x _ { t } \oplus h _ { t - 1 } \oplus C _ { t - 1 } \right] \tag{3}
$$
其中,$\oplus$ 是串联(下同)。如公式(3)所示,状态由当前特征输入、最后一个LSTM隐藏输出和最后一个LSTM单元存储器决定。
动作:我们的环境中有五种动作,代表五种不同的音调。一个例子如表5所示。如果选择了不同的动作,则相应的语调将被激活。然后将选择相关的语音特征,如第3.4.3节所述。动作策略由典型的前馈神经网络实现。具体来说,对于一个在时刻$t$的策略 $\pi \left( a _ { t } \mid S _ { t } \right)$,
$$
\pi \left( a _ { t } \mid S _ { t } \right) = \tanh \left( W \cdot S _ { t } + b \right) \tag{4}
$$
$a_t$是时刻$t$的动作。在探索训练的过程中,动作会从以上五个中随机选取。在训练和测试的开发过程中,将选择概率最大的动作。
奖励:当状态/动作轨迹到达终点时,在每句话的结尾计算奖励(延迟奖励)。在特征/嵌入查找模块之后,特征序列被馈送到LSTM批评网络。句子情感类分布计算如下:
$$
distr = \sigma \left( W _ { s f m x } \cdot h _ { L } + b _ { s f m x } \right) \tag{5}
$$
$h_L$是LSTM评论家网络最后的隐藏状态输出。$distr ^ { 1 * X }$是句子情感类别的概率分布。$X$是情感类别的数量。奖励$R$,定义如下:
$$
R = \log ( P ( \text { ground } \mid \text { sent } ) ) \tag{6}
$$
其中,$P(ground|sent)$ 代表公式5中给定句子真实标签的概率分布。
3.4.2 行动者:策略网络
如上面的“动作”所示,策略网络在训练的探索阶段随机猜测动作。当句子输入被完全遍历时,它将被更新。根据Eq.(6)得到的奖励,我们采用梯度下降法对策略网络[59]进行优化。换句话说,我们想要最大化:
$$
\begin{aligned} J ( \theta ) & = E _ { \pi } \left[ R \left( S _ { 1 } , a _ { 1 } , S _ { 2 } , a _ { 2 } , \ldots , S _ { L } , a _ { L } \right) \right] \ & = \sum _ { 1 } ^ { L } p \left( S _ { 1 } \right) \prod _ { t } \pi _ { \theta } \left( a _ { t } \mid S _ { t } \right) p \left( S _ { t + 1 } \mid S _ { t } , a _ { t } \right) R _ { L } \ & = \sum _ { 1 } ^ { L } \prod _ { t } \pi _ { \theta } \left( a _ { t } \mid S _ { t } \right) R _ { L } \end{aligned} \tag{7}
$$
利用似然比(或强化[60]技巧)来估计策略梯度,梯度可以转化为:
$$
\nabla _ { \theta } J ( \theta ) = \sum _ { t = 1 } ^ { L } R _ { L } \nabla _ { \theta } \log \pi _ { \theta } \left( a _ { t } \mid S _ { t } \right) \tag{8}
$$
3.4.3 特征/嵌入查找
回想一下,我们已经从actor网络中选择了动作,其中每个动作都表示该拼音的声调,这个特性/嵌入查找模块的功能是检索带有声调的特定拼音的正确特征。在策略网络之前,我们收集了每种拼音的五个不同声调的语音特征,并将它们从中性声调特征排序到第四声调特征。中性音到第四音特征可以通过索引ID号0到4单独检索。
当从actor网络中选择动作时,例如,为拼音 $P_1$选择动作 $4$,该查找模块将找到该拼音的第四个语音特征(索引 ID 4),既 $F_14$,并将其作为公式2中的输入传递LSTM批评者网络。
3.4.4 批评家:句子模型和损失计算
在之前的状态中引入的批评网络本质上是一个LSTM的句子编码模型。我们使用梯度下降法更新批评网络,交叉熵损失定义为:
$$
L = - \sum _ { \forall \text { sent } } P ( \text { ground } \mid \text { sent } ) \log ( P ( \text { pred } \mid \text { sent } ) ) \tag{9}
$$
3.5 模态的融合
在汉语的语境中,文本嵌入已经被应用于各种任务中,并证明了它在编码语义或情感方面的有效性[15-18,21,61,62]。最近,视觉特征通过多模式融合进一步推动了文本嵌入的性能[22,23,63]。这是因为通过视觉特征对汉字的组合性进行了有效的建模。在这项工作中,我们假设语音特征以及文本和视觉的使用可以提高性能。因此,我们介绍了以下适合我们的DISA网络的融合方法,如图2所示。
每个汉字由三个部分串联而成。每个部分代表一种模式,见下文:
$char = \left[ e m b _ { T } \oplus e m b _ { P } \oplus e m b _ { V } \right] \tag{10}$
其中 $char$ 是字符表示。 $emb_{t},emb_{P},emb_{V}$是文本的Embedding,音调和视觉特征。
文献[64–66]中有其他复杂的融合方法,但是,我们在论文中没有使用它们,原因有三:
(1)通过串联的融合通常被证明是有效的方法[23,67,68],
(2)它还有一个额外的好处,那就是简单,因此允许系统的重点(贡献)保留在特征本身上
(3)设计的融合需要符合我们的加固模型框架
文[22]和[64]中的融合方法阻碍了行动者-批评者模式的实施。因此,我们使用了上面介绍的融合方法,融合特征/嵌入查找表的例子如图3所示。
4. 实验和结果
在本节中,我们首先介绍实验设置。实验分六个步骤进行。首先,我们比较了单峰特征。其次,我们对可能的模态融合进行了实验。第三,我们将我们的方法与基线的跨域验证性能进行了比较。接下来,我们进行消融测试来验证语音特征的贡献。更准确地说,我们还可视化了不同的语音功能/嵌入,以了解它们是如何提高性能的。
4.1 实验设置
4.1.1 数据集和特征/嵌入
数据集:我们在微博、IT168、Chn2000、Review-4和Review-5这五个数据集上对我们的方法进行了评估。前三个数据集由从微博和评论网站提取的评论组成。最后两个数据集包含来自[69]的评论,其中Review-4包含来自计算机和相机领域的评论,Review-5包含来自汽车和手机领域的评论。表6显示了实验数据集。
特征/嵌入:对于文本嵌入,我们参考3.1节中使用Glove训练的预先训练的字符嵌入查找表。对于语音实验,我们在数据集上使用了一个名为Online Codes7的预先构建的工具,将文本转换为没有语调的拼音(正如我们在3.3.2节中讨论的那样,这种转换的准确率高达97%)。Ex0和Ex04特征从音频文件中提取并存储,如第3.3.1节所述。PO和PW嵌入也在同一文本语料库上进行了预训练,以训练文本嵌入。该语料库收录了800万字的新闻,相当于3800万个汉字。对于视觉特征,我们参考查找表将字符转换为视觉特征,如第3.2节所述。
对于多通道的实验,来自每个单独通道的特征被连接到一个查找表中。示例如图3所示。
5. 总结
现代汉语语音系统(拼音)提供了一个新的视角,除了标准的象形文字书写系统外,现代汉语发音系统(拼音)也提供了一个新的视角。由于其深厚的音素拼写和语调变异,有望为汉语的统计表示带来新的贡献,特别是在情感分析等复杂的自然语言处理任务中。
据我们所知,我们首次提出了一种从拼音(包括音频片段和拼音标记语料库)中学习语音信息的方法,并设计了一个消除语调歧义的网络。我们将语音信息与文本和视觉特征相结合,为中文单词创建了新颖的多模态表示。在五个数据集上的实验表明了语音信息对汉语情感分析的积极贡献。
尽管我们的方法只检查中文,但它表明,阿拉伯语和希伯来语等也带有深层音素正字法特征的语言具有更大的潜力。在未来,我们计划通过探索更好的融合方法来结合不同的模态,并通过整合词级语音信息来扩展这项工作。o
phonetic-enriched