Learning Character-level Compositionality with Visual Features
摘要
在不同的书写系统中,字符的组合性在字符层面上也有影响:一个字符的意义是由它的各个部分的总和派生出来的。在本文中,其通过基于字符的视觉特征创建字符嵌入,为字符创建图像,并通过卷积神经网络生成视觉字符特征来模拟这种效果。
在不同的书写系统中,字符的组合性在字符层面上也有影响:一个字符的意义是由它的各个部分的总和派生出来的。在本文中,其通过基于字符的视觉特征创建字符嵌入,为字符创建图像,并通过卷积神经网络生成视觉字符特征来模拟这种效果。
自变量:可以控制
因变量:不可以控制,与自变量有关
虽然在英语情感分析和资源方面取得了很大进展,但由于汉语的性质,英语研究不能直接用于汉语。以往的研究建议采用语法、语素等语言信息来辅助中文文本的情感分析。然而,基于语素的方法在识别种子方面存在问题。此外,这些方法没有利用汉字中包含大量语义信息的部首。一个汉字是由一个或多个字组成的,每个字都有它的部首。我们可以通过分析字中部首的意义来解读字的局部意义。因此,我们不仅把部首信息作为一个字的语义根,而且把一个词中字与字之间的部首部分作为进行情感分析的合适的语言单位。
在本研究中,我们以部首作为情感分析的特征单元,进行了一系列的实验。我们利用词性工具的切分结果作为汉语中一个有意义的语言单位(词),通过各种情感分析方法对单特征词(单字)和频繁出现的两个词(点状互信息搭配的双词)进行了分析。结果表明,部首特征可以比单词特征更好地工作,并且消耗更少的计算内存和时间。此外,还对种子的提取进行了扩展研究,结果表明,50个种子胚根特征表现良好。本研究还进行了跨语料库的比较,结果表明,使用50个提取的部首特征作为领域相关关键字比使用其他情感分析策略效果更好。本研究证实部首信息可以作为情感分析的特征单元,领域相关部首可以在不同语料库中重复使用。
基于部首的句子级汉语情感分析层次化嵌入
中文情感分析中的文本表示通常在单词或字符级别工作。在本文中,我们证明了部首级处理可以极大地提高情感分类性能。特别地,我们提出了两种基于中文部首的层次嵌入。嵌入不仅包含部首和字符级别的语义,还包含情感信息。在对嵌入的评估中,我们在四个不同的数据集上进行句子级的中文情感分析。实验结果验证了我们的假设,即词根级语义和情感可以有助于句子级情感分类,并证明了我们的嵌入优于经典文本特征和流行的单词和字符嵌入。
汉语发音系统提供了两个区别于其他语言的特征:深层音位拼写和语调变化。在本文中,我们假设这两个重要的属性可以在中文情感分析中发挥重要作用。特别是,我们提出了两个有效的特征来编码语音信息,并因此将其与文本信息融合。基于这一假设,我们提出了情感分析的消歧语调(DISA),这是一个基于强化学习原理开发的网络。DISA消除了每个汉字(拼音)的歧义,因此学会了精确的语音表达。我们还将语音特征与文本和视觉特征相结合,以进一步提高性能。在五个不同的中文情感分析数据集上的实验结果表明,语音特征的包含显著且一致地提高了文本和视觉表示的性能,并且超过了最先进的中文字符级表示。
汉语是一种象形文字,汉字的形状蕴含着丰富的句法和语义信息。在本文中,我们提出了一个通过三个层次的组合来学习汉语单词嵌入的模型:(1)利用卷积神经网络从字符视觉形状中提取字符内部成分;(2)基于自注意的递归神经网络将字符表示转化为词嵌入;(3)直接从语境信息中捕捉非位置性的Skip-Gram框架。评估表明,我们的模型在四个任务上表现出色:单词相似性、情感分析、命名实体识别和词性标注。
数列的前几项为:1, 1, 2, 5, 14, 42, 132, 429, 1430, 4862,...
以比利时的数学家欧仁·查理·卡特兰(1814–1894)命名。历史上,清朝数学家明安图(1692年-1763年)在其《割圜密率捷法》中最先发明这种计数方式,远远早于卡塔兰[1][2][3]。有中国学者建议将此数命名为“明安图数”或“明安图-卡塔兰数”[4]。
卡塔兰数的一般项公式为:
$$
C _ { n } = \frac { 1 } { n + 1 } \left( \begin{array} { c } 2 n \ n \end{array} \right) = \frac { ( 2 n ) ! } { ( n + 1 ) ! n ! }
$$
Attention机制,尤其是self-attention,在视觉任务的深度特征表征中起着越来越重要的作用。
self-attention通过使用所有位置的成对相似性计算特征的加权和来更新每个位置的特征,以捕捉单个样本内的长期相关性。然而,self-attention具有$n^2$复杂度,忽略了不同样本之间的潜在相关性。
本文提出了一种新的Attention机制,称为外部注意力机制,它基于两个外部的、小的、可学习的和共享的记忆单元,只需使用两个级联线性层和两个归一化层就可以很容易地实现,它可以方便地取代现有流行体系结构中的self-attention。
外部注意力机制具有线性复杂度,隐含地考虑所有样本之间的相关性。关于图像分类,语义分割,图像生成,点云分类和点云分割任务的广泛实验表明,我们的方法为self-attention和其一些变体提供了可比或卓越的性能,具有较低的计算和存储成本。
显而易见,像中文这样的标识语言的自然语言处理任务应该受益于这些语言中字形信息的使用。然而,由于字形中缺乏丰富的象形证据,标准计算机视觉模型对字符数据的泛化能力较弱,如何有效地利用字形信息仍有待探索。
在这篇文章中,我们通过提出汉字表示的字形向量Glyce来解决这个问题。
我们有三大创新:(1)利用中国历史文字(如青铜器文字、篆书、繁体字等)丰富文字中的象形证据;(2)我们设计了适合汉字图像处理的CNN结构(称为天田字格-CNN);(3)在多任务学习环境中,我们使用图像分类作为辅助任务,以提高模型的泛化能力。
我们表明,在广泛的中文自然语言处理任务中,基于字形的模型能够一致地优于基于单词/字符ID的模型。我们能够为各种中文自然语言处理任务设置最新的结果,包括标注(NER,CWS,POS),句子对分类,单句分类任务,依存句法分析,以及语义角色标注。例如,该模型在OntoNotes数据集NER上的F1得分为80.6,在BERT上的F1得分为+1.5;在复旦语料库上的文本分类准确率几乎达到99.8%。
Welcome to the first assignment of week 4! Here you will build a face recognition system. Many of the ideas presented here are from FaceNet. In lecture, we also talked about DeepFace.