Using Chinese radical parts for sentiment analysis and domain-dependent seed set extraction

摘要

虽然在英语情感分析和资源方面取得了很大进展,但由于汉语的性质,英语研究不能直接用于汉语。以往的研究建议采用语法、语素等语言信息来辅助中文文本的情感分析。然而,基于语素的方法在识别种子方面存在问题。此外,这些方法没有利用汉字中包含大量语义信息的部首。一个汉字是由一个或多个字组成的,每个字都有它的部首。我们可以通过分析字中部首的意义来解读字的局部意义。因此,我们不仅把部首信息作为一个字的语义根,而且把一个词中字与字之间的部首部分作为进行情感分析的合适的语言单位。

在本研究中,我们以部首作为情感分析的特征单元,进行了一系列的实验。我们利用词性工具的切分结果作为汉语中一个有意义的语言单位(词),通过各种情感分析方法对单特征词(单字)和频繁出现的两个词(点状互信息搭配的双词)进行了分析。结果表明,部首特征可以比单词特征更好地工作,并且消耗更少的计算内存和时间。此外,还对种子的提取进行了扩展研究,结果表明,50个种子胚根特征表现良好。本研究还进行了跨语料库的比较,结果表明,使用50个提取的部首特征作为领域相关关键字比使用其他情感分析策略效果更好。本研究证实部首信息可以作为情感分析的特征单元,领域相关部首可以在不同语料库中重复使用。

阅读更多

Radical-Based Hierarchical Embeddings for Chinese Sentiment Analysis at Sentence Level

基于部首的句子级汉语情感分析层次化嵌入

摘要

中文情感分析中的文本表示通常在单词或字符级别工作。在本文中,我们证明了部首级处理可以极大地提高情感分类性能。特别地,我们提出了两种基于中文部首的层次嵌入。嵌入不仅包含部首和字符级别的语义,还包含情感信息。在对嵌入的评估中,我们在四个不同的数据集上进行句子级的中文情感分析。实验结果验证了我们的假设,即词根级语义和情感可以有助于句子级情感分类,并证明了我们的嵌入优于经典文本特征和流行的单词和字符嵌入。

阅读更多

phonetic-enriched

摘要

汉语发音系统提供了两个区别于其他语言的特征:深层音位拼写和语调变化。在本文中,我们假设这两个重要的属性可以在中文情感分析中发挥重要作用。特别是,我们提出了两个有效的特征来编码语音信息,并因此将其与文本信息融合。基于这一假设,我们提出了情感分析的消歧语调(DISA),这是一个基于强化学习原理开发的网络。DISA消除了每个汉字(拼音)的歧义,因此学会了精确的语音表达。我们还将语音特征与文本和视觉特征相结合,以进一步提高性能。在五个不同的中文情感分析数据集上的实验结果表明,语音特征的包含显著且一致地提高了文本和视觉表示的性能,并且超过了最先进的中文字符级表示。

阅读更多

leetcode-25

正交实验设计法

介绍

正交试验法是研究多因素、多水平的一种试验法,它是利用正交表来对试验进行设计,通过少数的试验替代全面试验,根据正交表的正交性从全面试验中挑选适量的、有代表性的点进行试验,这些有代表性的点具备了“均匀分散,整齐可比”的特点。

阅读更多