Learning Character-level Compositionality with Visual Features
摘要
在不同的书写系统中,字符的组合性在字符层面上也有影响:一个字符的意义是由它的各个部分的总和派生出来的。在本文中,其通过基于字符的视觉特征创建字符嵌入,为字符创建图像,并通过卷积神经网络生成视觉字符特征来模拟这种效果。
方法
这里作者考虑到了使用视觉模型带来的缺点,既为外观相似但含义不同的字符引入了噪声。
两种特征的融合方式:
1、早期融合
将两种特征进行串联。
2、后期融合
对两种模型输出的特征分别进行预测,然后对预测的结果取平均
3、Fallback融合
首先在训练集中计算出字符在训练集中出现的频率。然后选择计算的结果选择一个阈值作为字符出现频率的阈值。低于这个阈值的使用VISUAL模型预测,其余采用Word2vec的方法去预测。
针对可视化特征的研究
分别MASK掉输入图像的上下左右四个部分,然后将其输入到CNN中,得到输入图像的特征。然后计算完整图像的特征与这四副图像特征的L2距离,如果L2距离越大说明该部分的作用越明显,因为如果这一部分不重要的话,说明mask掉也没有影响,也就越黑。
Learning Character-level Compositionality with Visual Features