ChineseBert

摘要

最近的汉语预处理模型忽略了汉语特有的两个重要方面:字形和拼音,它们为语言理解提供了重要的句法和语义信息。在这项工作中,我们提出了汉语拼音方案,该方案将汉字的字形和拼音信息结合到语言模型预处理中。

glyph嵌入是基于汉字的不同字体获得的,能够从视觉特征中捕捉字符语义,拼音嵌入表征了汉字的发音,处理了汉语中高度普遍的异音现象(同一个字有不同的发音,不同的意思)。在大规模未标记的中文语料库上进行预处理后,所提出的中文Bert模型比具有更少训练步骤的基线模型具有显著的性能提升。该模型在广泛的中文自然语言处理任务上取得了新的SOTA性能,包括机器阅读理解、自然语言推理、文本分类、句子对匹配,以及命名实体识别和分词方面的竞争性能。

方法

image-20210706112746819

拼音EMbedding的获取

image-20210706112811327

采用开源工具,获得具体语境下的音调

融合方式

image-20210706112836461

作者

bd160jbgm

发布于

2021-07-06

更新于

2021-07-06

许可协议