0%

Entity Enhanced BERT Pre-training for Chinese NER

张岳老师的文章,关注如何更充分利用实体信息以增强预训练语言模型在中文NER上的表现(EMNLP 2020)。

image-20210422192212061

Overview

Background

在中文NER中引入词典已经被证明是一个有效的方法,但是将实体信息融入BERT这类预训练模型的研究还很少。

论文首先基于互信息的计算,用新词发现策略来识别文档中的entity;然后设计了char-entity自注意力机制来捕捉中文字与实体之间的关系,将字符隐层状态和实体向量组合。

Methodology

New-Word Discovery

采用了Bouma(2009)提出的方法,用互信息计算,不予赘述。

Char-Entity-Transformer

经典的Transformer计算Q、K、V三个矩阵

本文也是先对给定的字符序列,给定词典,匹配得到对应的实体序列

给定层的隐层状态,QKV的计算如下

其中表示实体embedding,表示可学习的参数。

如果字符没有匹配到实体,那么计算退化为原始的self-attention。

NER任务

针对NER任务,模型使用softmax解码,采用BIO标注方式。

Experiment

论文的实验使用了一个公开数据集CLUENER-2020,和两个自己标注的数据集。

image-20210422200804396

本文还和ERNIE(百度)、Lattice进行了比较,采用的词典和ERNIE一样。

image-20210422200849220