Entity Enhanced BERT Pre-training for Chinese NER

张岳老师的文章，关注如何更充分利用实体信息以增强预训练语言模型在中文NER上的表现（EMNLP 2020）。

Overview

arxiv: https://www.aclweb.org/anthology/2020.emnlp-main.518.pdf
code: 暂无

Background

在中文NER中引入词典已经被证明是一个有效的方法，但是将实体信息融入BERT这类预训练模型的研究还很少。

论文首先基于互信息的计算，用新词发现策略来识别文档中的entity；然后设计了char-entity自注意力机制来捕捉中文字与实体之间的关系，将字符隐层状态和实体向量组合。

Methodology

New-Word Discovery

采用了Bouma（2009）提出的方法，用互信息计算，不予赘述。

Char-Entity-Transformer

经典的Transformer计算Q、K、V三个矩阵

$\{Q^l,K^l,V^l\} = \{h^{l-1}W_q^l,h^{l-1}W_k^l,h^{l-1}W_v^l\} \\ Atten(Q^l,K^l,V^l) = {\rm softmax}(\frac{Q^l {K^l}^T}{\sqrt{d_k}})$

本文也是先对给定的字符序列 ${\mathcal C} = \{c_1,\dots,c_T\}$ ，给定词典 $\mathcal E_{ent}$ ，匹配得到对应的实体序列 $\mathcal E = \{e_1,\dots,e_T\}$ 。

给定 $(l-1)$ 层的隐层状态 $\{h_1^{l-1},\dots,h_T^{l-1}\}$ ，QKV的计算如下

$\begin{align} q_t^l &= h_t^{l-1}W_{h,q}^l; \\ k_t^l &= \begin{cases}{ {h_t^{l-1}}^T W_{h,k}^l}\quad &{\rm if}\space e_t = 0,\\ \frac12({h_t^{l-1}}^T W_{h,k}^l + E_{ent}^T[e_t]W_{e,k}^l)\quad &else; \end{cases} \\ v_t^l &= \begin{cases} {h_t^{l-1}}^T W_{h,v}^l\quad &{\rm if}\space e_t = 0,\\ \frac12({h_t^{l-1}}^T W_{h,v}^l + E_{ent}^T[e_t]W_{e,v}^l)\quad &else; \end{cases} \end{align}$

其中 $E_{ent}$ 表示实体embedding， $W$ 表示可学习的参数。

如果字符没有匹配到实体，那么计算退化为原始的self-attention。

NER任务

针对NER任务，模型使用softmax解码，采用BIO标注方式。

Experiment

论文的实验使用了一个公开数据集CLUENER-2020，和两个自己标注的数据集。

本文还和ERNIE（百度）、Lattice进行了比较，采用的词典和ERNIE一样。