avatar

Catalog
BERT

早期词嵌入模型

CBOW和Skip-gram

微信截图_20200325213702

CBOW在训练过程中把每个词都预测一遍。

BERT在训练过程中作者随机mask 15%的token。

BERT模型

BERT的全称是Bidirectional Encoder Representation from Transformers,即双向Transformer的Encoder,因为decoder是不能获要预测的信息的。模型的主要创新点都在pre-train方法上,即用了Masked LM和Next Sentence Prediction两种方法分别捕捉词语和句子级别的representation

img

Embedding

这里的Embedding由三种Embedding求和而成:

微信截图_20200325190512

BERT 的训练

Approach 1: Masked LM

微信截图_20200325190650

Approach 2: Next Sentence Prediction

微信截图_20200325190725

同时用方法1和方法2训练效果比较好

BERT 的使用

  • Single sentence classify ,对【CLS】的输出向量接一个线性分类器

微信截图_20200325190958

  • Slot filling,对每一个word的输出向量接一个线性分类器

微信截图_20200325191022

  • Natural Language Inference ,对【CLS】的输出向量接一个线性分类器

微信截图_20200325191038

  • Extraction-based Question Answering ,对document的输出向量做dot product计算开始坐标和结束坐标

微信截图_20200325191118

微信截图_20200325191134

Author: realLiuSir
Link: http://yoursite.com/2020/03/25/BERT/
Copyright Notice: All articles in this blog are licensed under CC BY-NC-SA 4.0 unless stating additionally.
Donate
  • 微信
    微信
  • 支付寶
    支付寶