BERT | realLiuSir

BERT

Created 2020-03-25| Updated 2021-02-26|机器学习

Word count:233|Reading time: 1 min

|Post View:

早期词嵌入模型

CBOW和Skip-gram

CBOW在训练过程中把每个词都预测一遍。

BERT在训练过程中作者随机mask 15%的token。

BERT模型

BERT的全称是Bidirectional Encoder Representation from Transformers，即双向Transformer的Encoder，因为decoder是不能获要预测的信息的。模型的主要创新点都在pre-train方法上，即用了Masked LM和Next Sentence Prediction两种方法分别捕捉词语和句子级别的representation

Embedding

这里的Embedding由三种Embedding求和而成：

BERT 的训练

Approach 1: Masked LM

Approach 2: Next Sentence Prediction

同时用方法1和方法2训练效果比较好

BERT 的使用

Single sentence classify ，对【CLS】的输出向量接一个线性分类器

Slot filling，对每一个word的输出向量接一个线性分类器

Natural Language Inference ，对【CLS】的输出向量接一个线性分类器

Extraction-based Question Answering ，对document的输出向量做dot product计算开始坐标和结束坐标

Author: realLiuSir

Link: http://yoursite.com/2020/03/25/BERT/

Copyright Notice: All articles in this blog are licensed under CC BY-NC-SA 4.0 unless stating additionally.

微信
支付寶

Local search

Powered by hexo-generator-search