在今年3月，哈工大讯飞联合实验室推出了中文ELECTRA预训练模型，并将相关资源进行开源，目前在GitHub上已获得580个star。本次更新中，我们将预训练语料从原有的约20G提升至180G，利用接近9倍大小的数据集。在阅读理解、自然语言推断、句对分类等中文自然语言处理任务中， ELECTRA-180G相比原版ELECTRA获得了显著性能提升。欢迎各位读者下载试用相关模型。

项目地址：http://github.com/ymcui/Chinese-ELECTRA

ELECTRA简介

ELECTRA提出了一套新的预训练框架，其中包含两个部分：Generator和Discriminator。

Generator : 一个小的MLM，在[MASK]的位置预测原来的词。Generator将用来把输入文本做部分词的替换。
Discriminator: 判断输入句子中的每个词是否被替换，即使用Replaced Token Detection (RTD)预训练任务，取代了BERT原始的Masked Language Model (MLM)。需要注意的是这里并没有使用Next Sentence Prediction (NSP)任务。

在预训练阶段结束之后，我们只使用Discriminator作为下游任务精调的基模型。

更详细的技术内容请查阅ELECTRA论文：ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators（https://openreview.net/pdf?id=r1xMH1BtvB ）

同时，也可通过阅读我们的讲义《Revisiting Pre-trained Models for Chinese Natural Language Processing》了解更多预训练语言模型相关前沿进展（公众号后台回复 NLPCC2020即可下载）。

中文ELECTRA

除了使用与 RoBERTa-wwm-ext系列模型一致的扩展训练数据（约20G）之外，我们从CommonCrawl中获取了更大规模中文文本数据，并经过数据清洗等操作，进一步将预训练语料规模扩充到180G。本次发布以下四个模型：

ELECTRA-180g-large, Chinese: 24-layer, 1024-hidden, 16-heads, 324M parameters
ELECTRA-180g-base, Chinese: 12-layer, 768-hidden, 12-heads, 102M parameters
ELECTRA -180g-small-ex, Chinese : 24-layer, 256-hidden, 4-heads, 25M parameters
ELECTRA -180g-small, Chinese : 12-layer, 256-hidden, 4-heads, 12M parameters