论文大合集,一篇文章就搞定。
属性:175B 参数,96 层,12288 嵌入维度,96 个注意力头 论文地址:https://arxiv.org/pdf/2005.14165.pdf 发布详情 Open AI 发布于 2020 年 5 月
它在一个 300B token 的数据集上进行训练。该数据集主要由过滤后的 Common Crawl 以及一些书籍、网络文本和维基百科构成; 使用了 BPE tokenizer(与 GPT-2 相同); 2048 上下文长度; 交替使用密集和稀疏注意力层; 在最初的 375M toks 中,学习率升至 0.6 × 10^-4,260B toks 后余弦衰减至 10%; 在前 12B 个 token 中,批大小从 32k toks 上升到 3.2M toks; 4x MLP 投影率,如 2017 年 Transformer 论文所示; 50k 词汇表(vocab size)。
在论文记录超参数的表 2.1 中有一个可能的拼写错误,其中 GPT-3 13B 被记作为具有 5140 的嵌入维度,这里应该是 5120。
报告地址:https://arxiv.org/pdf/2303.08774.pdf 发布详情:Open AI 2022 年 8 月对其完成预训练,发布于 2023 年 3 月。
属性:280B 参数,260B 非嵌入参数,80 层,16384 嵌入维度,128 个注意力头 论文地址:https://arxiv.org/pdf/2112.11446.pdf 发布详情:DeepMind 在 2020 年底对其进行训练,发布于 2021 年 12 月。
属性:41B 参数,8 个编码器层,56 个解码器层,6144 嵌入维度 论文地址:https://arxiv.org/pdf/2203.07814.pdf 发布详情:DeepMind 发布于 2022 年 2 月。
属性:7B 参数 论文地址:https://arxiv.org/pdf/2112.04426.pdf 发布详情:DeepMind 发布于 2022 年 2 月。
属性:架构未知 文档地址 https://platform.openai.com/docs/guides/gpt 发布详情:OpenAI 发布于 2022 年 3 月。
属性:70B 参数,80 层,8192 嵌入维度,64 个注意力头 论文地址:https://arxiv.org/pdf/2203.15556.pdf 发布详情:DeepMind 发布于 2022 年 3 月。
属性:80B 参数 论文地址 https://arxiv.org/pdf/2204.14198.pdf 发布详情:DeepMind 发布于 2022 年 4 月。
属性:1.18B 参数 论文地址:https://arxiv.org/pdf/2205.06175.pdf 发布详情:发布于 2022 年 5 月。
属性:52B 参数,64 层,8192 嵌入维度 论文地址:https://arxiv.org/pdf/2112.00861.pdf 发布详情:Anthropic 发布于 2021 年 12 月。
属性:540B 参数,118 层,18432 嵌入维度,48 个注意力头 论文地址:https://arxiv.org/pdf/2204.02311.pdf 发布详情:Google 发布于 2022 年 4 月。
属性:20B 参数 论文地址:https://arxiv.org/pdf/2204.06745.pdf 项目地址:https://github.com/EleutherAI/gpt-neox 发布详情:Eleuther AI 发布于 2022 年 2 月。
属性:6.7B 参数 项目地址:https://github.com/kingoflolz/mesh-transformer-jax/#gpt-j-6b 发布详情:Eleuther AI 发布于 2021 年 7 月。
属性:1.2T 参数 论文地址:https://arxiv.org/pdf/2112.06905.pdf 发布详情:Google 发布于 2021 年 12 月。
属性:137B 参数,64 层,8192 嵌入维度,128 个注意力头 论文地址:https://arxiv.org/pdf/2201.08239.pdf 发布详情:Google 在 I/O 上演示于 2021 年 5 月,论文发布于 2022 年 1 月。
属性:1T 参数 论文地址:https://arxiv.org/pdf/2101.03961.pdf 发布详情:Google 发布于 2022 年 6 月。
属性:176B 参数,70 层,14336 嵌入维度,112 个注意力头 论文地址:https://arxiv.org/pdf/2211.05100.pdf 发布详情:HuggingFace 发布于 2022 年 7 月。
属性:120B 参数 论文地址:https://arxiv.org/pdf/2211.09085.pdf 发布详情:Meta 发布于 2022 年 11 月。
属性:65B 参数 论文地址:https://arxiv.org/pdf/2302.13971.pdf 发布详情:Meta 发布于 2023 年 2 月。
属性:175B 参数,与 GPT-3 相同的架构 论文地址:https://arxiv.org/pdf/2205.01068.pdf 项目地址:https://github.com/facebookresearch/metaseq/blob/main/projects/OPT/chronicles/OPT175B_Logbook.pdf 发布详情:Meta 发布于 2022 年 5 月。
属性:130B 参数 论文地址:https://arxiv.org/pdf/2210.02414.pdf 发布详情:清华大学发布于 2022 年 10 月。
2017 年关于 LSTM 的 MoE 论文 https://arxiv.org/abs/1701.06538 面向 MoE 的 Deepmind Scaling Laws 论文 https://arxiv.org/pdf/2202.01169.pdf 训练 1.1T 参数 MoE 的 Meta 论文 :https://arxiv.org/pdf/2112.10684.pdf
https://arxiv.org/pdf/2202.08906.pdf https://arxiv.org/pdf/2202.09368.pdf https://arxiv.org/pdf/2205.10937.pdf https://arxiv.org/pdf/2202.08906.pdf https://openreview.net/pdf?id=23ZjUGpjcc
论文地址:https://arxiv.org/pdf/2104.09864.pdf 相关 Blog 文章:https://blog.eleuther.ai/rotary-embeddings/
BPE 项目地址:https://huggingface.co/learn/nlp-course/chapter6/5?fw=pt SentencePiece 编码器项目地址:https://github.com/google/sentencepiece
Chinchilla 论文:https://arxiv.org/pdf/2203.15556.pdf Scalling Laws 论文 https://arxiv.org/pdf/2001.08361.pdf Jane Street 的有关理解批大小的博客文章:https://blog.janestreet.com/does-batch-size-matter/
DeepMind 论文:https://arxiv.org/pdf/2202.08137.pdf Meta 的 Toolformer:https://arxiv.org/pdf/2302.04761.pdf
GPT-2 论文(2018):https://d4mucfpksywv.cloudfront.net/better-language-models/language_models_are_unsupervised_multitask_learners.pdf 扩展定律论文:https://arxiv.org/pdf/2001.08361.pdf Transformer 论文 2017:https://arxiv.org/pdf/1706.03762.pdf Turing NLG 论文:https://arxiv.org/pdf/2201.11990.pdf Jurassic J-1 Jumbo 论文:https://uploads-ssl.webflow.com/60fd4503684b466578c0d307/61138924626a6981ee09caf6_jurassic_tech_paper.pdf PaLI 论文:https://arxiv.org/pdf/2209.06794.pdf post-Chinchilla 论文:https://arxiv.org/pdf/2207.05221.pdf 有关道德自我纠正的论文:https://arxiv.org/pdf/2302.07459.pdf 近端策略优化论文:https://arxiv.org/pdf/1707.06347.pdf Deepmind 的 Sparrow 论文:https://arxiv.org/pdf/2209.14375.pdf WebGPT 论文:https://arxiv.org/pdf/2112.09332.pdf GopherCite 论文:https://arxiv.org/pdf/2203.11147.pdf