我们从 ICLR 2021开放投稿的3000篇论文中,粗略 筛选了近100篇与自然语言处理 领域中也许值得一读的论文,供大家查阅。
- 理论、模型与经验性分析:38篇
- 问答与阅读理解:4篇
- 知识图谱 :4篇
- 文本生成 :9篇
- 机器翻译 :7篇
- 对抗攻击:4篇
- 文本分类 :2篇
- 信息抽取 :4篇
- 可解释性:1篇
- 模型压缩与集成:4篇
- 数据增强:2篇
- 向量表示:12篇
- 其他:5篇
注,由于论文过多,故直接使用 谷歌翻译机翻了论文部分摘要作为文章主旨的参考(结果表明,NMT仍然有极大发展空间),对于过于离谱的翻译转为人工校对。之后我们会陆续选取部分文章进行详细介绍,其中的不便还望读者谅解。
一、理论、模型与经验性分析
论文标题:Isotropy in the Contextual Embedding Space: Clusters and Manifolds
论文链接:https://openreview.net/forum?id=xYGNO86OWDH
论文摘要:近年来,诸如BERT和ERNIE的深度 语言模型 的上下文嵌入空间的几何特性引起了相当大的关注。对上下文嵌入的研究表明,强烈的各向异性空间使得大多数矢量都落在一个狭窄的圆锥体中,从而导致较高的余弦相似度。在本文中,我们认为从不同但更具建设性的角度来看,各向同性确实存在于空间中。我们在上下文嵌入空间中识别孤立的簇和低维流形,并介绍工具进行定性和定量分析。
论文标题:Hopfield Networks is All You Need
论文链接:https://openreview.net/forum?id=tL89RnzIiCd
论文摘要:我们介绍了具有连续状态和相应更新规则的现代 Hopfield网络 。新的 Hopfield网络 可以按指数形式(按维度)存储许多模式,一次更新即可 收敛 ,并且检索误差呈指数形式。
论文标题:VECO: Variable Encoder-Decoder Pretraining for Cross-Lingual Understanding and Generation
论文链接:https://openreview.net/forum?id=YjNv-hzM8BE
论文摘要:本文提出可变的编码器-解码器预训练方法,将Transformer的三个主要模块分开,对不同的预训练任务加以组合,然后再对下游任务微调。不但可以节约 参数 ,还能取得较好的效果。
论文标题:AlgebraNets
论文链接:https://openreview.net/forum?id=guEuB3FPcd
论文摘要:常规的 神经网络 由实值加权和激活以及实值算子组成。我们提出了AlgebraNets,这是一种一般范式,可以用其他方式从其他关联代数中替换 权重 和运算符来代替实际价值 权重 和运算符。
论文标题:EarlyBERT: Efficient BERT Training via Early-bird Lottery Tickets
论文链接:https://openreview.net/forum?id=I-VfjSBzi36
论文摘要:在本文中,我们提出了EarlyBERT,这是用于大规模 语言模型 预训练和微调的有效训练框架。EarlyBERT会在早期阶段识别结构化的中奖彩票,然后使用经过修剪的网络进行有效训练。
论文标题:Variational Information Bottleneck for Effective Low-Resource Fine-Tuning
论文链接:https://openreview.net/forum?id=kvhzKz-_DMF
论文摘要:我们建议在对低资源目标任务进行微调时使用变分信息瓶颈(VIB)来抑制不相关的功能,并表明我们的方法成功地减少了 过拟合 。此外,我们表明,我们的VIB模型发现的句子表示形式对 自然语言推理 数据集中的偏倚更为鲁棒,从而获得了对域外数据集的更好概括。
论文标题:Transformers are Deep Infinite-Dimensional Non-Mercer Binary Kernel Machines
论文链接:https://openreview.net/forum?id=AVKFuhH1Fo4
论文摘要:在本文中,我们提出了一个新的视角,以了解Transformer的工作方式。尤其是,我们证明了可以将Transformer操作的核心点积注意力描述为一对Banach空间上的核学习方法。特别是,Transformer的内核具有无限的特征尺寸。在此过程中,我们将标准内核学习问题概括为所谓的“二进制”内核学习问题,其中数据来自两个输入域,并且为每个跨域对定义了一个响应。
论文标题:Pretrain Knowledge-Aware Language Models
论文链接:https://openreview.net/forum?id=OAdGsaptOXy
论文摘要:在本文中,我们将知识意识纳入 语言模型 预训练中,而无需更改Transformer架构,插入明确的知识层或添加语义信息的外部存储。相反,我们只是通过实体扩展的标记器在预训练中向Transformer的输入简单地表示实体的存在。在输出处,还有一个额外的实体预测任务。
论文标题:Structured Prediction as Translation between Augmented Natural Languages
论文链接:https://openreview.net/forum?id=US-TP-xnXI
论文摘要:我们提出了一个新的框架,即增强自然语言之间的翻译(TANL),以解决许多结构化预测语言任务,包括联合实体和 关系提取 , 嵌套 命名实体识别 , 关系分类 ,语义角色标签,事件提取,共指解析和对话状态跟踪。
论文标题:Information-theoretic Vocabularization via Optimal Transport
论文链接:https://openreview.net/forum?id=1fLunL_hDj_
论文摘要:我们发现信息理论功能与NLP任务(例如具有给定词汇的 机器翻译 )的性能之间存在令人兴奋的关系。通过这种观察,我们将找到具有适当大小的最佳令牌词典作为最佳传输问题。然后,我们提出info-VOT,这是一种简单有效的解决方案,无需对下游任务进行全面且昂贵的试用训练。
论文标题:Understanding and Improving Encoder Layer Fusion in Sequence-to-Sequence Learning
论文链接:https://openreview.net/forum?id=n1HD8M6WGn
论文摘要:在本文中,我们的主要贡献是进一步了解EncoderFusion。我们发现编码器嵌入层比其他中间编码器层更重要。此外,最上层的解码器层始终在NLP任务中更加关注编码器嵌入层。基于此观察,我们通过仅融合softmax层的编码器嵌入层,提出了一种简单的融合方法SurfaceFusion。
论文标题:On Position Embeddings in BERT
论文链接:https://openreview.net/forum?id=onxoVA9FxMw
论文摘要:我们提出了在向量空间中捕获单词距离的PE的三个预期特性:平移不变性,单调性和对称性。这些属性可以正式捕获PE的行为,并允许我们以有原则的方式重新解释正弦PE。对七个PE(及其组合)进行分类和跨度预测的经验评估表明,可完全学习的绝对PE在分类中表现更好,而相对PE在跨度预测中表现更好。
论文标题:MVP-BERT: Redesigning Vocabularies for Chinese BERT and Multi-Vocab Pretraining
论文链接:https://openreview.net/forum?id=sxZvLS2ZPfH
论文摘要:我们首先提出一种新颖的方法,借助中文分词(CWS)和子词标记化来形成中文BERT的词汇。然后,我们提出了三种版本的多词汇量预训练(MVP),以提高模型的表达能力。
论文标题:Progressively Stacking 2.0: A multi-stage layerwise training method for BERT training speedup
论文链接:https://openreview.net/forum?id=2LiGI26kRdt
论文摘要:我们提出了一种有效的多阶段分层训练(MSLT)方法,以减少BERT的训练时间。我们将整个训练过程分解为几个阶段。训练从只有几个编码器层的小模型开始,然后我们通过添加新的编码器层来逐渐增加模型的深度。在每个阶段,我们只训练最顶层(在输出层附近)几个新添加的编码器层。该方法可以大大减少训练时间,而不会明显降低性能。
论文标题:Length-Adaptive Transformer: Train Once with Length Drop, Use Anytime with Search
论文链接:https://openreview.net/forum?id=tqc8n6oHCtZ
论文摘要:我们训练一个大型Transformer,称为“长度自适应Transformer”,并将其用于各种推理场景而无需重新训练。为此,我们使用LengthDrop训练Transformer,它随机确定每一层序列的长度。然后,我们使用多目标进化搜索来找到长度配置,该长度配置可在任何给定的计算预算下最大化准确性并最小化计算复杂性。
论文标题:On the Stability of Fine-tuning BERT: Misconceptions, Explanations, and Strong Baselines
论文链接:https://openreview.net/forum?id=nzpLWnVAyah
论文摘要:确定了观察到BERT微调不稳定的两个潜在原因:灾难性的遗忘和微调数据集的小规模。在本文中,我们证明了这两种假设都无法解释微调的不稳定性。我们分析了BERT,RoBERTa和ALBERT,并根据GLUE 基准 对常用数据集进行了微调,并表明观察到的不稳定性是由导致梯度消失的优化困难引起的。此外,我们表明,下游任务性能的剩余差异可以归因于泛化差异,其中具有相同训练损失的微调模型表现出明显不同的测试性能。
论文标题:Learning Better Structured Representations Using Low-rank Adaptive Label Smoothing
论文链接:https://openreview.net/forum?id=5NsEIflpbSv
论文摘要:我们提出了低阶自适应标签平滑(LORAS):一种简单而新颖的方法,用于对学习的软目标进行训练,该方法可以概括标签平滑并适应结构化预测任务中标签空间的潜在结构。具体来说,我们评估了我们针对面向任务的语义解析任务的方法,并表明,与适当的普通标签平滑相比,仅通过使用适当平滑的软目标进行训练,就可以将模型的准确性提高多达2%,并将校准错误减少55%平滑。
论文标题:Multi-Head Attention: Collaborate Instead of Concatenate
论文链接:https://openreview.net/forum?id=bK-rJMKrOsm
论文摘要:注意层广泛用于 自然语言处理 (NLP)中,并开始影响 计算机视觉 体系结构。但是,它们遭受过度 参数 化的困扰。我们提出了一个协作的多头关注层,该层使学习者能够学习共享的预测。我们的方案减少了注意层中的 参数 数量,并且可以用作任何Transformer体系结构中的替代品。
论文标题:Sequence-Level Features: How GRU and LSTM Cells Capture N-grams
论文链接:https://openreview.net/forum?id=Au1gNqq4brw
论文摘要:现代的递归 神经网络 (RNN),如门控递归单元(GRU)和长短期记忆(LSTM),已在涉及顺序数据的实践中证明了令人印象深刻的结果。我们提出了一项研究,通过数学扩展和展开隐藏状态来理解GRU / LSTM单元捕获的基本特征。具体而言,我们表明在某些温和的假设下,Cell的基本成分将由类似于N-gram的序列级特征组成。基于这样的发现,我们还发现,用近似的隐藏状态表示替换标准单元并不一定会降低情感分析和语言建模任务的性能。
论文标题:You Only Sample (Almost) Once: Linear Cost Self-Attention Via Bernoulli Sampling
论文链接:https://openreview.net/forum?id=7K0UUL9y9lE
论文摘要:我们表明,基于局部敏感哈希(LSH)的伯努利抽样注意机制,将二次复杂度降低为线性。我们通过将自我注意力视为与伯努利随机变量相关联的单个标记的总和来绕过二次成本,原则上可以通过单个散列一次对其进行采样(尽管实际上,此数字可能是一个小常数)。这导致一种有效的抽样方案来估计自我注意力,该方案依赖于LSH的特定修改(基于在GPU架构上部署的可行性)。我们在GLUE 基准 上以标准的512序列长度评估了我们提出的算法,并且我们的方法与标准的预训练Transformer相比具有可比甚至更好的性能。为了评估我们的方法是否确实可以处理更长的序列,我们在长序列(4096) 语言模型 预训练上进行了实验,并获得了一致的结果,作为标准的自我注意,同时观察到了相当大的推理速度和内存节省。
论文标题:Representational correlates of hierarchical phrase structure in deep language models
论文链接:https://openreview.net/forum?id=mhEd8uOyNTI
论文摘要:尽管基于Transformer的体系结构的上下文表示为许多NLP任务设置了新的标准,但尚未完全了解其内部工作原理。特别是,尚不清楚这些表示法捕获了句子级语法的哪些方面,也不清楚(如果有的话)它们是如何沿着网络的 堆叠 层构建的。在本文中,我们旨在通过基于输入扰动的通用类分析来解决此类问题。从计算和 认知神经科学 中引入表示不变性的概念,我们执行了一系列旨在测试Transformer表示对句子中几种结构的敏感性的探针。每个探查都涉及交换句子中的单词,并将被干扰的句子中的表示与原始表达进行比较。
论文标题:Why is Attention Not So Interpretable?
论文链接:https://openreview.net/forum?id=pQhnag-dIt
论文摘要:本文从因果效应估计的角度分析了为什么有时注意机制无法提供可解释的结果,并提供了两种方法来提高注意机制的可解释性。
论文标题:Revisiting Few-sample BERT Fine-tuning
论文链接:https://openreview.net/forum?id=cO1IH43yUF
论文摘要:本文是对BERT上下文表示的微调研究,重点是在少数样本情况下通常观察到的不稳定性。我们确定了导致这种不稳定的几个因素:带有偏斜估计的非标准优化方法的普遍使用;BERT网络的重要部分在下游任务中的适用性有限;以及使用预定的少量训练迭代的普遍做法。
论文标题:Later Span Adaptation for Language Understanding
论文链接:https://openreview.net/forum?id=HMEiDPTOTmY
论文摘要:我们提出了一种新颖的方法,该方法将跨度信息组合到微调阶段的PrLM生成的表示中,以提供更好的灵活性。这样,跨度级别文本的建模过程可以更适应于不同的下游任务。详细地说,我们根据预采样字典生成的分段将句子分为几个跨度。基于PrLM提供的子令牌级别表示,我们增强了每个跨度中令牌之间的连接,并获得具有增强的跨度级别信息的表示。
论文标题:DeLighT: Deep and Light-weight Transformer
论文链接:https://openreview.net/forum?id=ujmgfuxSLrO
论文摘要:本文提出DeLight,一种轻巧的深度Transformer,可在标准 机器翻译 和语言建模任务中将 参数 降低或降低2至3倍,从而达到或提高 基准 Transformer的性能。
论文标题:Interpreting Graph Neural Networks for NLP With Differentiable Edge Masking
论文链接:https://openreview.net/forum?id=WznmQa42ZAx
论文摘要:我们介绍了一种事后方法来解释GNN的预测,该方法可以识别不必要的边。给定训练的GNN模型,我们将学习一个简单的分类器,该分类器可针对每一层的每个边预测是否可以丢弃该边。
论文标题:Adaptive Self-training for Neural Sequence Labeling with Few Labels
论文链接:https://openreview.net/forum?id=ARFshOO1Iu
论文摘要:我们开发了自训练和 元学习 技术来解决神经序列标签模型的标签稀缺性挑战。自我训练是从大量未标记数据中学习的有效机制,而 元学习 可帮助对样本进行自适应加权,从而减轻了嘈杂的伪标记的错误传播。
论文标题:Random Feature Attention
论文链接:https://openreview.net/forum?id=QtTKTdVrFBB
论文摘要:我们提出了一种基于随机特征的注意力,该注意力在序列长度上线性扩展,并且在语言建模和 机器翻译 方面与强大的Transformer基线相当。
论文标题:Learning to Disentangle Textual Representations and Attributes via Mutual Information
论文链接:https://openreview.net/forum?id=qJIvFn8sOs
论文摘要:我们调查了学习通过相互信息最小化来解开文本表示形式和属性的问题,并将其应用于公平分类和句子生成。
论文标题:Synthesizer: Rethinking Self-Attention for Transformer Models
论文链接:https://openreview.net/forum?id=H-SPvQtMwm
论文摘要:我们提出合成注意力矩阵,并实现简单,高效和有竞争力的表现。
论文标题:The Lipschitz Constant of Self-Attention
论文链接:https://openreview.net/forum?id=DHSNrGhAY7W
论文摘要:理论研究表明,标准点积的 自注意力 不是Lipschitz,并且提供了基于L2距离的Lipschitz的自我注意的替代表达。
论文标题:K-Adapter: Infusing Knowledge into Pre-Trained Models with Adapters
论文链接:https://openreview.net/forum?id=CLnj31GZ4cI
论文摘要:我们提出K-Adapter,它保持了预先训练模型的原始 参数 不变,并支持持续的知识注入。以RoBERTa为预训练模型,K-Adapter具有用于每种注入的知识的神经适配器,在不同的适配器之间没有信息流,因此以分布式方式有效地训练了不同的适配器。
论文标题:Rethinking Positional Encoding in Language Pre-training
论文链接:https://openreview.net/forum?id=09-528y2Fgf
论文摘要:在这项工作中,我们研究了语言预训练中使用的位置编码方法(例如BERT),并确定了现有公式中的几个问题。我们提出了一种新的位置编码方法,TUPE。在自我注意模块中,TUPE使用不同的 参数 化分别计算单词上下文相关性和位置相关性,然后将它们加在一起。
论文标题:Rethinking Attention with Performers
论文链接:https://openreview.net/forum?id=Ua6zuk0WRH
论文摘要:我们介绍了Performer,仅使用线性(而不是二次)空间和 时间复杂度 ,而无需依赖于诸如稀疏性或低等级的先验条件。为了近似softmax注意力内核,Performer使用一种新颖的通过正正交随机特征方法(FAVOR +)实现的快速注意力,它对于可扩展内核方法可能是独立关注的。
论文标题:Efficiently labelling sequences using semi-supervised active learning
论文链接:https://openreview.net/forum?id=BHBb-QVVkNS
论文摘要:我们提出一种使用 主动学习 的序列标记方法,该方法结合了标记和未标记的数据。我们以半监督的方式训练具有深层非线性潜力的局部上下文 条件随机场 ,将未标记句子的缺失标记视为潜在变量。
论文标题:Taking Notes on the Fly Helps Language Pre-Training
论文链接:https://openreview.net/forum?id=lU5Rs_wCweN
论文摘要:我们采用“动态记录”(TNF),它会在预训练期间即时记录稀有单词,以帮助模型在下次出现时理解它们。具体而言,TNF会维护注释词典,并在句子中出现稀有单词时将稀有单词的上下文信息保存为注释。当在训练过程中再次出现相同的稀有单词时,可以使用事先保存的笔记信息来增强当前句子的语义。
论文标题:Reservoir Transformers
论文链接:https://openreview.net/forum?id=5FRJWsiLRmA
论文摘要:我们证明,即使某些层被随机初始化并且从未更新,Transformer也能获得令人印象深刻的性能。
论文标题:Conditionally Adaptive Multi-Task Learning: Improving Transfer Learning in NLP Using Fewer Parameters & Less Data
论文链接:https://openreview.net/forum?id=de11dbHzAMF
论文摘要:我们提出了一种基于Transformer的新型体系结构,该体系结构由新的条件注意机制以及一组有助于 权重 分配的任务条件模块组成。通过这种构造,我们可以通过保持固定的预训练模型 权重 的一半固定来实现更有效的 参数 共享并减轻遗忘。我们还使用一种新的多任务数据采样策略来减轻跨任务数据不平衡的负面影响。
问答与阅读理解
论文标题:Is Retriever Merely an Approximator of Reader?
论文链接:https://openreview.net/forum?id=dvXFpV6boX
论文摘要:开放域问答(QA)的最新技术依赖于有效的检索器,该检索器可大大减少昂贵阅读器的搜索空间。在社区中,一个相当被忽视的问题是检索者和读者之间的关系,特别是如果检索者的全部目的仅仅是读者的快速近似。我们的经验证据表明答案是否定的,即使仅在准确性方面,阅读器和检索器也是互补的。
论文标题:Cluster-Former: Clustering-based Sparse Transformer for Question Answering
论文链接:https://openreview.net/forum?id=VyENEGiEYAQ
论文摘要:在本文中,我们提出了Cluster-Former,这是一种新颖的基于 聚类 的稀疏Transformer,可在 分块 序列之间进行关注。所提出的框架集中在两种独特的Transformer层类型上:滑动窗口层和Cluster-Former层,它们共同并迭代地编码局部序列信息和全局上下文。这种新设计允许在本地窗口之外进行信息集成,这对于依赖于远程依赖关系的问答(QA)任务特别有用。
论文标题:Open Question Answering over Tables and Text
论文链接:https://openreview.net/forum?id=MmCRswl1UYl
论文摘要:我们提出了通过网络表格和文本回答开放域问题的新任务,并设计了新技术:1)融合检索2)跨块阅读器,以解决新任务带来的挑战。
论文标题:Uncertainty-Based Adaptive Learning for Reading Comprehension
论文链接:https://openreview.net/forum?id=s4D2nnwCcM
论文摘要:我们提出了一种用于阅读理解的基于不确定性的 自适应学习 算法,该算法将数据注释和模型更新交织在一起,以减轻标签的需求。
知识图谱
论文标题:Learning Contextualized Knowledge Graph Structures for Commonsense Reasoning
论文链接:https://openreview.net/forum?id=lJuOUWlAC8i
论文摘要:在本文中,我们提出了一种新的神经符号方法,称为混合 图网络 (HGN),该方法可联合生成新三元组的特征表示(作为对KG中现有边缘的补充),确定三元组与推理环境的相关性,并学习用于对关系信息进行编码的 图形模型 参数 。我们的方法通过过滤对推理过程无用的边来学习紧凑的图结构(包含检索的边和生成的边)。
论文标题:Language Models are Open Knowledge Graphs
论文链接:https://openreview.net/forum?id=aRTRjVPkm-
论文摘要:本文介绍了由预先训练的 语言模型 (例如BERT, GPT-2 )构建的知识图(KGs),无需人工监督。在本文中,我们提出了一种无监督的方法来将 语言模型 中的学习知识作为KG进行回忆。
论文标题:Interpreting Knowledge Graph Relation Representation from Word Embeddings
论文链接:https://openreview.net/forum?id=gLWj29369lW
论文摘要:基于对 词嵌入 的最新理论理解,我们将知识图关系分为三种类型,每种类型都推导了它们表示的明确要求。我们表明,关系表示的经验性质和领先的知识图表示方法的相对性能通过我们的分析是合理的。
论文标题:QuatRE: Relation-Aware Quaternions for Knowledge Graph Embeddings
论文链接:https://openreview.net/forum?id=hga0T0Qcli5
论文摘要:我们提出了一种有效的嵌入模型QuatRE,以学习知识图中实体和关系的四元数嵌入。QuatRE的目的是在四元数空间内具有汉密尔顿积的关系下增强头和尾实体之间的相关性。QuatRE通过进一步将每个关系与两个关系 感知 的四元数向量(分别用于旋转头和尾实体的四元数嵌入)相关联来实现此目标。
论文标题:JAKET: Joint Pre-training of Knowledge Graph and Language Understanding
论文链接:https://openreview.net/forum?id=SOVSJZ9PTO7
论文摘要:一个联合的预训练框架,可以同时对知识图和文本进行建模,并且可以在微调期间轻松适应新领域中看不见的知识图。
文本生成
论文标题:CoCon: A Self-Supervised Approach for Controlled Text Generation
论文链接:https://openreview.net/forum?id=VD_ozqvBy4W
论文摘要:我们使用Content-Conditioner(CoCon)来以细粒度级别控制具有内容输入的LM的输出文本。在我们的自我监督方法中,CoCon块学习通过以LM保留的内容输入为条件来帮助LM完成部分可观察的文本序列。
论文标题:GeDi: Generative Discriminator Guided Sequence Generation
论文链接:https://openreview.net/forum?id=TJSOfuZEd1B
论文摘要:我们使用GeDi作为将较小的LM用作生成鉴别符的有效方法,以指导大型LM的生成,使其更安全,更可控。GeDi通过对两个类条件分布进行归一化,通过贝叶斯规则计算所有可能的下一个标记的分类概率,从而指导每一步的生成;一个以期望的属性或控制代码为条件,而另一个以不期望的属性或反控制代码为条件。
论文标题:A Distributional Approach to Controlled Text Generation
论文链接:https://openreview.net/forum?id=jWkw45-9AbL
论文摘要:我们提出了一种分布式方法来解决从预训练的 语言模型 (LM)生成受控文本的问题。这种观点允许在单个正式框架中定义目标LM的“逐点”约束和“分布”约束,同时将初始LM的KL差异最小化分配。然后,将最佳目标分布唯一确定为明确的EBM(基于能量的模型)表示。从最佳表示中,我们然后通过策略梯度的自适应分布变量训练目标受控自回归LM。
论文标题:Resurrecting Submodularity for Neural Text Generation
论文链接:https://openreview.net/forum?id=FVhZIBWqykk
论文摘要:我们定义了具有亚模块功能的一类新颖的 注意力机制 ,进而证明了有效神经覆盖的亚模块性。所得的注意模块提供了一种体系结构简单且凭经验有效的方法,可改善神经 文本生成 的覆盖范围。
论文标题:Straight to the Gradient: Learning to Use Novel Tokens for Neural Text Generation
论文链接:https://openreview.net/forum?id=JAlqRs9duhz
论文摘要:我们基于梯度分析提出了对MLE的简单修改,并在不同任务中对Token级退化进行了重大改进。
论文标题:A Text GAN for Language Generation with Non-Autoregressive Generator
论文链接:https://openreview.net/forum?id=wOI9hqkvu_
论文摘要:我们提出了带有非自回归生成器的文本GAN,可以使用基于梯度的方法从头开始对其进行有效训练,并将其应用于需要潜在变量的 文本生成 应用程序。
论文标题:Pre-training Text-to-Text Transformers to Write and Reason with Concepts
论文链接:https://openreview.net/forum?id=3k20LAiHYL2
论文摘要:为了增强常识性的预训练 语言模型 ,我们提出了生成性和对比性目标,作为一般预训练和下游特定任务的微调之间的中间自我监督式预训练任务。我们还提出了一个联合训练框架,以统一生成目标和对比目标,从而使这些目标更加有效。
论文标题:TextSETTR: Label-Free Text Style Extraction and Tunable Targeted Restyling
论文链接:https://openreview.net/forum?id=T6RYeudzf1
论文摘要:我们提出了一种在完全没有标签的情况下训练样式转移模型的技术,并显示了生成的模型可以在测试时控制许多不同的样式属性(情感,方言,形式等)。
论文标题:Contrastive Learning with Adversarial Perturbations for Conditional Text Generation
论文链接:https://openreview.net/forum?id=Wga_hrCa3P3
论文摘要:我们通过将正对与负对进行对比来解决条件 文本生成 问题,从而使模型暴露于输入的各种有效或不正确的扰动下,以提高通用性。我们通过还在输入序列中添加较小的扰动以最小化其条件可能性来生成否定示例,并通过在施加较大的扰动的同时将其强制具有较高的条件可能性来生成正示例。
上一篇