在
机器学习
领域,普通的基于学习的模型可以通过大量的数据来训练得到模型
参数
,并在某种特定任务上达到很不错的效果。但是这种学习方法限制了模型在很多应用场景下的可行性:在具体的现实情况中,大量数据的获取通常是有难度的,
小样本学习
是
机器学习
领域目前正在研究的问题之一;另外,模型在训练过程中只接触了某一特定任务相关的数据样本,在面对新任务时,其适应能力和泛化能力较弱。
反观人类的学习方法,不仅仅是学会了一样任务,更重要的是具备学习能力,能够利用以往学习到的知识来指导学习新的任务。如何设计能够通过少量样本的训练来适应新任务的学习模型,是
元学习
解决的目标问题,实现的方式包括[1]:根据模型评估指标(如模型预测的精确度)学习一种
映射
关系函数(如排序),基于新任务的表示,找到对应的最优模型
参数
;学习任务层面的知识,而不仅仅是任务中的具体内容,如任务的分布、不同任务的特征表示;学习一个基模型,这个基模型的
参数
是基于以往多种任务的各个特定模型而得到的,等等。
图 1:什么是元学习
(图源:http://speech.ee.ntu.edu.tw/~tlkagk/courses/ML_2019/Lecture/Meta1%20(v6).pdf)
下面从
元学习
的工程优化、解决局部最优和
过拟合
问题、模型解释性等方面详细解读和分析四篇论文。
一、"TaskNorm: Rethinking Batch Normalization for Meta-Learning"
本文是发表于 ICML 2020 中的一篇文章[2],是剑桥大学、Invenia 实验室和微软研究院学者共同合作的研究成果,提出了一种适用于
元学习
在模型训练时的数据批量标准化方法。
在
深度学习
中网络模型的训练通常基于
梯度下降
法,与模型学习效果相关的因素包括了学习步长(
学习率
)、网络初始化
参数
,并且当涉及深层网络训练时,还需要考虑梯度消失的问题。标准化层(normalization layer,NL)的提出,使得增加了标准化层的网络在训练时,能够使用更高的
学习率
,并且能够降低网络对于初始
参数
的敏感度,对于深层网络的训练更加重要。NL 的一般表示为:
其中,γ和β为学习的
参数
,μ和σ是标准化的统计量,a_n 和 a’_n 是输入和标准化后的输出。
图 1.1:元学习
的训练集。这是图片分类的例子,在不同 episode 中,由不同的子类构成不同的分类任务;在相同的 episode 中,支持集和查询
集包含了相同的子类。来自:https://www.jiqizhixin.com/articles/2019-07-01-8
元学习
的训练数据集包括了 context set Dτ(也称为 support set,支持集)和 target set Tτ(也称为 query set,
查询
集),如图 1.1 所示。利用这个数据集进行两个阶段的训练:在内层(inner loop)阶段,使用 context set 来更新
参数
θ,得到特定任务的
参数
ψ;在外层(outer loop)阶段(fφ表示由θ生成ψ的一个过程,可能会引入额外的
参数
φ),对 target set 中的 input 进行预测,并得到目标
损失函数
:
元学习
中的分层框架(inner loop 和 outer loop 两层更新,如图 1.2 所示),可能会使得传统的批标准化方式(batch normalization,BN)失效:BN 的使用具有一定的前提条件,
独立同分布
iid 条件,而
元学习
可能不满足这个条件,如果直接使用 BN 方法在
元学习
的网络模型中引入标准化层,可能会导致不理想的元模型效果。
作者提出了一种适用于
元学习
的标准化方式 --- 任务标准化(task normalization,TaskNorm),它能够提升模型训练的速率和稳定性,并且能够保持理想的测试效果;另外,它适用于不同大小的 context set,并没有受到很大的影响;而且这种标准化方式是非直推式的,因此在测试的时候能够适用于更多的情景(即更多样的
图像分类
任务)。在具体展开介绍 TaskNorm 之前,作者先对
元学习
的推理方式和几种常见的标准化方法进行简单介绍,并且说明了在
元学习
中对应不同的标准化方法的统计量μ和σ的计算和使用方式。
对于
元学习
,作者讨论了两种方式:直推学习和非直推学习。非直推学习的元测试(meta-test)阶段,在对测试集(和训练集类似,也包括了 context set 和 target set)中的单个样本进行类别预测时,仅仅使用 context set 以及输入的观测值。直推学习的元测试阶段,对单个样本进行预测时,不仅需要 context set 和观测值,还需要测试集中其他样本的观测值。作者认为,
元学习
中的标准化层需要是 * 非直推式 * 的,因为对于直推学习,作者认为它的两个问题:
1. 对 target set 的分布敏感。在 outer loop 时,需要用到 target set 的其他样本,即当前样本的预测输出还与其他样本的输入相关,因此这种方式相比于非直推学习的泛化性更弱。如果在元测试中使用的 target set 样本的类别平衡情况和训练时有差别,那么模型在测试时的分类效果可能并不会很好。
2. 直推学习利用到了更多的信息(相当于需要依赖的信息更多),因此如果将两种方法直接进行比较是不公平的。
批标准化(batch normalization,BN)。BN 在训练阶段和测试阶段的使用模式是不一样的。在元训练(meta-training)阶段,均值和方差的计算如下所示:
在 BN 中,输入的通道数不变,对每个通道、使用整个 batch 进行变换,这种标准化的方式没有涉及不同通道之间的数据交换。更直观一点,数据集输入的维度表示为 < B,C,W,H>,那么标准化计算量μ和σ的维度表示为 <1,C,1,1>。使用所有 batch 计算统计量有一个前提,就是假设了 batch 中的数据服从
独立同分布
。在测试阶段,使用的均值和方差是训练集所有数据的均值和方差。
在
元学习
网络中直接使用批标准化(Conventional Usage of Batch Normalization,CBN),会有两个重要的问题:(1)在元测试阶段,使用的是根据元训练阶段数据集计算得到的μ和σ,可以认为这两个统计量是和元模型等效的
参数
。然而,训练时的数据集包括了所有不同的任务,
独立同分布
的条件只是在相同任务的数据之间满足、在不同任务之间不一定满足。作者将 CBN 应用在 MAML 方法 [3] 中,实验结果表明了该方法在预测任务上表现并不好。(2)当训练过程中使用的 batch-size 较小,得到的统计量可能并不准确时,模型的效果也会受到影响。
图 1.3:批标准化(BN),元学习
训练和测试过程中直接使用 BN 的方式。图源:[2]
基于实例的标准化(Instance-based Normalization)。基于实例的标准化方式是非直推式的,统计量只根据当前实例(如单张图片)来计算μ和σ,并且
不依赖于 context set 数据集的大小。
1. 实例标准化(instance normalization,IN)。针对单张图片的 (H,W) 两个维度计算统计量(即每一张图只对 H 和 W 维度进行归一化),每一张图都有对应的统计量。该计算方式在元训练阶段(使用训练集)和元测试阶段(使用测试集)是一样的。
图 1.4:实例标准化(IN),元学习
中 context set 和 target set 使用 IN 的方式。图源[2]
2. 层标准化(layer normalization,LN)。LN 针对图片单独进行变换,并考虑到了多个通道的维度。该计算方式在元训练阶段(使用训练集)和元测试阶段(使用测试集)是一样的。作者在后续提供的实验结果中,指出 LN 相比于其他标准化方式,在训练效率方面的表现较不足。
图 1.5:层标准化(LN),元学习
中 context set 和 target set 使用 LN 的方式。图源:[2]
直推批标准化(transductive batch normalization,TBN)。相比于 CBN,TBN 的标准化方式在元测试阶段,并不是使用元训练阶段数据集的统计量,而是使用测试数据集(包括 context-set 或者是 target-set)来计算μ和σ。另外,TBN 会根据不同的任务分别计算各自的统计量。
虽然这种方法能够获得更好的效果,但是在元测试时,对于 target-set 的标准化处理使用了 target-set 全局的统计量,相当于测试的数据之间是存在某种信息交流和利用的,给了更多的先验信息,提升测试的
准确率
。这种方式在信息利用方面和非直推学习方式并不是对等的,因此不能直接比较 TBN 和其他的非直推方式。
图 1.6:直推式批标准化(TBN)。图源:[2]
1.2 任务标准化(Task Normalization, TASKNORM)
本质上,找到适用于
元学习
的标准化方法,
关键在于找到合适的统计量μ和σ。根据标准化处理对于数据的
独立同分布
条件要求,对于
元学习
来说, μ和σ应该是
任务级别的统计量,在一定程度上是融入任务模型
参数
ψ中。ψ是元模型通过适应 context set 而得到的任务模型的
参数
,因此在任务模型的推理阶段,用到的统计量μ和σ也应该能够从 context set 计算得到。
结合上述
元学习
对于标准化统计量的要求,作者首先提出了一种元批量标准化方法( meta-batch normalization,MetaBN)。
对于每个任务,在 context set 中计算各自的均值和方差,
这个统计量共用于 context set 和 target set;在元训练阶段和元测试阶段,是分别根据训练集中的 context set 和测试集中的 target set 得到各阶段的标准化统计量。但是,这种标准化方法仍然会受到 context set 大小的影响:当 context set 的 batch size 较小时,统计量的准确度不够高,会影响模型的预测效果。
图 1.7:MetaBN 方法和 TaskNorm 方法(包括 TaskNorm-L 和 TaskNorm-I)。图源:[2]
进一步地,作者保留了 MetaBN 的优点,结合基于实例的标准化方法不依赖数据集大小的特点,提出了本文的核心内容:任务标准化(TASKNORM)。TASKNORM 方法是在 MetaBN 的基础上,结合了 LN 或者是 IN,可以具体分为 TaskNorm-L 以及 TaskNorm-I 两种标准化方法:元训练(元测试)阶段,使用训练集(测试集)的 context set 得到统计量,context set 和 target set 都使用该统计量以及各自的 LN 或者 IN 的加权和,得到最终用于标准化的统计量,其中两部分统计量的
权重
由超
参数
α控制。此时的μ和σ的计算由下式得到:
其中,μ_{BN}和σ^2_{BN}是根据 context set 计算的统计量,μ+ 和σ+ 是根据层标准化(LN)或者是实例标准化(IN)得到的非直推式的统计量。这种结合方式的出发点是 * 解决使用少样本学习时存在的样本数量相关问题 *:当 context set 的样本量很少时,仅根据该数量集得到的统计量可能会得到关于该任务的不准确的数据;当结合其他统计量时,有助于提升训练效率以及模型的预测效果。
作者将
权重
α定义为一个
参数
化的变量,它和 context set 大小具有线性关系,表示为:α=sigmoid(scale|Dt| + offset)。其中 Dt 为 context set 元素个数,scale 和 offset 在元训练阶段是可学习的。α和 support set 大小之间存在线性关系式,表示为:α=sigmoid(scale|Dt| + offset)。其中 Dt 为 context set 的大小,scale 和 offset 是在元训练时学习得到的。
作者分别在小规模数据集和大规模数据集上进行少样本(few-shot)分类任务,对比几种标准化方法,验证本文提出的几个猜想:1)
元学习
对于标准化方式是比较敏感的;2)直推批标准化(TBN)比非直推批标准化的效果普遍要好;3)考虑了
元学习
数据集特性的方法如 TaskNorm,MetaBN 以及 RN 的效果,会比 CBN,BRN(batch renormalization),IN,LN 等没有考虑
元学习
数据特性的方法要好。在实验中,作者关注的指标包括模型预测的准确度和训练效率。
表 1.1:基于小数据集(mini imagenet 和 omniglot)的分类实验,此时仅考虑固定大小的 context set 和 target set。来自:[2]
表 1.2:基于大数据集 meta-dataset(包含了 13 个图像分类
的数据集)的分类实验。来自:[2]
图 1.8:不同标准化方法得到的模型准确度和训练过程的对比图。图源:[2]
本文提出了一种适用于
元学习
的标准化方法 TASKNORM,基于传统批标准化方法对统计量的计算进行改进。在计算用于数据标准化的统计量均值μ和方差σ^2 时,该方法考虑了任务内数据的
独立同分布
、任务间的数据不满足
独立同分布
条件,context set 大小的影响,以及考虑非直推式的学习方式,从而使得
元学习
模型能够应用在更多的场景。通过大量的对比实验,验证了使用 TASKNORM 方法能够提升
元学习
模型的训练效率和预测效果。
二、 "Meta-Learning with Warped Gradient Descent" (ICLR2020)
核心:解决基于梯度的
元学习
方法的
参数
局部最优问题
本文是发表于 ICLR 2020 中的一篇满分论文[4],由曼彻斯特大学、Alan 图灵研究机构和
DeepMind
的研究员提出了
元学习
中的梯度预处理计算方法。
在
元学习
领域有一个重要的问题,是学会一种更新规则,能够快速适应新的任务。处理这个问题的方式通常有两种:训练网络来产生更新(学习
更新方式);或者是学习一个比较好的初始化模型或者是比例因子,应用于基于梯度更新的学习方法(学习
和梯度更新相关的因素)。前者容易导致不
收敛
的效果,后者在少样本(few-shot 任务中的适应效果可能不太好。
作者结合前面说的两种方式,提出一种弯曲
梯度下降
(warped gradient descent)的方法,它主要学习一个
参数
化预处理矩阵,该矩阵是通过在 task-learner 网络模型的各层之间交叉放置非线性激活层(即弯曲层,warped layers)而产生。在网络训练时,这些 warp 层提供了一种更新方式,而它的
参数
是 meta-learned,在模型训练过程中是不经过梯度回传的。
为了验证这种梯度更新方式的有效性,作者还将这种弯曲梯度方法应用在少样本学习,标准的有
监督学习
,持续学习和
强化学习
等多种设定下进行实验。
在基于梯度更新的
元学习
中,task-learner 元
参数
的更新规则表示为 U(θ; ξ):= θ-α∇L(θ),初始
参数
θ_0 的
元学习
过程可表示为:
这类方法由于依赖于梯度更新的轨迹,会存在一些问题:梯度的计算会涉及到较大的计算量;容易受到梯度爆炸或者是梯度消失情况的影响;置信度分配问题。将
损失函数
L 抽象成一个曲面,该曲面的情况会影响
参数
调整的效果,并且此时的
参数
空间不一定是合理的、不一定适用于不同任务的空间。
针对这几个问题,作者首先了介绍了一种结合预处理的梯度更新通用规则,表示为:
其中,P 表示一个用于预处理梯度的曲面。为了更好地拆分预处理模块的
参数
和 task-learner 的
参数
,作者使用了一种更为灵活的结构:在多层网络模型中插入全局
参数
化的 warp 层。最为简单的一种插入方式表示为:
h 是网络的隐藏层,w 是插入的 warp 层。在梯度回传时,对于 warp 层使用的是 Jacobian 矩阵(Dx 和 Dθ)来计算:
如图 2.1 所示,是 warp 层在 task-learner 中的使用和计算流程。对于 task learner f(x),隐藏层之间(h1 和 h2)嵌入 warp 层(ω1 和ω2):在前向计算时,warp 层相当于激活层;在任务适应阶段(task adaptation)的后向回传中,warp 层通过 Dω来提供梯度。这就是本文提出的用于网络
参数
更新的 WarpGrad 方法。
图 2.1:warp 层及 WarpGrad 计算的示意图。图源:[4]
通过曲面的图示来更形象地展示 WarpGrad 起到的作用,如图 2.2 所示。在理想的 W 空间曲面,能够产生梯度上的预处理,找出
梯度下降
的最大方向。
图 2.2:上一行表示 WarpGrad 学习到的元几何(meta-geometry)P 曲面;下一行表示不同任务的损失函数
W 曲面,其中黑线是普通梯度下降
的方向,紫色是利用元几何得到的梯度下降
的方向。图源:[4]
考虑到 warp 层具有几何曲面的表示意义,作者提出 warp 层实际上是近似一个矩阵 G,该矩阵是一个正定的矩阵向量,用于度量流形的曲率。
Ω表示 warp-layers 起到的作用,它相当于通过重
参数
化(ω)来近似于最快的
梯度下降
方向:
其中,γ=Ω(θ; φ)表示从 P 空间
映射
到 W 空间的
映射
参数
,并且
P 空间的
参数
梯度和 W 空间的
参数
梯度之间的转换关系如图 2.3 所示:
图 2.3:P 空间的θ参数
梯度等价于 W 空间的γ参数
梯度。图源:[4]
Warp 层
参数
控制了理想曲面的生成,本质上控制了 task learner 的
收敛
目标。因此,为了积累所有任务的信息帮助提升任务适应的过程,warp 层
参数
是通过
元学习
来训练得到的,
目标函数
表示为:
作者定义了一个高层的任务τ=(h, L_{meta}, L_{task}),L_{meta}作为元训练的目标
损失函数
,用于 warp
参数
的适应学习;L_{task}作为任务适应的
目标函数
,用于θ
参数
的适应学习。
上式对于φ的学习,依赖于 L-task,会涉及到二阶梯度的计算。作者进一步做梯度截断(stop gradient),使得φ的更新只涉及一阶梯度。
图 2.4:warpgrad 应用于在线元学习
和离线元学习
的算法流程。图源:[4]
在实验部分,作者在
元学习
方法 MAML[3]和 Leap[5]方法中引入 WarpGrad 的更新方式,在两个数据集(miniImageNet 和 tieredImageNet)上做少样本(few-shot)学习和多样本(multi-shot)学习,使用了 WarpGrad 方法的
元学习
模型能够超过普通
元学习
模型在分类任务上的
准确率
。
图 2.5:使用 warpgrad 方法进行少样本学习和多样本学习的对比实验。图源:[4]
作者还验证了 WarpGrad 方法对模型在不同任务上的泛化能力的作用。如图 2.6 所示,在不同任务数量的实验中,Warp-Leap 模型的测试
准确率
明显高于其他几种
基准
方法。
图 2.6:对比不同方法在不同任务数量实验中的准确率
。图源:[4]
本文提出了一种更为泛化的基于梯度的
元学习
方法 WarpGrad,在网络中引入 warp 层用于预处理原始梯度,该方法的特点包括:(1)WarpGrad 方法本质上是一种基于梯度的更新方式,它的创新之处在于对梯度进行了预处理,所以它也具有
梯度下降
法的特性,能够保证训练模型的
收敛
;(2)warp 层构造了梯度预处理的分布,而这个分布所具有的几何曲面能够从任务学习者中分离出来;(3)warp 层的
参数
是通过任务和对应轨迹来
元学习
得到的,根据局部的信息来获得任务分布相关的属性;(4)相比于用预处理矩阵来直接对梯度进行处理,warp 层在网络模型中同时参与了前向计算和后向梯度回传,是一种更为有效的学习方法。
三、"Meta-Learning without Memorization"
本文是由 Google brain 团队和 UT Austin 学者发表于 ICLR 2020 中的一篇文章[6],它探讨了
元学习
模型的记忆问题并提出解决方法。
在分类任务中,当图片和类别标签并不是互斥的(mutually-exclusive)时(如在分类任务 1 中,狗的类别标签是 2;在分类任务 3 中,狗的类别标签仍然是 2),分类模型做的事情其实是直接将类别标签和图片中的数据特征对应起来。此时,训练得到元模型可能 * 无法 * 很好地应用在新的分类任务上:在训练阶段,模型不需要适应训练数据集、就可以在测试数据集上达到较好地效果;而在推理阶段,适应能力较弱的模型,则无法适应新任务的训练数据集,很难在新任务的测试数据集上达到理想效果。
图 3.1:Meta-learning 的图模型表示。图源:[6]
结合
元学习
的图模型来进一步理解这个问题的定义。M 是元训练数据集,包括了在元训练阶段的训练数据集 D(support set)和测试数据集 D*(query set),θ是元模型
参数
,φ是特定任务模型
参数
(task-specific parameters)。q(θ|M)表示基于元训练数据的元
参数
分布,q(φ|D, theta)表示基于任务训练(per-task training)的任务
参数
分布,q(y*|x*, φ, θ)表示预测的分布:
那什么是记忆问题?就是 y * 的计算,可以独立于φ和 Di,完全依赖于θ和 x*,即 q(y*|x*, φ, θ)=q(y*|x*, θ)。此时,在测试数据集上的预测结果可以直接根据元模型
参数
θ来得到,而不需要经过通过适应 D 而得到优化后的
参数
φ来进行预测的过程。
在本文中,作者给出了记忆问题的数学形式,引入
互信息(mutual information)这个概念:在
元学习
中的完全记忆,指的是模型在预测 y 时忽略任务训练数据集 D 的信息,即 y 和 D 之间的互信息为 0,表示为 I(y;D|x,θ)=0。为了同时达到低误差,以及 y * 和 (x*,θ) 之间的低互信息,需要利用任务训练数据 D 来做预测,即增大 I(y*;D|x*, θ),从而减少记忆问题。
在本文中,作者提出元正则项(meta-regularizer, MR),基于
信息论
来提供一个通用的、不需要在任务分布上设置限制条件的方法,解决
元学习
的记忆问题。更具体地,分别是:激活项上的元
正则化
(meta regularization on activations),
权重
上的元
正则化
(meta regularization on weights)。
激活项上的元正则化
。在上图中,当给定 theta 时,y * 和 x * 之间的信息流,包括了 y * 和 x * 之间的直接依赖,以及经过数据集 D 的间接依赖。作者提出,通过引入了一个中间变量 z*,有 q(ˆy* |x* , φ, θ) = ∫ q(ˆy* |z* , φ, θ)q(z* |x* , θ) dz*,控制 hat{y}* 和 x * 之间的信息流来解决记忆问题。
图 3.2:引入中间变量 z 的元学习
的图模型,。图源:[6]
此时,为了引导模型有效地利用任务训练数据 D,增大的互信息目标变为 I(y*;D|z*, θ),通过如下的推导,等价于增大互信息 I(x*;y*|θ)和减小 KL 散度 E[D_{KL}(q(z*|x*,θ) || r(z*))]:
对于上式左项的互信息,假如 I(x*;y*|θ)=0,并且存在记忆问题(I(y*;D|x*,θ)=0)时,那么有 q(y*|x*, θ, D)=q(y*|x*, θ)=q(y*|θ),即预测结果 y * 并不依赖于观测值 x*,显然这样的模型并不会得到理想的预测准确度。因此,最小化
损失函数
(如式 (1))有助于引导互信息 I(y*;D|x*,θ) 或者是 I(x*;y*|θ)的最大化,所以在引入中间变量 z * 后,需要做的就是最小化 KL 散度,最终的
损失函数
表示为:
但是,作者在实验过程中发现这种方法在一些情况下并不能避免记忆问题,并进一步提出了另一种元
正则化
方法。
权重
上的元正则化
。作者提出,通过惩罚元模型
参数
,减少元
参数
所带有的任务信息,从而降低模型对于任务的记忆能力、解决记忆问题。对于元
参数
θ中包含的训练任务信息,可以表示为 I(y*1:N,D1:N; θ|x*1:N ),它的上确界有:
元
参数
的惩罚项即为最后的 KL 散度,该惩罚项实际上是限制模型
参数
的复杂度:如果模型需要去记住所有任务的信息,那么模型非常复杂;所以限制模型的复杂度,在一定程度上能够减少元
参数
包含的任务信息。但是,作者并没有完全限制模型
参数
的复杂度,在实际应用中,仍允许部分模型
参数
对任务训练数据进行处理,因此只是在部分
参数
θ上执行该惩罚项(模型的其他
参数
则表示为θ~),最后
损失函数
可以表示为:
本文分别在分类任务和回归任务上进行对比实验,在这些任务中图片标签和图片数据本身是非互斥的,用于验证元
正则化
方法在记忆问题上的有效性。如表 3.1 和 3.2 所示,使用了元
正则化
(MR)的方法,相比于其他的
元学习
基准
方法,在分类任务和回归任务上都能明显获得更好的效果。
表 3.1:图片标签非互斥的回归任务(均方差),A 表示使用了激活项上的元正则化
,W 表示使用了权重
上的元正则化
。来自:[6]
表 3.2:图片标签非互斥的分类任务(准确率
)。来自:[6]
本文从
信息论
的角度,提出了一种适用于不同的
元学习
方法的元
正则化
(MR)方法。该方法可以用在标签没有打乱(或者是很难打乱)的任务中,能够提升
元学习
方法在更多场景中的适用性和可行性,在一定程度上解决
元学习
的记忆问题。
四、"Unraveling Meta-Learning: Understanding Feature Representations for Few-Shot Tasks"
核心:探讨元模型特征表示模块的作用(
元学习
方法的可解释性)
本文是由马里兰大学的学者发表于 ICML 2020 中的一篇文章[7]。在少样本分类(few-shot classification)任务的场景中,
元学习
方法能够提供一个
快速适应新任务(new tasks)或者是
新域(new domains)的基础模型。然而,很少有工作去探讨模型达到不错效果的深层原因,如
元学习
方法中特征提取模块(feature extractor)提取得到的特征表示的不同之处是什么。
本文提出,相比于普通学习得到的特征表示,
元学习
得到的特征表示(meta-learned representations)是有区别的、更有助于少样本学习。使用
元学习
的特征表示能够提升少样本学习的效果,本文作者归为两种不同的机制:(1)固定特征提取模块关键字
:元学习