速度提升44%，节能153倍，清华使用内存计算硬件高效标记数据 - ai人工智能 - 透明七彩巨人-tmqcjr.com

编辑丨&

对于现在的许多 AI 任务来说，标记数据是一个耗时、劳动密集型且昂贵的过程。深度贝叶斯主动学习（DBAL）以指数级方式提高标记效率，从而大幅降低成本。

为了解决 DBAL 需要高带宽的数据传输和概率计算的问题，来自清华大学的团队提出一种忆阻器随机梯度 Langevin 动力学原位学习方法。使用忆阻器调制的随机来学习效率，以此在内存计算（CIM）框架内实现 DBAL。

他们在基于忆阻器的随机 CIM 系统上实现了内存 DBAL，而与传统的基于互补金属氧化物半导体的硬件实现相比，全新的方案实现了 44% 的显着速度提升，并且可以节省 153 倍的能源。

团队的研究成果以「 Deep Bayesian active learning using in-memory computing hardware」为题，于 2024 年 12 月 23 日刊登于《 Nature Computational Science》。

对于耗时、劳动密集型且成本相对高昂的过程，学习的标记效率更高的 DBAL 显然成为了一种引人注意的问题解决方案。

DBAL

DBAL 通常使用传统的确定性 von-Neumann 硬件和基于互补金属氧化物半导体（CMOS）的芯片实现。训练中的密集向量矩阵乘法（VMM）通常会导致处理器和内存之间的数据随机排序，从而导致大量延迟和能耗。

除此之外，在训练中经常采用的高斯随机数会带来大量延迟与能耗，显得更为复杂。

相比之下，基于忆阻器数组的概率计算不仅消除了 VMM 计算过程中这种广泛的数据移动，而且还利用忆阻器的固有随机性来有效地生成随机数。

基于欧姆定律和基尔霍夫当前定律，只需一次并行读取操作即可实现 VMM 原位计算的同时，忆阻器中离子的随机运动赋予了电导随机特性，读取或编程操作能有效地模拟随机数的生成。在这种操作下，忆阻器数组可以有效地实现概率 AI 算法。

DBAL 的迭代学习过程在很大程度上依赖于准确的不确定性捕获。而对于这种情况想，需要学习大量概率权重的分散性。

图 1：DBAL。（图片来自论文）

面对这项挑战，团队提出了一个内存 DBAL 框架。通过异地训练获得的初始部署忆阻器 BDNN 使用选定的数据进行原位迭代学习以捕获不确定性。

一种忆阻器随机梯度朗之万动力学（mSGLD）原位学习方法被提出，该方法使用设备的随机性，采用单个调制脉冲以生成高斯随机数进行权重更新。这种方法将过渡到学习过程的最终结果，其中会使用到设备读取的随机指标。

而在忆阻器 BDNN 的深入学习与预测过程中，一种平滑过渡方法被提出来减轻过度电导随机性对学习的影响。这个方法使忆阻器 BDNN 能够在学习和预测过程中有效地捕获和呈现不确定性。

与传统的 CMOS 硬件相比，该任务显示出极大的速度和能效提升。团队的工作提出了一种使用基于忆阻器的系统实现的高效 DBAL 实现，并展示了贝叶斯方法的基础高效概率计算。

忆阻器与内存

为了分析忆阻器的随机特性，团队测量了读取和调制过程中的电导变化。读数测试中收集的波动数据可以使用双指数分布进行建模，同时忆阻器在电导调制过程中也具有随机波动。

图 2：忆阻器的随机特性。（图片来自论文）

与 Lindeberg-Feller 中心极限定理一致，BDNN 中的高斯权重可以使用来自多个设备的读取电流进行模拟。于此，团队提出了基于忆阻器 BDNN 构建的内存 DBAL 框架，以使用 ESCIM 系统中的三个设备来产生高斯权重。

在忆阻器横杆阵列上部署初始忆阻器 BDNN 模型，权重则使用异地训练好的小型初始训练集。在此过程中使用读取噪声模型和电导调制模型，使网络能够学习更适合集成忆阻器阵列的权重分布。

部署好的忆阻器 BDNN 预测未标记数据集中的数据类别并计算预测不确定性。由于忆阻器单元的可变性引入的权重随机性，网络预测可以反映读取电流可变性的分布。

根据未标注数据集中样本的预测不确定性，选择一个不确定性最高的样本来查询标签，并将其合并入数据集。原位学习后，网络继续计算不确定性，选择高不确定性样本并重新训练，直到达到性能预期或用尽标签查询。

机器人数据学习

为了证明所提出的方法的适用性，团队在机器人的技能学习任务中进行了演示。机器人需要通过训练 BDNN 模型来建立基础，以获得高级浇注技能。但由于资源和时间开销，学习所需标记数据很难获取。因此，机器人需要通过尽可能少的标记样品或尝试来有效地学习技能，从而最大限度地减少获取标记数据的成本。

图 3：使用内存 DBAL 的机器人浇注技能学习任务的示意图。（图片来自论文）

实验的主要目标是通过提出的主动学习方法，训练 BDNN 使用尽可能少的标记样本实现高准确性和动作效果。在循环了 64 次，生成了 128 个训练数量集后，ESCIM 系统成功地演示了该任务的内存主动学习过程。

团队还分析了周期间变化对网络性能随时间推移的影响。该网络随着时间的推移保持稳定的性能，其准确性水平与原位学习后相似。原因可能是 BDNN 本身可以容忍由周期间变化引起的某些权重变化。

比较了主动学习与被动学习对技能任务的学习表现影响后，数据表明，在相同的查询样本数量里，主动学习的性能优于被动学习。

研究的小结

研究引入了内存 DBAL 框架和原位学习方法，两者都利用了忆阻器调制的随机特性。这种独特的方法已被证明是可行与有效。这些结果凸显了忆阻器技术相对于当前 CMOS 实现的潜在优势，尤其是在机器人应用的效率和速度。

本次研究也为进一步探索与改进创造了机会。采用特定计算电路或通用处理内核直接与忆阻器阵列集成的芯片可能会替代外部计算机进行处理。这种完全集成的芯片可以实现更高效、更复杂的随机计算，突破目前机器人和人工智能领域可以实现的界限。

未来的研究应该在更广泛的任务和现实世界的环境中验证此次发现。团队强调，由于性能与忆阻器特性相关，因此应在未来的工作中探索减轻制造和操作条件变化的策略。

原文链接： https://www.nature.com/articles/s43588-024-00744-y

Github代码： https://github.com/YudengLin/Code_ESCIM_Hardware

理论内存贝叶斯 AI for Science

联系人：	透明七彩巨人
Email：	weok168@gmail.com