速度提升3200倍,准确率提高40%!深度神经网络+纠错码革新DNA存储技术

图片

编辑 | 2049

在全球数据量呈指数级增长的今天,传统存储技术的扩展速度已难以跟上。

脱氧核糖核酸(DNA)分子作为一种信息存储介质,以其卓越的信息密度、增强的数据耐久性和几乎可忽略的维护能耗,正逐渐成为解决存储危机的关键方案。

然而,DNA 存储技术面临可扩展性和准确性之间的权衡困境,成为商业化落地的主要障碍。

来自以色列理工学院(Technion)计算机科学学院的研究团队开发了一种创新方法,通过将 深度 神经网络 (DNN)、基于 张量 积的纠错码(Error-Correcting Codes,ECC)和安全边际机制整合到一个统一的流程中,实现了 DNA 存储系统在高噪声环境下的高效可靠运行。

该研究以「 Scalable and robust DNA-based storage via coding theory and deep learning」为题,发表于 2025 年 2 月 21 日的《 Nature Machine Intelligence》。

图片

论文链接: https://www.nature.com/articles/s42256-025-01003-z

数据链接: https://zenodo.org/records/13896773

代码地址:https://github.com/itaiorr/Deep-DNA-based-storage.git 

研究背景:DNA 存储系统的挑战

DNA 存储通过将数字信息编码成 DNA 序列并合成对应的 DNA 链,具备理论上几乎无限的存储容量。

然而,此过程中的关键挑战在于 信息检索 系统,其需要克服 DNA 合成和测序过程中产生的各类错误,包括碱基替换、插入和删除。

传统的 DNA 信息检索 流程包括 聚类 、重建和解码三个关键环节,其中每一步都面临着算法复杂度和准确性之间的平衡问题。

此前的解决方案往往采用内部编码或外部编码技术,通过添加冗余符号来检测和纠正错误。这类方法未能充分利用 DNA 合成和测序过程中的固有冗余,导致编码方案冗余度较高,同时需要处理更多的 DNA 链和读取序列,系统效率较低。

DNAformer:端到端信息检索 解决方案

研究团队提出的 DNAformer 解决方案采用模块化编码方案,将 ECC 和约束码结合在 DNA 合成和存储之前。这种设计允许将大型数据集划分为更小的块,实现快速、简便的数据访问。

DNAformer 的创新在于 信息检索 流程。首先,系统采用基于索引的简单分箱算法进行 聚类 ,这种方法虽然会引入噪声,但极大提升了处理速度。接着,系统使用 DNN 从读取序列重建原始编码序列。

该网络采用卷积和 Transformer 的组合架构,后接置信度过滤器,用于筛选准确预测和不准确预测。对于可能不准确的预测,系统会应用基于 动态规划 的条件概率 逻辑 (Conditional Probability Logic,CPL)算法进行二次重建,该算法无需 先验知识 即可估计 聚类 中的错误概率,有效平衡了准确性和速度的权衡。

为避免高昂的 DNN 训练数据获取成本,研究团队使用小规模真实 数据分析 合成、聚合酶链式反应(Polymerase Chain Reaction,PCR)和测序的错误率,构建了 SOLQC 工具模型,进而生成大量模拟训练数据。这种方法只需为每种合成和测序技术建模一次,使解决方案在成本和规模上更具优势。

图片

图示:DNA 信息检索 的端到端解决方案。(来源:论文)

实验验证与性能分析

研究团队使用 Illumina miSeq 和 Oxford Nanopore MinION 两种不同的测序技术,对总计 3.1 MB 的信息进行了实验验证。实验数据包括压缩文件夹(包含图像、24 秒音频片段和文本文件)及随机信息位,共分为两个文件,每个约 1.5 MB。

图片

图示:用于 DNA 实验的数据。(来源:论文)

与当前领先的解决方案相比,DNAformer 在速度上实现了 3200 倍的提升, 准确率 提高了 40%。在高噪声环境下,该系统提供了每碱基 1.6 比特的编码率,远超现有方案。具体来说,在 Illumina 数据集上,DNAformer 的失败率仅为 0.0055%;在 Nanopore 数据集上,失败率为 1.65%。

图片

图示:DNAformer 与 SOTA DNA 重建方法的比较。(来源:论文)

此外,DNAformer 在数据模态方面表现出色,不依赖于底层语义或数据结构,而是专注于合成和测序过程中的噪声特性,使其能够以相似的性能处理非结构化和结构化数据。

系统的另一创新在于编码方案,它使用基于 张量 积的模块化编码方案,既充分利用上游步骤中的固有冗余,又减少了编码方案中所需的冗余度。通过引入安全边际机制,该系统能够 量化 在特定工作条件下的稳健性,进一步提升可靠性。

图片

图示: 信息检索 性能评估。(来源:论文)

未来展望与意义

DNAformer 成功克服了 DNA 存储系统中失败率和运行时间的主要瓶颈,通过结合 DNN 与 ECC 的方法,显著改进了解码过程并缩短了系统响应时间。这一突破为 DNA 存储的商业化应用扫除了重要的技术障碍。

然而,要实现规模化应用仍需解决 DNA 合成与测序成本、长期稳定性以及法律和标准化等问题。随着相关技术的进步,DNAformer 这类端到端解决方案将在大规模数据存储系统中发挥越来越重要的作用。

未来研究可以进一步优化 神经网络 架构(如改进 Transformer 模型)、探索更高效的编码方案(如针对插入和删除错误的专用编码),并开发更智能的 聚类 算法以降低系统对 聚类 大小和噪声水平的敏感性,使 DNA 存储技术更加稳健和经济可行。

理论 深度神经网络 存储 LeanDNA AI for Science