想象一下,一位读者在长达数小时的阅读中,始终能精准捕捉情节脉络与情感起伏——这种人类特有的语言理解能力,源自大脑对时间尺度层级信息的动态整合。
然而,当前最先进的大语言模型(Large Language Models, LLMs)虽在文本生成任务中表现卓越,其固定长度上下文窗口的并行处理机制,却与生物神经系统的增量整合模式存在本质差异。
近日,一项突破性研究揭示了这一认知鸿沟:通过分析 219 名受试者的功能性磁共振成像(fMRI)数据,来自以色列理工学院的研究团队发现人脑通过「增量上下文累积」机制,将短时语言输入与长时记忆摘要动态融合,而传统 LLMs 的固定窗口设计仅在短上下文(约 32 tokens)范围内与神经信号对齐。
该研究以「 Incremental accumulation of linguistic context in artificial and biological neural networks」为题,于 2025 年 1 月 18 日发布在《 Nature Communications》。
研究背景
近年来,大型语言模型(LLMs)在自然语言处理(NLP)领域取得了显著进展,甚至在某些任务中表现出超越人类的能力。这些模型通过多维数值向量(即词嵌入表示)生成丰富的语言表征,并且能够根据上下文动态调整这些表征。研究表明,这些上下文表征可以线性映射到人类在听故事时记录的神经信号(如 fMRI、EEG、ECoG),这一过程被称为神经编码。
然而,LLMs 在处理长文本时存在一个显著缺陷:它们依赖于固定大小的上下文窗口,一次性处理大量文本,而人类大脑则是逐步积累信息,逐步整合短期和长期上下文。正是基于这一差异,研究团队提出了一个创新的增量上下文模型,旨在更好地模拟人类大脑的语言处理机制。
层级化时间整合的理论框架
人脑的语言处理遵循「时间感受野层级」(temporal receptive window hierarchy)原则:从初级听觉皮层(整合数百毫秒的语音单元)到默认模式网络(DMN,整合数十分钟的叙事结构),神经活动呈现自下而上的时间尺度扩展。
研究团队通过 fMRI 实验验证,当 LLMs 的上下文窗口扩展至 2048 tokens 时,其预测性能在 DMN 的楔前叶(Precuneus)、颞顶联合区(TPJ)及内侧前额叶皮层(mPFC)等区域反而劣于 32 tokens 短窗口模型。这一现象印证了大脑无法并行处理长文本的生物学约束——DMN 并非直接存储原始文本,而是通过在线摘要机制,将段落级输入(约 32 tokens)与累积的抽象表征动态融合。
图示:上下文窗口大小(以 token 数量为单位)对大型语言模型(LLM)预测神经信号能力的影响。(来源:论文)
增量上下文模型的技术突破
为模拟人脑的层级整合机制,研究团队提出「增量上下文模型」(Incremental Context Model),其核心是通过提示工程(prompt engineering)实现两步交互:
摘要生成:每处理 100 tokens 后,要求 LLM(基于 GPT-NeoXT)生成当前文本的摘要(限制为 50 tokens 以内);
上下文拼接:将最新摘要与 32 tokens 短窗口拼接,作为下一阶段模型的输入。
图示:增量上下文模型与基线模型提取单个标记的上下文嵌入表示的过程。(来源:论文)
这种设计通过自然语言摘要替代原始长文本,既降低了计算复杂度,又保留了语义连贯性。实验表明,该模型在 DMN 区域的神经编码准确率较传统长窗口模型平均提升 Δr=0.008(Max=0.02),在 DMN 的楔前叶区域表现尤为显著(Δr=0.02),且显著优于短窗口模型。
图示:增量上下文模型与基线模型的对比。(来源:论文)
频谱分析与模型验证
为进一步验证时间尺度层级,团队对 BOLD 信号进行功率谱密度(PSD)分析。结果显示:
高阶脑区(如楔前叶)的低频功率(LFP, 0–0.02 Hz)与增量模型的预测优势呈强正相关(r=0.66),印证了 DMN 通过低频振荡整合长时上下文的机制;
初级听觉皮层(STG)的高频功率(HFP, 0.08–0.33 Hz)与短窗口模型性能相关(r=-0.63),反映其对语音单元的快速处理。
图示:补充频谱分析。(来源:论文)
这一发现从信号动力学角度证实:低频振荡反映长时上下文整合,而高频振荡对应短时语言单元的快速处理。值得注意的是,增量模型的优势源于其模拟人脑的在线摘要机制,而非传统 Transformer 的算法优化。
结论与展望
本研究通过「神经编码-模型迭代」的双向验证,首次揭示 LLMs 与生物神经网络在长时上下文整合中的本质差异。增量上下文模型不仅为认知神经科学提供了可计算框架,更启示未来 AI 系统设计需兼顾并行效率与生物合理性——例如,将递归摘要机制嵌入稀疏注意力架构,或开发多尺度融合的混合模型。
然而,该模型仍存在局限:摘要生成依赖预训练 LLM 的文本压缩能力,可能丢失叙事细节;且实验仅针对被动语言理解任务,未涉及主动推理场景。未来研究需结合脑电(EEG)与颅内记录(ECoG),探索跨模态的上下文累积机制,并为 LLMs 赋予真正意义上的「认知弹性」。这项突破标志着类脑语言模型从静态表征迈向动态演进的关键一步。
论文链接: https://www.nature.com/articles/s41467-025-56162-9
代码链接: https://github.com/RefaelTikochinski/Incremental-Accumulation-of-Linguistic-Context-in-Artificial-and-Biological-Neural-Networks