优于o1预览版,推理阶段KV缓存缩减一半,LightTransfer降本还能增效
- 2025-03-10 16:44:00
- 刘大牛 转自文章
- 248



项目主页:https://sites.google.com/view/lighttransfer
Huggingface 模型:cxdu/QwQ-32B-LightTransfer
github 代码:https://github.com/sail-sg/LightTrans

表示最后一部分的查询(query)集合;
分别表示初始与最近部分的键(key)集合;
为在第 i 层从查询 q 到键 k 的注意力权重。






发表评论
文章分类
联系我们
联系人: | 透明七彩巨人 |
---|---|
Email: | weok168@gmail.com |