随着大模型在长文本处理任务中的应用日益广泛,如何客观且精准地评估其长文本能力已成为一个亟待解决的问题。
- 2025-03-09 19:29:00
- 刘大牛 转自文章
- 502
图 1 大模型的困惑度 (PPL) 和长文本困惑度 (LongPPL) 与长文本任务集 LongBench 分数的相关性。
论文题目: What is Wrong with Perplexity for Long-context Language Modeling?
论文地址: https://arxiv.org/abs/2410.23771
代码地址: https://github.com/PKU-ML/LongPPL
图 2(a)LongEval 任务示意图 (b)(c) LongEval 的答案 / 非答案部分的困惑度与任务表现的相关性。
图 3 LongEval 标准回答中不同类型的 token 按 LSD 分类的分布。
图 4 GovReport 数据集中 token 按 LSD 分类的分布。
表 2 使用不同的损失函数在长文本数据上微调的大模型的长文本性能。
发表评论
文章分类
联系我们
| 联系人: | 透明七彩巨人 |
|---|---|
| Email: | weok168@gmail.com |