图 7 SEEChat v1.0 图文对话展示
从中文 Zero 数据集中随机选取 1000 张中文互联网图像,已排除训练集数据 使用 ChineseCLIP [10] 计算图文相关性得分(为避免训练数据重叠带来的偏置,我们没有使用自己训练的 R2D2 中文跨模态模型,而是选取了第三方训练的跨模态模型进行图文相关性得分的评价) 上图为七种公开方法(我们将数据原生的互联网文本做为其中一种方法看待)的图文相关性得分胜出情况
图 7 SEEChat v1.0 图文对话展示