-
背景
文章介绍了大型语言模型(LLMs)在大规模预训练数据集的帮助下能够捕获大量事实信息。但这些信息是静态的,不会随时间更新,并且可能缺乏特定领域的细微专业知识。为了解决这些问题,提出了通过外部数据集注入新信息或提炼模型在先前见过信息上的能力的概念。 -
已有的工作 现有工作表明通过细化训练可以在一定程度上提高模型性能,但这种方式在训练过程中向模型注入特定的知识基础的能力有限,模型很难通过精细训练学会新的事实信息。
- 对比细化训练与信息检索增强生成(RAG)
-
挑战1:怎样更好地在既有知识和全新知识上增强LLMs的能力 通过对两种常见方法,细化训练和RAG,在多个知识密集型任务上的表现进行比较,研究发现,尽管细化训练有一定的改善效果,但RAG在现有知识和全新知识上的性能始终更好。实验还表明,向模型多次展示同一事实的不同变体可以缓解细化训练的学习新事实信息困难问题。
-
挑战2:如何有效评估模型的新知识注入效果 为了评估LLMs在知识密集型任务上的性能,研究人员使用GPT-4帮助创建了新的多项选择题数据集,通过手工评估和验证从而得到了新的问题。然后对数据集的输入数据进行转述,以生成保留完整信息的各种词语替换版本,以用于超参数调优。
-
在实施过程中,选取了一些流行的开放源码基础模型和指令调整模型来表现各种基准能力,并使用了当前领域最先进的开放源码嵌入模型以及FAISS作为其向量存储。配置的变体包括比较基线和精细调整模型以及它们与RAG组件的表现。此外,使用不同的文本块数量来分析其对模型性能的影响,以及测试0-shot与5-shot的性能差异。所有的模型都是在NVIDIA A-100 GPU上经过最长5个epoch的训练,并使用1 x 10-6 到 5 x 10-5之间的学习率进行训练。
这项研究的核心贡献在于它对比了细化训练和RAG两种方法对于LLMs知识注入能力的影响,并发现RAG在注入新的和已有的知识方面表现更佳。研究使用了创新的数据集和评估方法,确保了理论发现的实用性和可行性。