语言模型数据选择调查

内容

阿隆·阿尔巴拉克,加州大学圣巴巴拉分校,[email protected] 雅奈·埃拉扎尔,艾伦人工智能研究所,华盛顿大学桑迈克尔·谢,斯坦福大学沙恩·朗普雷,麻省理工学院内森·兰伯特,艾伦人工智能研究所王欣怡,加州大学圣巴巴拉分校尼克拉斯·穆宁霍夫,Contextual AI侯百儒,加州大学圣巴巴拉分校潘亮明,加州大学圣巴巴拉分校张海元,加州大学圣巴巴拉分校科林·拉菲尔,多伦多大学,矢量研究所常诗宇,加州大学圣巴巴拉分校桥本辰纪,斯坦福大学威廉·杨·王,加州大学圣巴巴拉分校

摘要

近期大型语言模型取得成功的一个重要因素是利用庞大且不断增长的文本数据集进行无监督预训练。然而,简单地在所有可用数据上训练模型可能并非最佳选择(或可行),因为可用文本数据的质量可能存在差异。过滤数据还可以通过减少所需训练量来降低模型训练的碳足迹和财务成本。

数据选择方法的目标是确定要包含在训练数据集中的候选数据点,并如何从所选数据点中适当地进行抽样。改进的数据选择方法的前景导致该领域的研究量迅速增加。然而,由于深度学习主要受经验证据驱动,而在大规模数据上进行实验成本高昂,很少有组织有资源进行广泛的数据选择研究。因此,有效数据选择实践的知识已经集中在少数几个组织中,其中许多组织并不公开分享他们的发现和方法论。

为了缩小这一知识差距,我们提出了对现有文献中关于数据选择方法和相关研究领域的全面回顾,提供了现有方法的分类。通过描述研究的当前格局,本工作旨在通过为新老研究人员建立一个切入点来加速数据选择的进展。此外,在整个回顾过程中,我们注意到文献中明显的空白,并通过提出未来研究的有前途的途径来总结本文。

目录
总结
这篇文章总结了大型语言模型成功的一个重要因素是利用庞大且不断增长的文本数据集进行无监督预训练。文章指出,数据选择方法的目标是确定哪些候选数据点应包含在训练数据集中,以及如何从选定的数据点中适当抽样。为了缩小数据选择领域的知识差距,文章提供了现有文献的综述,并提出了未来研究的有前景的方向。通过描述当前研究领域的现状,该工作旨在为新老研究人员建立一个入口,加速数据选择领域的进展。文章还指出了文献中的明显空白,并提出了未来研究的有希望的方向。