Together AI发布RedPajama v2:一个包含30万亿个令牌用于训练大规模语言模型的开放数据集
Together AI发布RedPajama v2:一个开放数据集,包含30万亿个令牌,用于训练大规模语言模型高质量的数据对于像Llama,Mistral,Falcon,MPT和RedPajama模型这样的先进开放LLM的成功至关重要。然而,由于HTML转为纯文本过程中产生的异常、通常质量较低的源以及网络内容传播中固有的偏见,这些数据尚未经过精炼处理,不适合直接用于LLM训练。正确的数据集和数据混合是一项繁琐的任务,需要大量的时间、资源和金钱。尽管已经建立了几个社区项目,例如C4,RedPajama-1T,Refinedweb(Falcon),Dolma(AI2)和SlimPajama,但其中许多只涵盖了CommonCrawl抓取的一个子集,并提供了非常局限的数据过滤方法。
Together.ai的研究人员于今年3月发布了RedPajama-1T,这是一个5TB的数据集,使用次数超过19万次,并以富有想象力的方式使用它们。凭借1万亿个高质量的英文标记,RedPajama-1T只是个开始。研究人员进一步推出了RedPajama-V2,这是一个庞大的,30万亿标记的在线数据集,是目前最大的公开可用于基于学习的机器学习系统的数据集。
团队认为,RedPajama-Data-v2将提供一个在线数据存储库,可作为LLM训练的高质量数据集的提取基础,也可作为对LLM训练数据进行深入研究的基础。他们声称它在CommonCrawl(84个处理的抓取)的覆盖范围是无与伦比的。更重要的是,他们还包括了40多个质量注释——这是多个机器学习分类器对数据质量、模糊去重和启发式结果的评估。LLM的开发人员可以使用这些注释,通过切片和过滤公开可用的数据,快速、轻松地生成自定义的预训练数据集。
CommonCrawl是RedPajama-V2的主要重点。RedPajama-V2是从头开始使用84个CommonCrawl抓取和其他公开可用的网络数据构建的。该数据集包括原始数据(纯文本)、40多个高质量的注释和去重集群。
每个CommonCrawl快照首先经过CCNet管道的处理,作为组装该数据集的第一步。由于其最小化的处理,该管道很好地符合尽可能保持数据原始形式并让管道中的模型构建者进行过滤和重新加权的总体思路。在这个版本中,我们只包括英语、法语、西班牙语、德语和意大利语,使用了CCNet的语言过滤器。这个处理阶段生成了1000亿个文本页面。
对于“头部”和“中间”桶,研究人员计算了CCNet处理的最受欢迎的40多个质量注释和文本文档。这些注释的主要目的是促进对它们的最佳使用方式进行研究,并使下游的模型开发人员能够根据自己的标准对数据集进行过滤或重新加权。此外,他们希望最终能够在社区的帮助下添加更多高质量的信号。
除了这些minhash签名外,团队还通过将文档的sha1哈希摘要应用于Bloom过滤器来进行准确的去重复处理。为了便于研究这种方法,这些内容被保存为单独的质量注释文件,以便将原始的非重复分布恢复出来。
RedPajama-v2在英语、德语、法语、西班牙语和意大利语中有113B个文档,是对84个CommonCrawl抓取进行处理的结果。在去重前后,估计尾部分区域保留了800B个文档,而头部和中间分区的文档和标记数量是确定的。标记数量减少了60%,而文档数量减少了71%,这表明尾部的文章通常较短。
通过使用Bloom过滤器对头部+中间文档进行去重处理后,数据集减少了约40%。文本文档占据了数据集的大部分,包括质量注释和去重集群。布局与CCNet指定的布局非常相似。具体来说,每个CommonCrawl快照的页面被分成了5k个分片,键表示分片、语言和困惑度桶(分区)。
团队希望很快扩大他们当前一套高质量的注释,包括与广泛使用的LLM基准相比的污染注释,每个文档的主题建模和分类注释,以及引起社区兴趣的任何其他注释。