TinyLlama训练复盘:在3T Token上训练1.1B模型的Scaling Law超参数调整

TinyLlama训练复盘:在3T Token上训练1.1B模型的Scaling Law超参数调整 大家好,今天我们来复盘一下TinyLlama的训练过程,重点聚焦于如何在3T Token数据集上训练一个1.1B参数的模型,并根据Scaling Law进行超参数调整。TinyLlama的目标是在资源有限的情况下,尽可能地训练出一个性能接近更大模型的语言模型。Scaling Law为我们提供了一个理论框架,指导我们如何在模型大小、数据集大小和计算量之间进行权衡,最终达到最佳的性能。 1. Scaling Law理论基础回顾 Scaling Law的核心思想是,模型的性能(通常用perplexity来衡量)与模型大小(N)、数据集大小(D)和训练计算量(C)之间存在幂律关系。具体而言,我们可以将perplexity (P)表示为: P ∝ N^(-α) * D^(-β) * C^(-γ) 其中,α, β, γ是Scaling Law的指数,它们描述了模型大小、数据集大小和计算量对性能的影响程度。 通常情况下,我们会假设 α, β, γ 为常数。 更常见的是,我们会关注模型大小和数据集大小之 …