对于 OPT 模型,随着数据集大小的增加,差距会缩小,最小的模型除外。对于 Pythia ,似乎只有在足够大的数据集上训练更大模型,这个差距才会缩小。对于 Flan-T5,除了在最大数据集上训练的 780M ...