大语言模型类型
北冥坞支持输入数据类型为文本,任务类型为文本生成的大语言模型。根据模型能力迁移的方式,北冥坞将这些大语言模型分为以下几种类型:
基座模型:基座模型是指通过在大规模、多样化数据集上进行自监督训练得到的模型。该模型经过广泛的训练,可用于多种下游任务,并可以通过微调等方式进一步适应特定任务需求。[1]
代表性模型:GPT-3、LLaMA、BERT。
全量微调模型:全量微调模型是在基座模型的基础上,通过微调模型的所有参数,使其适配特定任务。与基座模型相比,经过全量微调的模型通常具有更强的任务适应性。
代表性模型:T5微调版、Fine-tuned GPT模型。
参数高效微调模型:参数高效微调模型基于基座模型,通过冻结大部分参数,仅调整少量新增参数或部分模型参数,以实现对特定任务的适配。这种方式相较于全量微调,更加高效,适用于计算资源有限的场景。
代表性模型:LoRA微调版GPT、Adapter Tuning。
[1] Bommasani, Rishi, et al. "On the opportunities and risks of foundation models." arXiv preprint arXiv:2108.07258 (2021).