Meta最新发布的Llama 3.1系列开源模型在性能上取得了显著突破,其405B参数版本甚至超越了部分闭源模型。其中,Llama3.1-8B-Instruct版本支持多种语言,上下文长度高达131072 tokens,并通过海量合成数据训练,提升了其在代码、数学等领域的推理能力。基于此模型,OpenBuddy团队推出了支持中文问答和跨语言翻译的OpenBuddy-Llama3.1-8B-v22.1-131K模型,展现了开源模型在多语言应用上的潜力。
Meta最近发布了新一代开源模型系列Llama3.1,其中包括一个405B参数的版本,其性能接近甚至在某些基准测试中超越了GPT-4等闭源模型。Llama3.1-8B-Instruct是该系列中的一个8B参数版本,支持英语、德语、法语、意大利语、葡萄牙语、西班牙语、印地语和泰语,上下文长度高达131072tokens,知识截止日期更新至2023年12月。
为了增强Llama3.1-8B-Instruct的能力,Meta在训练中使用了超过2500万条合成数据,这些数据由更大的405B模型生成。这使得Llama3.1-8B-Instruct在代码、数学等测试中表现出与GPT3.5Turbo相近的认知和推理能力。
OpenBuddy利用Llama3.1-8B-Instruct模型,通过在少量中文数据上进行训练,发布了OpenBuddy-Llama3.1-8B-v22.1-131k,这是一个具备中文问答和跨语言翻译能力的新一代开源跨语言模型。尽管Llama3.1本身不具备中文能力,但经过训练后,该模型在一些容易产生概念混淆的问题上能够生成通常只有更大模型才能生成的答案,显示出更强的认知潜力。
然而,由于训练数据集和时间的限制,OpenBuddy-Llama3.1-8B-v22.1在中文知识,特别是传统文化知识上仍存在局限。尽管如此,模型在长文理解等任务上表现出相对稳定的表现,这得益于其原本的长文能力。
未来,OpenBuddy计划对8B和70B模型进行更大规模的训练,以增强模型的中文知识储备、长文能力和认知能力,并探索微调405B模型的可能性。
项目地址:https://modelscope.cn/models/OpenBuddy/openbuddy-llama3.1-8b-v22.1-131k
OpenBuddy-Llama3.1-8B-v22.1-131k模型的发布,标志着开源多语言模型发展的新阶段。虽然在中文知识方面仍有提升空间,但其展现出的潜力值得期待,未来随着模型训练规模的扩大,其性能有望得到进一步提升。期待OpenBuddy团队在未来带来更多惊喜。