阿里巴巴达摩院发布了基于电商场景的多模态大型语言模型Valley2,该模型结合了Qwen2.5、SigLIP-384视觉编码器以及创新性的Eagle模块和卷积适配器,旨在提升电商和短视频领域的应用性能。Valley2的数据集涵盖OneVision风格数据、电商和短视频领域数据以及链式思维数据,经过多阶段训练,在多个公开基准测试中取得了优异成绩,尤其是在电商相关的评测中表现突出。 其架构设计和训练策略的优化,为多模态大模型的性能提升提供了新的思路。
阿里巴巴达摩院近日推出了一款名为Valley2的多模态大型语言模型,该模型基于电商场景设计,旨在通过可扩展的视觉-语言架构,提升各领域性能并拓展电商与短视频场景的应用边界。Valley2采用了Qwen2.5作为LLM主干,搭配SigLIP-384视觉编码器,结合MLP层和卷积进行高效特征转换。其创新之处在于引入了大视觉词汇、卷积适配器(ConvAdapter)和Eagle模块,增强了处理多样化真实世界输入的灵活性及训练推理效率。
Valley2的数据由OneVision风格数据、针对电商和短视频领域的数据以及用于复杂问题解决的链式思维(CoT)数据组成。训练过程分为文本-视觉对齐、高质量知识学习、指令微调和链式思维后训练四个阶段。在实验中,Valley2于多个公开基准测试中表现卓越,尤其在MMBench、MMStar、MathVista等基准上得分颇高,在Ecom-VQA基准测试中也超越了其他同规模模型。
未来,阿里巴巴达摩院计划发布包含文本、图像、视频和音频模态的全能模型,并引入基于Valley的多模态嵌入训练方法,以支持下游检索和探测应用。
Valley2的推出标志着多模态大型语言模型领域的重要进展,展现了通过结构改进、数据集构建及训练策略优化来提升模型性能的可能性。
模型链接:
https://www.modelscope.cn/models/bytedance-research/Valley-Eagle-7B
代码链接:
https://github.com/bytedance/Valley
论文链接:
https://arxiv.org/abs/2501.05901
Valley2的发布不仅展示了阿里巴巴达摩院在多模态大模型领域的先进技术,也预示着未来电商和短视频领域将迎来更多基于AI的创新应用。 期待未来Valley2能够进一步完善并拓展其应用场景,为用户带来更便捷、更智能的服务。