Salesforce推出xGen-MM开源多模态AI模型，助力视觉理解

作者：Eve Cole 更新时间：2024-12-22 13:16:01

Salesforce 突破性地开源了其多模态 AI 模型 xGen-MM，这是一个能够同时理解和生成文本、图像等多种数据类型的强大工具。该模型拥有40亿参数，在多个基准测试中表现出色，其开源性质与当前行业趋势形成鲜明对比，体现了 Salesforce 对推动 AI 领域开放研究的承诺。xGen-MM 的独特之处在于其处理“交错数据”的能力，这使其能够执行更复杂的任务，例如同时回答关于多张图像的问题，在医疗诊断和自动驾驶等领域具有巨大的应用潜力。

Salesforce推出了一套名为 xGen-MM 的开源多模态 AI 模型，这套模型可以同时理解和生成文本、图像等多种数据类型，可能会彻底改变我们对 AI 的研究和应用方式。

Salesforce AI 研究团队在 arXiv 上发布了一篇论文，详细介绍了 xGen-MM 框架。这个框架不仅包含了预训练模型，还有数据集和微调代码。值得一提的是，这个最大模型有40亿个参数，性能在多个基准测试中表现不俗，与同类开源模型相比毫不逊色。

这次开源的举动，与目前很多科技巨头选择将高级 AI 模型保密的趋势截然不同。Salesforce 表示，他们希望通过开放模型和数据集，来促进更广泛的研究和开发。其实，这样的决定也是为了让更多的研究人员和开发者有机会参与到多模态 AI 技术的进步中来。

xGen-MM 的一大创新在于它能够处理 “交错数据”，也就是说，它可以同时处理多个图像和文本。这种能力让模型能够执行更复杂的任务，比如同时回答关于多张图像的问题，真的是相当牛!这样的应用场景可能在医疗诊断、自动驾驶等领域会大有用武之地。

此次发布还包括了多种优化版本的模型，比如基础预训练模型、一个为遵循指令而调优的模型，以及一个旨在减少有害输出的 “安全调优” 模型。这种多样化的选择，反映了 AI 社区对能力与安全伦理的平衡日益重视。

不过，随着强大模型的发布，也引发了人们对更先进 AI 系统潜在风险和社会影响的讨论。尽管 Salesforce 已经做了安全调优来降低风险，但如何平衡创新与安全，仍然是个值得深思的问题。

Salesforce 的这一开源发布，给研究人员提供了宝贵的工具，以更好地理解和改进这些强大的技术。同时，这也为 AI 领域的透明度树立了一个新的标杆，可能会推动其他科技巨头更加开放他们的研究。

模型入口:https://huggingface.co/collections/Salesforce/xgen-mm-1-models-662971d6cecbf3a7f80ecc2e

划重点:

xGen-MM 是 Salesforce 推出的一套开源多模态 AI 模型，支持文本和图像的综合理解与生成。

模型具有处理交错数据的能力，能够同时回答关于多张图像的问题，应用前景广阔。

? 该发布包括多种优化版本，关注安全性与伦理问题，为研究者提供丰富的资源。

总而言之，Salesforce 开源 xGen-MM 是 AI 领域的一大进步，不仅提供了强大的工具，也为更开放、更负责任的 AI 研究发展方向树立了榜样，值得期待其未来在各个领域的应用和发展。