谷歌实验室最新推出基于图像的AI艺术生成工具Whisk,为艺术创作带来全新体验。不同于传统文本提示的图像生成工具,Whisk允许用户直接上传或在工具内生成图像,并指定主题、场景和风格,实现更直观的艺术创作。用户可以混合匹配不同组件,并通过文本提示进行微调,最终生成独具创意的艺术作品。 Whisk背后的技术是谷歌强大的语言模型和图像生成模型的结合,能够捕捉图像的本质特征,而非简单复制。
谷歌实验室近日在美国推出了最新的生成式人工智能实验工具 Whisk。与传统的图像生成工具主要依赖文本提示不同,Whisk 着重使用图像作为输入方法,允许用户更直观地创造艺术作品。
用户可以直接上传图片至 Whisk,或者在该工具内生成图片,指定主题、场景和风格等元素。Whisk 系统支持用户混合和匹配这些组件,并可根据需要使用附加的文本提示进行微调。
值得注意的是,在后台,谷歌的语言模型(可能是最近发布的 Gemini2.0Flash)会自动生成输入图像的详细描述。这些描述将输入到谷歌最新的图像生成模型 Imagen3中,从而捕捉主体的本质特征,而不是创造出完全相同的复制品。
AIbase进行了多次测试,上传了左侧的三张图片,就可以融合生成右侧的结果,效果还不错,可玩性很高。如下:
然而,由于 Whisk 仅提取每个源图像中的少数关键元素,谷歌提醒用户生成的图像结果可能与预期有所不同。例如,生成的图像可能在高度、体重、发型或肤色上与原图存在差异。
对此,谷歌表示,这些细节往往对项目的成败至关重要,因此允许用户查看和编辑驱动图像生成过程的文本提示。
早期测试者,包括一些艺术家和创意专业人士,表示 Whisk 更像是一种新的创意工具,而不是传统的图像编辑器。谷歌希望该工具能帮助用户快速进行视觉头脑风暴,而不是精确编辑,让用户在保存喜爱的作品之前,可以迅速生成和筛选多个选项。
经初步测试,虽然 Whisk 使用起来十分愉快,但每生成一张新图像需要等待几秒钟。这些延迟可能是由于高流量造成的,用户们纷纷涌入体验这一新工具。
目前,Whisk 仅对美国用户开放,用户可以在 labs.google/whisk 免费尝试并分享反馈。至于其他国家的用户,则暂时无法访问这一工具。
Whisk 隶属于谷歌实验室,这是谷歌测试其 AI 项目的试验场,包括 Gemini、Imagen 以及最新的视频模型 Veo2等。虽然大多数项目仍处于实验阶段,但一些成功的项目,如最近正式发布的 AI 助手 NotebookLM,则会转变为完整产品。
产品体验地址:https://top.aibase.com/tool/whisk
划重点:
谷歌推出 Whisk,首个以图像为主导的生成式 AI 工具。
用户可上传或生成图像,快速进行视觉设计而非精确编辑。
目前仅限美国用户试用,其他国家暂无法访问。
总而言之,Whisk 作为谷歌实验室推出的一个新颖的 AI 图像生成工具,为用户提供了一种更直观、更快捷的艺术创作方式,虽然目前仍处于测试阶段,但其潜力巨大,未来发展值得期待。 期待Whisk 未来能扩展到全球用户,并进一步优化其功能和性能。