谷歌推創新AI圖片工具Whisk:可上傳多張圖片，將主體、場景、風格融合

作者：Eve Cole 更新時間：2024-12-19 12:00:01

谷歌實驗室最新推出以影像為基礎的AI藝術生成工具Whisk，為藝術創作帶來全新體驗。不同於傳統文字提示的圖像生成工具，Whisk允許使用者直接上傳或在工具內生成圖像，並指定主題、場景和風格，實現更直觀的藝術創作。使用者可以混合搭配不同組件，並透過文字提示進行微調，最終生成獨具創意的藝術作品。 Whisk背後的技術是谷歌強大的語言模型和圖像生成模型的結合，能夠捕捉圖像的本質特徵，而不是簡單複製。

谷歌實驗室近日在美國推出了最新的生成式人工智慧實驗工具Whisk。與傳統的圖像生成工具主要依賴文字提示不同，Whisk 專注於使用圖像作為輸入方法，讓使用者更直觀地創造藝術作品。

使用者可直接上傳圖片至Whisk，或在該工具內產生圖片，指定主題、場景和風格等元素。 Whisk 系統支援使用者混合和搭配這些元件，並可根據需要使用附加的文字提示進行微調。

值得注意的是，在後台，Google的語言模型（可能是最近發布的Gemini2.0Flash）會自動產生輸入影像的詳細描述。這些描述將輸入到Google最新的影像生成模型Imagen3中，從而捕捉主體的本質特徵，而不是創造出完全相同的複製品。

AIbase進行了多次測試，上傳了左側的三張圖片，就可以融合產生右側的結果，效果還不錯，可玩性很高。如下：

然而，由於Whisk 僅提取每個來源圖像中的少數關鍵元素，Google提醒用戶產生的圖像結果可能與預期有所不同。例如，產生的影像可能在高度、體重、髮型或膚色上與原圖有差異。

對此，Google表示，這些細節往往對專案的成敗至關重要，因此允許用戶查看和編輯驅動圖像生成過程的文字提示。

早期測試者，包括一些藝術家和創意專業人士，表示Whisk 更像是一種新的創意工具，而不是傳統的圖像編輯器。谷歌希望該工具能幫助用戶快速進行視覺腦力激盪，而不是精確編輯，讓用戶在保存喜愛的作品之前，可以快速產生和篩選多個選項。

經過初步測試，雖然Whisk 使用起來十分愉快，但每生成一張新圖像需要等待幾秒鐘。這些延遲可能是由於高流量造成的，用戶們紛紛湧入體驗這項新工具。

目前，Whisk 僅對美國用戶開放，用戶可以在labs.google/whisk 免費嘗試並分享回饋。至於其他國家的用戶，則暫時無法存取此工具。

Whisk 隸屬於Google實驗室，這是Google測試其AI 計畫的試驗場，包括Gemini、Imagen 以及最新的視訊模型Veo2等。雖然大多數項目仍處於實驗階段，但一些成功的項目，例如最近正式發布的AI 助理NotebookLM，則會轉變為完整產品。

產品體驗網址：https://top.aibase.com/tool/whisk

劃重點:

谷歌推出Whisk，首個以影像為主導的生成式AI 工具。

使用者可上傳或產生影像，快速進行視覺設計而非精確編輯。

目前僅限美國用戶試用，其他國家暫無法存取。

總而言之，Whisk 作為Google實驗室推出的一個新穎的AI 圖像生成工具，為用戶提供了一種更直觀、更快捷的藝術創作方式，雖然目前仍處於測試階段，但其潛力巨大，未來發展值得期待。期待Whisk 未來能擴展到全球用戶，並進一步優化其功能和效能。