阿里巴巴開源了其圖像文本生成與編輯模型AnyText,該模型能夠在圖像中生成任意精準文本,並支援多種語言,包括中文。使用者可以自訂文字位置、圖片強度等參數,產生符合需求的圖像。 更重要的是,阿里還同步開源了AnyWord-3M資料集,包含300萬個圖像-文字對,涵蓋中、英、日、韓等多種語言,這將極大提升AnyText模型的文字處理能力,推動圖像文字生成技術的進一步發展。
阿里開源的圖像文本生成與編輯模型AnyText能夠在圖像中產生任意精準文本,包括中文。此模型支援自訂規劃文字出現的位置、圖片的強度等參數,產生符合要求的文生影像。同時,阿里也開源了AnyWord-3M資料集,用來提升AnyText的文字能力。此資料集包含了300萬個圖像-文字對,涵蓋中文、英文、日文、韓文等多種語言。
AnyText模型的開源以及AnyWord-3M數據集的發布,標誌著阿里巴巴在圖像文本生成領域取得了顯著進展,為研究者和開發者提供了強大的工具和資源,有望推動該領域的技術創新和應用落地,進一步提升影像文字處理的效率與精確度。