Kuaishouは最近、主要な技術的ブレークスルーをリリースし、独立して開発された画像生成モデル「Kotu Kolors」を公式に開放しました。このモデルは、人工知能の分野におけるKuaishouの深い蓄積を表しているだけでなく、画像生成技術における革新的な強さも示しています。 Kotu Kolorsのリリースは、特に画像生成と処理の分野でのAIテクノロジーの適用におけるKuaishouにとって、Kuaishouにとってもう1つの重要なブレークスルーをマークし、クリエイターに強力なツールサポートを提供します。
コロスの中心的な利点は、その強力な言語理解とイメージ生成能力です。このモデルは、一般的な言語モデル(GLM)をテキストエンコーダーとして使用し、中国語と英語のバイリンガルの迅速な単語をサポートし、最大256トークンのコンテキストを処理できます。これは、ユーザーが複雑なシーンデザインであろうと繊細な感情表現であろうと、詳細なテキストの説明を通じて期待に非常に沿った画像を生成できることを意味します。このモデルを通して達成できます。
トレーニングデータの観点から、Kolorsは数十億のテキスト画像に基づいて深く訓練します。これにより、モデルに豊富な知識ベースが与えられ、多様で正確な画像の生成が可能になります。このモデルは、中国の文化的要素に最適化されていることに特に言及しています。
さらに、Kotokolorsは中国のテキスト生成で特にうまく機能しました。中国の迅速な言葉を理解するだけでなく、生成された画像に中国のテキストを埋め込み、画像により表現力のある力を加えました。これは、実際のテストで完全に検証されています。モデルは非常に高い精度を持ち、ユーザーのニーズをほぼ完全に提示できます。
実際のアプリケーションでは、Koto Kolorsはその強力な世代能力を実証しています。たとえば、「Lieed Flat Kitten」をテーマに画像を生成する場合、モデルは中国の迅速な単語の要件を完全に提示でき、画像のテキストは明確で正確です。ただし、英語の迅速な単語を使用する場合、モデルのパフォーマンスはわずかに不十分であり、単語やタイプミスが欠けている傾向があります。これは、コロスは中国の加工でうまく機能しているが、英語世代の改善の余地がまだあることを示しています。
Kolorsの背後には、Kuaishouの強力な技術サポートがあります。このモデルはSDXLアーキテクチャに基づいており、ChatGlm256テクノロジーを組み込んでおり、バイリンガルの理解とテキスト生成機能をさらに強化しています。ただし、このモデルを実行するには、ハードウェアデバイスに高い需要を置き、一部のユーザーの使用を制限する可能性のある大きなビデオメモリ(約19GB)が必要であることは注目に値します。
Kuaishouの今回のオープンソースは、テクノロジーコミュニティへの貢献であるだけでなく、創造的な自由の大胆な昇進でもあります。オープンソースを通じて、Kuaishouは、より多くの開発者、デザイナー、アーティストがこのツールを使用して、芸術的創造におけるAIの無限の可能性を探ることができることを望んでいます。同時に、これはAIテクノロジーの分野でのKuaishouの決定と強さも示しており、将来的にはより革新的な技術が実際のシナリオに適用されることを示しています。
Koto Kolorsのオープンソースプランには、CN(ControlNet)サポート、LORA(低ランクの適応)、IPA(画像プロンプト適応)、Comfyuiの直接サポートも含まれます。よりスムーズでパーソナライズされています。
一般に、Kotu Kolorsのリリースは、AIテクノロジーの分野におけるKuaishouにとって重要なブレークスルーであるだけでなく、画像生成テクノロジーの革新でもあります。強力な言語の理解とイメージ生成機能を通じて、ユーザーに新しいクリエイティブツールを提供し、芸術的創造におけるAIテクノロジーを適用するための新しいパスを開きます。
Ketuの公式ウェブサイト:https://top.aibase.com/tool/kuaishouketudamoxingkolors
プロジェクトアドレス:https://top.aibase.com/tool/kolors