テキストモデルとビジョンモデルの両方での迅速なエンジニアリング技術の理解を高めるように設計された「ビジョンモデルの迅速なエンジニアリング」コースを調べてください。このコースでは、さまざまなビジョンモデルを効果的に促し、微調整することができます。
このコースでは、Visionモデルの迅速なエンジニアリングの領域を掘り下げ、Meta's Anything Anything Model(SAM)、Owl-vit、およびStable Diffusion 2.0などのモデルを促すテクニックを調査します。これがあなたが学ぶことです:
画像生成:テキスト付きのプロンプトビジョンモデルとハイパーパラメーターを調整して、目的の特性を持つ画像を生成します。
画像セグメンテーション:境界ボックス座標とともに正または負の座標を使用して、正確な画像セグメンテーションのモデルを促します。
オブジェクトの検出:自然言語プロンプトを使用して、境界ボックスを生成し、画像内の特定のオブジェクトを分離します。
インペインティング:オブジェクトの検出、画像セグメンテーション、画像生成技術を組み合わせて、画像内のオブジェクトを生成されたコンテンツに置き換えます。
微調整によるパーソナライズ:DreamBoothというテクニックを使用して、人や場所の提供された写真に基づいてカスタム画像を生成するための微調整拡散モデル。
反復と実験の追跡:視覚的なプロンプトエンジニアリングワークフローの最適化に役立つライブラリであるCometを使用して、実験を効果的に追跡する方法を学びます。
テキスト、座標、および境界ボックスを備えたプロンプトビジョンモデル、必要な出力特性のためにハイパーパラメーターをチューニングします。
?インペインティングを使用して、画像の一部を生成されたコンテンツに置き換え、さまざまなビジョンモデルの手法を組み合わせています。
カスタム画像を使用したパーソナライズを含む、正確な画像生成のための拡散モデルを微調整します。
Cometを使用して効率的に実験を追跡し、視覚的なプロンプトエンジニアリングワークフローを最適化します。
Abby Morgan 、 JacquesVerré 、およびCaleb Kaiserは、 Cometのベテランの機械学習エンジニアであり、ビジョンモデルプロンプトエンジニアリングの複雑さを導くために専門知識をもたらします。
登録と追加の詳細については、deeplearning.aiにアクセスしてください。