Gelingshentong オープンソース視覚言語表現学習モデル RWKV-CLIP
Gelingshentong は、Transformer と RNN の利点を組み合わせた視覚言語表現学習器である RWKV-CLIP モデルをオープンソース化しました。このモデルは、画像とテキストの事前トレーニング タスクを通じて Web サイトから取得した画像とテキストのペアを使用してデータ セットを拡張することにより、視覚タスクと言語タスクのパフォーマンスを大幅に向上させます。ノイズの多いデータの問題を解決し、データ品質を向上させるには
2024-12-13