北京大学のチームは、GPT-o1 に匹敵する推論能力を備えたマルチモーダル モデル LLaVA-o1 をリリースしました。 - AIの記事
最近、北京大学とその他の科学研究チームは、LLaVA-o1 と呼ばれるマルチモーダル オープンソース モデルのリリースを発表しました。これは、GPT-o1 に匹敵する、自発的かつ体系的な推論が可能な初の視覚言語モデルと言われています。このモデルは、6 つの困難なマルチモーダル ベンチマークで良好なパフォーマンスを示し、その 11B パラメーター バージョンは、次のような他の競合製品を上回っています。
2025-01-26