北京芝埔華庄科技有限公司は、2025 年 1 月 16 日に、新しいエンドツーエンド モデル GLM-Realtime と、GLM-4-Air、GLM-4V-Plus などのアップグレード バージョンを含む一連のメジャー アップデートをリリースしました。すべてのモデル すべてのモデルが bigmodel.cn プラットフォームで起動されました。このアップデートは、言語、音声、画像、ビデオなどの複数のモダリティをカバーしており、マルチモーダル大型モデル技術の分野におけるZhipuの深い蓄積と革新能力を実証し、特別にFlashフルモーダルフリーモデルを発売し、ユーザーの敷居を下げることを目指しています。大型モデルの適用を促進し、大型モデル技術の包括的な開発を促進します。
北京芝浦華庄科技有限公司は、2025 年 1 月 16 日に一連の新モデルの発売を発表し、bigmodel.cn で公開しました。 8月の「Zhipu Qingyan」の発売に続き、同社は言語、音声、画像とビデオの理解と生成の分野で徹底的な探求を行い、GLM-Voice、GLM-4V、GLM-4V、 CogView、CogVideoX。
今回発売する新エンドツーエンドモデル「GLM-Realtime」は、低遅延の映像理解と音声インタラクションを実現し、アカペラ機能を搭載し、最大2分のメモリーと関数呼び出し機能をサポートする。同社は、GLM-4-Air モデルと GLM-4V-Plus モデルも同時にアップグレードし、業界最強のパフォーマンスとコスト効率の高い言語モデル ソリューションを提供することに尽力しています。 Zhipu は常に高度な大型モデル技術で社会に貢献することに尽力しており、言語、テキスト画像、テキストビデオ、画像理解などの複数のシナリオをカバーする Flash フルモードの無料モデルを特別にセットアップし、開発者が簡単に目標を達成できるように支援します。アプリケーションの革新。
GLM-Realtime は、ビデオ通話用の 2 分間のコンテンツ メモリ機能を備え、音声インタラクションでのアカペラ歌唱機能を革新的に実装し、大型モデルが会話の中で歌うことを可能にします。同社はリアルタイム API をスマートグラスとコンパニオン人形に統合し、ユーザーがスマートアシスタントとのほぼリアルタイムの対話を体験できるようにしています。 Realtime はさらに Function Call 機能をサポートしており、独自の知識と機能を利用して外部の知識とツールを柔軟に呼び出して、より幅広いビジネス シナリオに拡張できます。 GLM-Realtime API はオープン プラットフォーム bigmodel.cn で開始されており、現在は無料で呼び出すことができます。
発売以来、コストパフォーマンスの高さで開発者から好評を博してきたGLM-4-Airが、今回、トレーニングデータとプロセスを最適化することで、一部の次元での性能に近い性能を実現しました。大型モデルの GLM-4-Plus と比べて、同時にモデルの価格が元の価格の 50% に引き下げられ、大型モデルへの適用の敷居が下がります。視覚的理解モデル GLM-4V-Plus も完全にアップグレードされ、複数のパブリック リストのパフォーマンスが大幅に向上し、さまざまなサイズの画像入力に適応し、小さな画像シナリオでのトークン消費量が大幅に削減されました。 4K 超鮮明な画像および極端なアスペクト比画像のロスレス認識をサポートし、最大 2 時間のビデオ理解機能を備え、長時間のビデオの理解と分析のための効率的かつ正確なソリューションを提供します。
Zhipu は、開発者の革新を支援するために、大規模モデルの包括性に取り組んでおり、無料で社会全体にオープンな Flash シリーズの包括的モデル API を特別に設定しました。業界初のオールモーダルフリーモデルシリーズとして、開発者は言語、マルチモーダル理解、マルチモーダル生成機能を無料で呼び出すことができます。近い将来、言語モデル GLM-4-Flash、画像理解モデル GLM-4V-Flash、画像生成モデル CogView-3-Flash、ビデオ生成モデル CogVideoX-Flash など、Flash シリーズが完全にアップグレードされる予定です。
Zhipu Huazhangがリリースしたモデルのアップグレードと新モデルは、人工知能の分野での強力な技術力を証明するだけでなく、大型モデル技術の普遍化を促進し、開発者とユーザーにより便利でより強力なAIを提供するという同社の決意を反映しています。将来的には、より革新的なアプリケーションの登場に期待する価値があります。