Keluarga model besar Doubao telah ditingkatkan sepenuhnya, dan model pemahaman visual serta model musik 4.0 telah diluncurkan.

Penulis：Eve Cole Waktu Pembaruan：2024-12-25 13:00:02

Pada FORCE Motive Power Conference pada tanggal 18 Desember 2024, Volcano Engine merilis peningkatan komprehensif dari rangkaian model beanbag besar. Yang paling menarik perhatian adalah peluncuran model pemahaman visual baru. Model ini mendukung input teks dan gambar secara bersamaan, memiliki kemampuan pengenalan, pemahaman, dan penalaran yang lebih kuat, serta memberikan layanan kepada pengguna dengan harga yang sangat kompetitif. Peningkatan ini tidak hanya meningkatkan kemampuan aplikasi model besar Beanbao di berbagai bidang, namun juga menandai bahwa teknologi pemahaman visual telah memasuki tahap pengembangan baru, menghadirkan solusi AI yang lebih nyaman dan efisien bagi perusahaan dan pengembang.

Pada Volcano Engine FORCE Motive Power Conference pada tanggal 18 Desember 2024, Volcano Engine mengumumkan peningkatan komprehensif dari keluarga model besar Beanbao dan merilis model pemahaman visual yang benar-benar baru.

Tan Dai, presiden Volcano Engine, mengatakan bahwa rata-rata penggunaan harian token dalam model Doubao telah berkembang pesat dalam beberapa bulan terakhir, mencapai lebih dari 4 triliun, meningkat 33 kali lipat dibandingkan saat dirilis pada bulan Mei. Tren yang berkembang ini menunjukkan meluasnya penggunaan model beanbag besar dalam berbagai skenario aplikasi.

Kali ini, Volcano Engine meluncurkan model pemahaman visual, yang memungkinkan pengguna memasukkan pertanyaan teks dan gambar secara bersamaan, dan model tersebut dapat memahami secara komprehensif dan memberikan jawaban yang akurat. Inovasi ini akan sangat menyederhanakan proses pengembangan aplikasi dan mengaktifkan potensi model besar di lebih banyak skenario.

Model pemahaman visual memiliki kemampuan pengenalan konten yang lebih kuat. Model ini tidak hanya dapat mengidentifikasi elemen dasar seperti kategori dan bentuk objek dalam gambar, tetapi juga memahami hubungan antar objek, tata ruang, dan makna pemandangan secara keseluruhan. Misalnya mengidentifikasi bayangan, mengidentifikasi pengetahuan alam, dan lain-lain.

Model pemahaman visual memiliki kemampuan pemahaman dan penalaran yang lebih kuat. Model ini tidak hanya dapat mengidentifikasi konten dengan lebih baik, tetapi juga melakukan perhitungan logis yang kompleks berdasarkan informasi teks dan gambar yang dikenali, seperti penalaran grafis dan penalaran fisik.

Selain itu juga mempunyai kemampuan deskripsi visual yang lebih halus, yaitu dapat mendeskripsikan isi gambar secara lebih detail berdasarkan informasi gambar, serta dapat menciptakan berbagai macam gaya sastra, seperti pembuatan gambar, pembuatan puisi gambar, dan lain-lain.

Model pemahaman visual Doubao menunjukkan prospek penerapan yang luas di banyak bidang seperti pendidikan, pariwisata, dan e-commerce. Misalnya, di bidang pendidikan, model dapat membantu siswa mengoptimalkan komposisi dan pengetahuan sains populer; di bidang pariwisata, model dapat memberikan terjemahan menu asing dan penjelasan latar belakang pengetahuan arsitektur kepada wisatawan; karakteristik produk secara detail, sehingga meningkatkan efektivitas periklanan.

Biaya penggunaan model pemahaman visual juga sangat dekat dengan masyarakat. Harga per seribu token adalah 0,003 yuan, 85% lebih rendah dari harga rata-rata industri. Tingkat harga ini memungkinkan setiap dolar untuk memproses hingga 284 gambar 720P, menandai masuknya teknologi pemahaman visual ke dalam "era centi". Selain itu, Volcano Engine juga memberikan dukungan lalu lintas awal hingga 15.000 kepada perusahaan dan pengembang untuk membantu mereka memanfaatkan teknologi ini dengan lebih baik.

Pada konferensi ini, Volcano Engine tidak hanya merilis model pemahaman visual, tetapi juga meningkatkan beberapa model lainnya. Kemampuan pemrosesan tugas komprehensif Doubao Universal Model Pro telah meningkat sebesar 32% dibandingkan bulan Mei, dan juga terdapat peningkatan signifikan di berbagai bidang seperti penalaran, mengikuti instruksi, pengkodean, dan matematika. Pada saat yang sama, model beanbag dan pembuatan video akan dibuka untuk umum pada Januari 2025, dan perusahaan dapat membuat janji untuk menggunakannya.

Untuk meningkatkan kemampuan akuisisi informasi dan rekomendasi pencarian perusahaan, Volcano Engine juga telah meluncurkan layanan pencarian AI global untuk membantu perusahaan menghubungkan informasi dan kebutuhan pengguna dengan lebih baik, serta memfasilitasi transformasi cerdas di berbagai industri.

Highlight:

Rata-rata penggunaan token harian Doubao Big Model mencapai 4 triliun, meningkat 33 kali lipat dibandingkan bulan Mei.

Model pemahaman visual yang baru diluncurkan mendukung input teks dan gambar secara bersamaan, dan cocok untuk bidang-bidang seperti pendidikan, pariwisata, dan e-commerce.

Biaya penggunaan per seribu token hanya 0,003 yuan, jauh lebih rendah dari harga rata-rata industri.

Singkatnya, peningkatan model bean bag besar dan model pemahaman visual baru yang dirilis oleh Volcano Engine kali ini menunjukkan inovasi berkelanjutan di bidang kecerdasan buatan dan pemahaman mendalam akan kebutuhan pengguna, memberikan dukungan teknis yang kuat untuk transformasi cerdas di berbagai industri.

​Keluarga model besar Doubao telah ditingkatkan sepenuhnya, dan model pemahaman visual serta model musik 4.0 telah diluncurkan.

Keluarga model besar Doubao telah ditingkatkan sepenuhnya, dan model pemahaman visual serta model musik 4.0 telah diluncurkan.