Artikel ini mengulas delapan tahap pengembangan utama model Beanbao sejak dirilis pada 15 Mei 2024, menunjukkan kinerjanya yang luar biasa dalam pengenalan suara, pembuatan musik, pembuatan video, pengeditan gambar, kemampuan pemrograman, pemahaman teks, persepsi visual, dll. kemajuan. Dari terobosan awal pengenalan suara hingga realisasi akhir model universal Doubao-pro yang selaras dengan kemampuan GPT-4, model Doubao telah mencapai hasil luar biasa hanya dalam 230 hari, menunjukkan kekuatan teknis dan potensi pengembangan yang kuat. Artikel ini merinci terobosan teknologi dan skenario penerapan pada setiap tahap, dan mengilustrasikan beberapa fungsinya dengan gambar.
1. Terobosan dalam pengenalan ucapan dan ekspresi emosiModel Doubao mencapai terobosan besar dalam bidang pengenalan suara pada bulan Juli: model ini dapat memahami percakapan campuran dalam lebih dari 20 dialek, dan memiliki kemampuan berpikir sambil mendengarkan. Tidak hanya itu, ia telah belajar mengekspresikan emosi dalam percakapan, dapat menyela dengan bebas dalam interaksi, dan bahkan mempertahankan kebiasaan bahasa manusia seperti menelan dan aksen. Teknologi inti di balik ini adalah model pengenalan suara beanbag Seed-ASR dan model dasar pembuatan suara Seed-TTS. Model ini mengintegrasikan lebih banyak data dan rantai penalaran, sehingga memberikan kemampuan generalisasi yang sangat kuat.
2. Lahirnya kelompok AIPada bulan September, model besar Doubao secara kreatif mewujudkan konsep "AI band". Dari penulisan lagu, pembuatan pertunjukan hingga nyanyian vokal, Doubao Master telah menguasai lebih dari 10 keterampilan penciptaan musik dan dapat memberikan inspirasi tak terduga dalam penciptaan musik. Teknologi di baliknya adalah kerangka Seed-Music, yang menggabungkan keunggulan model bahasa dan model difusi untuk menerapkan kerangka universal untuk pembuatan musik dan memiliki kemampuan kontrol pengeditan yang sangat tinggi.
3. Pembuatan video dan kontrol lensa yang akuratPada bulan yang sama, model bean bag semakin mendobrak batasan penciptaan, mampu mengikuti kata-kata cepat yang rumit, menghasilkan video definisi tinggi multi-subjek, dan mengontrol sudut kamera secara akurat. Dengan bantuan dua model generasi video, PixelDance dan Seaweed, Doubao Big Model dapat menghasilkan video berkualitas tinggi dan efek suara secara simultan, sehingga memberikan pengalaman visual yang lebih realistis dan indah kepada para pembuat konten.
4. Peningkatan kemampuan pengeditan dan pembuatan gambarPada bulan November, Doubao Big Model menguasai kemampuan "gambar P satu kalimat" dan "pembuatan poster sekali klik". Pengguna hanya memerlukan perintah teks sederhana untuk melakukan pengeditan gambar dan pembuatan teks secara tepat. Melalui model grafik Vincent yang terus berulang, SeedEdit, Doubao dapat secara akurat menyajikan adegan kompleks dan menyediakan pengeditan gambar berbasis bahasa alami.
5. Lompatan dalam kemampuan pemrogramanMemasuki bulan Desember, kemampuan pemrograman Doubao telah meningkat pesat, dan dia telah menjadi programmer AI dan analis data. Melalui Doubao MarsCode, pengguna dapat dengan mudah mengimplementasikan penulisan kode, pemrosesan data, dan analisis visual. Model kode besar Doubao Doubao-coder sangat mendukung 16 bahasa pemrograman dan dapat memenuhi kebutuhan pemrograman full-stack seperti pengembangan front-end dan back-end serta pembelajaran mesin.
6. Kemampuan pemahaman dan pemrosesan teks yang ekstrimModel besar Doubao juga menerobos batas jendela konteks, meningkatkannya menjadi 3 juta kata, mampu memproses teks lebih besar, dan dengan penundaan pemrosesan hanya 15 detik per juta token. Melalui algoritme data tertaut seperti STRING, model besar Beanbao dapat dengan cepat memperoleh pengetahuan eksternal yang sangat besar dan memberikan kemampuan pemahaman yang lebih akurat.
7. Terobosan dalam persepsi visual dan pemikiran mendalamPada pertengahan Desember, model bean bag besar mencapai persepsi visual dan mampu mengintegrasikan berbagai indera untuk berpikir mendalam. Ia tidak hanya dapat memahami gambar secara akurat, tetapi juga melakukan operasi yang kompleks, seperti mengambil gambar soal matematika kalkulus, menunjukkan kemampuan pembelajaran dan penalaran lintas-modal yang sangat baik.
8. Model umum Doubao-pro yang ditingkatkan sepenuhnyaPada pertengahan Desember, model umum Doubao Doubao-pro ditingkatkan sepenuhnya, kemampuannya sepenuhnya selaras dengan GPT-4, dan belajar untuk "bercermin" selama proses jawaban. Peningkatan ini meningkatkan akurasi pemahaman dan kualitas generasi Doubao-pro, menjadikannya "pejuang segi enam" yang efisien dengan kinerja seimbang dalam berbagai kemampuan dan menjadi tolok ukur lain di bidang AI.
Tahun ini, tim Doubao Big Model telah mencapai kemajuan signifikan dalam penelitian AI dasar. Tim ini telah menerbitkan 57 makalah dan tampil di konferensi terkemuka seperti ICLR, CVPR, dan NeurIPS. Selain itu, tim Doubao Big Model menjalin kerja sama mendalam dengan banyak universitas ternama dan mendirikan laboratorium bersama untuk mendorong pengembangan teknologi AI.
Model bean bag besar tidak hanya merupakan terobosan teknologi, tetapi juga banyak digunakan di banyak industri. Melalui Volcano Engine, Doubao Big Model melayani lebih dari 30 industri, dan rata-rata panggilan token harian melebihi 4 triliun, meningkat 33 kali lipat sejak dirilis pada bulan Mei.
Alamat resmi: https://mp.weixin.qq.com/s/KVfu86njzyK2iK4j6VJONw
Secara keseluruhan, perkembangan pesat dan penerapan model bean bag secara luas menunjukkan potensi besar teknologi kecerdasan buatan di berbagai bidang, dan perkembangannya di masa depan patut dinantikan.