Cui Lingling, manajer umum Departemen Urusan Paten Grup Baidu, merilis "Sepuluh Penemuan Perbatasan Teknologi Teratas Baidu pada tahun 2024": penemuan-penemuan mutakhir yang dipatenkan Baidu di bidang kecerdasan buatan, mencakup terobosan menyeluruh mulai dari algoritme dasar hingga aplikasi skenario. Menurut "Laporan Analisis Teknologi Paten Kecerdasan Buatan Generasi Baru" yang dirilis oleh Pusat Penelitian Pengembangan Keamanan Informasi Industri Nasional dan Pusat Kekayaan Intelektual Elektronik Kementerian Perindustrian dan Teknologi Informasi pada bulan April tahun ini, pada akhir tahun 2023, Baidu telah mengajukan 19.308 paten di seluruh bidang kecerdasan buatan dan memberikan 9.260 paten. Baidu menduduki peringkat pertama di Tiongkok selama enam tahun berturut-turut; di bidang AI generasi baru dengan model besar sebagai intinya, Baidu mengajukan 1.432 paten dan mengesahkan 651, menjadi pemimpin dalam inovasi teknologi dan tata letak paten. Menurut wawasan lanskap paten kecerdasan buatan generatif yang dirilis oleh organisasi basis data paten IFIclaims, permohonan paten kecerdasan buatan generatif Baidu termasuk dalam 10 besar di dunia. Ini adalah satu-satunya inovasi Tiongkok yang masuk dalam daftar, dan teknologi yang dipatenkan mencakup teks , gambar, suara, dan video. Di bidang dasar yang besar, perusahaan ini telah menjadi salah satu dari empat perusahaan di dunia dengan tata letak komprehensif di empat bidang tersebut.
Pada tanggal 12 November, Baidu World 2024 dengan tema "Applications Are Here" akan diadakan di Shanghai. Sebagai konferensi teknologi terkemuka tahun ini, Baidu juga akan merilis hasil-hasil terbarunya, sekali lagi menghadirkan terobosan teknologi dan peluncuran produk yang menarik perhatian.
Sepuluh penemuan teknologi mutakhir Baidu pada tahun 2024 adalah sebagai berikut:
1. Teknologi agen berdasarkan model generatif besar
Teknologi penemuan ini secara inovatif memperkenalkan model berpikir, memungkinkan agen memiliki berbagai kemampuan seperti perencanaan tugas, pemanggilan alat, peningkatan pengetahuan, dan evolusi reflektif. Melalui desain sistematis dan optimalisasi terarah dari kemampuan inti, hal ini dapat mendukung pembangunan skala besar dan penyebaran agen dalam berbagai skenario aplikasi dengan biaya rendah; dengan membangun kemampuan simulasi skala besar, hal ini dapat mempercepat pembangunan dan distribusi agen. Sistem teknis ini telah berhasil digunakan dalam banyak skenario utama seperti Wenxin Intelligent Platform, Merchant Intelligent Agent, Wenxin Quick Code, dll., yang secara signifikan meningkatkan efisiensi penelitian dan pengembangan agen cerdas serta menurunkan ambang batas penelitian dan pengembangan. Diantaranya, agen pedagang menggunakan teknologi kolaborasi multi-model perencanaan + ahli dan teknologi simulasi skala besar untuk meningkatkan kemampuan mereka dalam merefleksikan, mengembangkan dan menggunakan alat, serta membangun kemampuan pemasaran AI yang mengandalkan rekomendasi kode dan sistem agen untuk diintegrasikan DevOps tradisional Kombinasi organik dari rantai alat mendorong eksplorasi mendalam dan implementasi pemrograman pasangan kolaboratif manusia-mesin.
2. Teknologi ko-evolusi multi-model berdasarkan kerangka pelatihan model besar yang efisien
Teknologi inventif ini mengatasi serangkaian masalah sulit baik dari sudut pandang teknik maupun algoritmik. Dalam hal arsitektur teknik, terobosan inovatif menyeluruh mencakup strategi paralel hibrid, efisiensi komunikasi, serta optimalisasi komputasi dan penyimpanan, yang secara signifikan meningkatkan kinerja pelatihan model bahasa besar dan mendukung pelatihan seluruh rangkaian model Wenxin yang efisien dan stabil di seluruh rangkaian model bahasa besar. proses. Dalam hal strategi algoritme, kami telah mengembangkan teknologi pra-pelatihan untuk kolaborasi model besar dan kecil, mengatasi masalah teknis berupa sulitnya pewarisan pengetahuan antar model, mengubah paradigma pelatihan model tradisional, dan mengurangi biaya pelatihan model baru. Berdasarkan penemuan ini, hambatan teknis terhadap model dengan berbagai ukuran telah dibangun, yang telah meningkatkan hasil pelatihan model besar Wenxin sebesar 4,1 kali lipat pada tahun lalu, mendukung Wenxin Yiyan untuk secara efisien memenuhi berbagai macam bisnis dengan kebutuhan dan pemberdayaan yang berbeda. ribuan industri.
3. Sistem cerdas yang mengintegrasikan pembuatan dan kompilasi konten multi-modal berdasarkan model besar dan teknologi peningkatan pengambilan pengetahuan
Teknologi penemuan ini secara komprehensif menggunakan teknologi seperti peningkatan pengetahuan, analisis konten multi-sumber, pengeditan terintegrasi, dan leksikon yang ditingkatkan pengambilan untuk memecahkan masalah seperti lemahnya kualitas produksi artikel panjang profesional dan konten multi-modal, ketidakmampuan untuk berbagi wadah ketika membuat dan mengedit, dan keakuratan bagian utama leksikon yang buruk. Pengambilan gambar tekstual yang disempurnakan bertujuan untuk memproses gambar referensi secara adaptif melalui penilaian cerdas terhadap kebutuhan pengguna. Sistem pembuatan gambar mode campuran secara signifikan meningkatkan konsistensi bagian utama gambar, secara efektif menutupi kekurangan deskripsi konten ekor panjang yang tidak akurat. Secara keseluruhan Efeknya jauh melebihi sistem asli Wenshengtu. Baidu Wenku telah mencapai prestasi luar biasa dalam menghasilkan laporan penelitian industri, presentasi, peta pikiran, dan buku komik secara real-time berdasarkan instruksi pengguna dan konten yang diunggah, serta mendukung tugas-tugas kompleks seperti pengeditan satu atap, konversi lintas modal, dan umum/ gambar yang dipersonalisasi. Peningkatan kinerja yang signifikan. Pada bulan Agustus 2024, Data Yuehu Aurora merilis laporan yang menunjukkan bahwa pangsa pasar PPT pintar Baidu Wenku telah mencapai 80%. Dalam tiga bulan terakhir, tingkat pertumbuhan gabungan skala pengguna telah mencapai 23%, dan tingkat pertumbuhan jauh melebihi tingkat industri. .
4. Mendukung penentuan posisi mengemudi otonom skala besar dan teknologi pembuatan peta tingkat jalur
Teknologi inventif ini memecahkan masalah efisiensi dan biaya model tradisional, mengurangi biaya produksi peta sebesar 95%, dan memiliki jarak tempuh jalan di tingkat jalur lebih dari 3,6 juta kilometer, mencapai cakupan penuh lebih dari 41,000 perkotaan dan pedesaan. kota-kota di seluruh negeri. Teknologi pemosisian presisi tinggi untuk mengemudi otonom berdasarkan fusi sensor multi-modal yang dibangun lebih lanjut berdasarkan data peta memiliki akurasi tingkat sentimeter, yang sangat meningkatkan produksi massal dan mengurangi volume paket peta yang diandalkan oleh pemosisian sisi kendaraan. 97,5%, dan keandalannya mencapai 99,9999%, sepenuhnya mendukung pengoperasian skala besar saat ini dari mengemudi otonom sepenuhnya di Luobo Kuaipao, dan mewujudkan mengemudi otonom penuh dalam berbagai skenario yang kompleks dan sulit seperti di bawah jembatan, jalan berlapis-lapis, dan terowongan.
5. Mekanisme memori yang dipersonalisasi untuk kecerdasan model besar
Teknologi penemuan ini secara inovatif mengusulkan serangkaian mekanisme memori yang komprehensif, mencakup lima modul pemrosesan memori, penyimpanan, manajemen, pemicuan dan pemanfaatan, memberikan model besar kemampuan memori yang dipersonalisasi. Pemrosesan memori memanfaatkan mekanisme hipokampus manusia untuk mencapai pemahaman mendalam dan pemrosesan informasi pengguna yang akurat di semua skenario, manajemen memori mendukung penambahan, penghapusan, dan modifikasi aktif pengguna serta penambahan, penghapusan, dan modifikasi otomatis sistem, memastikan real- pembaruan waktu dan keakuratan bank memori; pemicuan dan pemanfaatan memori, Membantu model besar untuk menghasilkan respons yang lebih antropomorfik dan dipersonalisasi melalui pembuatan memori yang relevan secara spekulatif. Teknologi penemuan ini telah banyak digunakan dalam skenario seperti asisten AI yang cerdas dan manusia digital.
6. Pemodelan manusia digital super realistis, sistem penggerak dan pembangkitan berdasarkan model besar
Teknologi inventif ini mengusulkan serangkaian solusi pemodelan manusia, penggerak, dan pembangkitan digital yang super realistis. Untuk orang-orang digital nyata, kami telah mengembangkan pemodelan potret berbasis data, penggerak lintas-modal, dan model pembuatan video potret besar untuk mencapai produksi konten manusia digital yang alami dan realistis. Kami secara eksklusif mendukung kloning potret langsung dalam adegan aksi & oklusi berskala besar, dan Ruang siaran langsung pertama yang digerakkan oleh kecerdasan seluruh tubuh telah diterapkan. Untuk manusia digital 3D hiper-realistis, kami telah mengembangkan teknologi migrasi modal dan kolaborasi multi-agen berdasarkan model besar Wenxin, sehingga mencapai produksi gambar manusia digital hiper-realistis dan konten operasional dalam jumlah kecil yang sebanding dengan blockbuster film dan televisi dan permainan 3A. Teknologi penemuan ini telah banyak digunakan dalam banyak produk manusia digital 3D dan manusia nyata seperti siaran langsung manusia digital, produksi video, dan badan cerdas.
7. Sistem pengambilan komersial generatif berdasarkan model besar
Teknologi penemuan ini telah mengubah proses "penyortiran-penarikan indeks" tradisional, meratakan saluran sistem, mengurangi kehilangan informasi, dan menyandikan informasi bisnis ke dalam parameter model dengan membangun tugas pembelajaran indeks untuk mencapai "model sebagai indeks" dan memanfaatkan kekuatan besar model. Kemampuan pemahaman dan penalaran, mewujudkan "generasi dan pengambilan", paradigma baru secara signifikan meningkatkan efisiensi orientasi sistem sebesar 120%. Proyek yang terlibat dalam penemuan ini adalah yang pertama diimplementasikan di industri, mewujudkan penerapan industri skala besar. Model besar generatif dikombinasikan dengan skenario pencarian komersial untuk mencapai berbagai inovasi teknologi meningkat sebesar 92%, dan manfaat bisnis yang signifikan serta pengaruh teknis tercapai.
8. Teknologi roda gila data model besar
Teknologi yang diciptakan ini secara otomatis mengidentifikasi cacat model dan secara efisien mensintesis data pelatihan yang beragam dan berkualitas tinggi dengan mengintegrasikan informasi dari berbagai sumber dan bentuk seperti umpan balik pengguna, umpan balik eksekusi, dan umpan balik yang diawasi sendiri. Pada saat yang sama, metode pembelajaran penguatan yang dikombinasikan dengan umpan balik multi-sumber secara signifikan meningkatkan efek pelatihan model. Teknologi inovatif ini membangun roda gila data yang dapat terus meningkatkan dirinya sendiri, secara efektif menerobos kemacetan data pada model besar, mengurangi biaya akuisisi data, meningkatkan kemampuan adaptasi dan ketahanan model besar, dan meningkatkan kinerja model dalam berbagai skenario tugas yang dipercepat evolusi berkelanjutan dari model besar.
9. Teknologi inferensi efisien model besar
Teknologi penalaran efisien yang diusulkan oleh teknologi penemuan ini, lapisan model yang mendasarinya didasarkan pada Flying Paddle Framework. Dalam arah arsitektur penalaran, ia terus berinovasi ke arah arus utama PrefixCaching, Lookahead, PagedAttention, pemisahan PD, dll., dan secara efisien menggabungkan berbagai teknologi untuk meningkatkan throughput dan kinerja model. Dalam hal kompresi model besar, perusahaan mengadopsi teknologi kuantisasi lossless model besar dan mengaktifkan metode seperti pemulusan segmentasi adaptif dan penataan ulang hubungan bobot. Ini adalah yang pertama di industri yang mencapai kompresi lossless yang efisien pada model besar yang berjumlah puluhan miliar dan ratusan miliaran. Penemuan ini mendukung berbagai metode kompresi model besar dan percepatan inferensi, dan telah digunakan dalam bisnis inti seperti platform model besar Baidu Intelligent Cloud Qianfan untuk mengurangi konsumsi sumber daya inferensi model, menghemat biaya penerapan model besar hingga lebih dari 50%, dan meningkatkan kinerja model dan throughput model. Ditingkatkan 3-5 kali lipat.
10. Sistem pengambilan data didorong oleh umpan balik data pengguna
Sistem pembangkitan pengambilan yang diusulkan oleh teknologi inventif ini dapat menggabungkan sinyal umpan balik perilaku pengguna untuk mencapai penguatan diri yang cepat. Menyelaraskan preferensi pengguna secara langsung melalui pemodelan kepuasan dan pembelajaran penguatan, dan menggunakan umpan balik pengguna untuk memicu refleksi sistem yang cepat, memecahkan masalah rendahnya efisiensi umpan balik ahli dan kesulitan dalam pemodelan preferensi pengguna dalam aplikasi data tradisional. Sistem pembuatan pengambilan berdasarkan kerangka ini telah mencakup 18% lalu lintas pencarian dan banyak digunakan dalam skenario pencarian teks, video, gambar, dan lainnya. Karakteristik umpan balik banyak pengguna yang berskala besar dan dapat didaur ulang memungkinkan sistem dengan cepat beradaptasi terhadap perubahan data, produk, dan lingkungan, membantu sistem secara otomatis mencari optimalisasi, dan mempercepat evolusi sistem ke kondisi ideal daya saing pasar.