บทความนี้จะทบทวนขั้นตอนการพัฒนาหลัก 8 ขั้นตอนของโมเดล Beanbao นับตั้งแต่เปิดตัวในวันที่ 15 พฤษภาคม 2024 ซึ่งแสดงให้เห็นถึงประสิทธิภาพที่โดดเด่นในการรู้จำคำพูด การสร้างเพลง การสร้างวิดีโอ การแก้ไขภาพ ความสามารถในการเขียนโปรแกรม การทำความเข้าใจข้อความ การรับรู้ภาพ ฯลฯ ความคืบหน้า. ตั้งแต่ความก้าวหน้าในการรู้จำเสียงเริ่มต้นไปจนถึงการบรรลุขั้นสุดท้ายของโมเดลสากล Doubao-pro ที่สอดคล้องกับความสามารถของ GPT-4 โมเดล Doubao ประสบความสำเร็จอย่างน่าทึ่งในเวลาเพียง 230 วัน ซึ่งแสดงให้เห็นถึงความแข็งแกร่งทางเทคนิคที่แข็งแกร่งและศักยภาพในการพัฒนา บทความนี้ให้รายละเอียดเกี่ยวกับความก้าวหน้าทางเทคโนโลยีและสถานการณ์การใช้งานในแต่ละขั้นตอน และแสดงฟังก์ชันบางอย่างพร้อมรูปภาพ
1. ความก้าวหน้าในการรู้จำคำพูดและการแสดงออกทางอารมณ์โมเดล Doubao ประสบความสำเร็จอย่างยิ่งใหญ่ในด้านการรู้จำคำพูดในเดือนกรกฎาคม โดยสามารถเข้าใจบทสนทนาแบบผสมในภาษาถิ่นมากกว่า 20 ภาษา และมีความสามารถในการคิดขณะฟัง ไม่เพียงเท่านั้น ยังได้เรียนรู้ที่จะแสดงอารมณ์ในการสนทนา สามารถแทรกแซงในการโต้ตอบได้อย่างอิสระ และยังคงรักษานิสัยทางภาษาของมนุษย์ เช่น การกลืนและสำเนียง เทคโนโลยีหลักที่อยู่เบื้องหลังนี้คือโมเดลการรู้จำเสียงบีนแบ็ก Seed-ASR และโมเดลฐานการสร้างเสียงพูด Seed-TTS โมเดลเหล่านี้ผสานรวมห่วงโซ่ข้อมูลและการใช้เหตุผลที่หลากหลาย ทำให้มีความสามารถในการสรุปข้อมูลทั่วไปที่แข็งแกร่งอย่างยิ่ง
2.การกำเนิดของวงเอไอในเดือนกันยายน โมเดลขนาดใหญ่ Doubao ได้ตระหนักถึงแนวคิดของ "AI band" อย่างสร้างสรรค์ ตั้งแต่การแต่งเพลง การแสดง ไปจนถึงการร้องเพลง Doubao Master เชี่ยวชาญทักษะการสร้างสรรค์ดนตรีมากกว่า 10 ทักษะ และสามารถนำแรงบันดาลใจที่ไม่คาดคิดมาสู่การสร้างสรรค์ดนตรี เทคโนโลยีเบื้องหลังคือเฟรมเวิร์ก Seed-Music ซึ่งรวมข้อดีของโมเดลภาษาและโมเดลการแพร่กระจายเพื่อใช้เฟรมเวิร์กสากลสำหรับการสร้างเพลงและมีการควบคุมการตัดต่อที่สูงมาก
3. การสร้างวิดีโอและการควบคุมเลนส์ที่แม่นยำในเดือนเดียวกัน รุ่นบีนแบ็กได้ทลายขีดจำกัดของการสร้างสรรค์มากขึ้น สามารถทำตามคำที่ซับซ้อน สร้างวิดีโอที่มีความคมชัดสูงหลายเรื่อง และควบคุมมุมกล้องได้อย่างแม่นยำ ด้วยความช่วยเหลือของโมเดลการสร้างวิดีโอสองรุ่น ได้แก่ PixelDance และ Seaweed ทำให้ Doubao Big Model สามารถสร้างวิดีโอและเอฟเฟกต์เสียงคุณภาพสูงพร้อมกันได้ ช่วยให้ผู้สร้างได้รับประสบการณ์ภาพที่สมจริงและชวนฝันมากขึ้น
4. การอัพเกรดความสามารถในการแก้ไขและสร้างภาพในเดือนพฤศจิกายน Doubao Big Model เชี่ยวชาญความสามารถของ "รูปภาพ P ประโยคเดียว" และ "การสร้างโปสเตอร์ในคลิกเดียว" ผู้ใช้ต้องการเพียงคำสั่งข้อความง่ายๆ เพื่อแก้ไขภาพและสร้างข้อความได้อย่างแม่นยำ ด้วยโมเดลกราฟ Vincent SeedEdit ที่ทำซ้ำอย่างต่อเนื่อง ทำให้ Doubao สามารถนำเสนอฉากที่ซับซ้อนได้อย่างแม่นยำ และให้การแก้ไขภาพที่ขับเคลื่อนด้วยภาษาที่เป็นธรรมชาติ
5. ความสามารถในการเขียนโปรแกรมแบบก้าวกระโดดเมื่อเข้าสู่เดือนธันวาคม ความสามารถในการเขียนโปรแกรมของ Doubao ได้รับการปรับปรุงอย่างมาก และเขาได้กลายเป็นโปรแกรมเมอร์ AI และนักวิเคราะห์ข้อมูล ผู้ใช้สามารถใช้การเขียนโค้ด การประมวลผลข้อมูล และการวิเคราะห์ภาพได้อย่างง่ายดายผ่าน Doubao MarsCode Doubao-coder โมเดลโค้ดขนาดใหญ่ของ Doubao รองรับภาษาการเขียนโปรแกรม 16 ภาษาอย่างลึกซึ้ง และสามารถตอบสนองความต้องการของการเขียนโปรแกรมแบบฟูลสแตก เช่น การพัฒนาส่วนหน้าและส่วนหลัง และการเรียนรู้ของเครื่อง
6. ความสามารถในการทำความเข้าใจและประมวลผลข้อความขั้นสูงโมเดลขนาดใหญ่ Doubao ยังทะลุขีดจำกัดของหน้าต่างบริบท โดยเพิ่มเป็น 3 ล้านคำ สามารถประมวลผลข้อความขนาดใหญ่ได้ และมีความล่าช้าในการประมวลผลเพียง 15 วินาทีต่อล้านโทเค็น ด้วยอัลกอริธึมข้อมูลที่เชื่อมโยง เช่น STRING โมเดลขนาดใหญ่ของ Beanbao สามารถรับความรู้ภายนอกจำนวนมหาศาลได้อย่างรวดเร็ว และมอบความสามารถในการทำความเข้าใจที่แม่นยำยิ่งขึ้น
7. ความก้าวหน้าในการรับรู้ทางสายตาและการคิดอย่างลึกซึ้งในช่วงกลางเดือนธันวาคม บีนแบ็กรุ่นใหญ่มีการรับรู้ทางสายตา และสามารถบูรณาการประสาทสัมผัสหลายด้านเพื่อการคิดเชิงลึก ไม่เพียงแต่สามารถเข้าใจภาพได้อย่างแม่นยำ แต่ยังดำเนินการที่ซับซ้อน เช่น การถ่ายภาพปัญหาคณิตศาสตร์แคลคูลัส ซึ่งแสดงให้เห็นถึงความสามารถในการเรียนรู้แบบข้ามโมดัลและการให้เหตุผลที่ยอดเยี่ยม
8. รุ่นทั่วไป Doubao-pro ที่ได้รับการอัพเกรดอย่างสมบูรณ์ในช่วงกลางเดือนธันวาคม Doubao รุ่นทั่วไป Doubao-pro ได้รับการอัปเกรดอย่างสมบูรณ์ ความสามารถของมันสอดคล้องกับ GPT-4 อย่างสมบูรณ์ และเรียนรู้ที่จะ "ไตร่ตรอง" ในระหว่างกระบวนการตอบคำถาม การอัปเกรดนี้ช่วยปรับปรุงความเข้าใจความแม่นยำและคุณภาพการสร้างของ Doubao-pro ทำให้เป็น "นักรบหกเหลี่ยม" ที่มีประสิทธิภาพพร้อมประสิทธิภาพที่สมดุลในความสามารถต่างๆ และกลายเป็นอีกหนึ่งเกณฑ์มาตรฐานในด้าน AI
ในปีนี้ ทีม Doubao Big Model มีความก้าวหน้าอย่างมากในการวิจัย AI ขั้นพื้นฐาน ทีมงานได้ตีพิมพ์เอกสาร 57 ฉบับและปรากฏตัวในการประชุมชั้นนำ เช่น ICLR, CVPR และ NeurIPS นอกจากนี้ ทีมงาน Doubao Big Model ยังมีความร่วมมือเชิงลึกกับมหาวิทยาลัยชั้นนำหลายแห่ง และจัดตั้งห้องปฏิบัติการร่วมเพื่อส่งเสริมการพัฒนาเทคโนโลยี AI
บีนแบ็กขนาดใหญ่ไม่เพียงแต่เป็นความก้าวหน้าทางเทคโนโลยีเท่านั้น แต่ยังมีการใช้กันอย่างแพร่หลายในหลายอุตสาหกรรมอีกด้วย Doubao Big Model ให้บริการแก่อุตสาหกรรมต่างๆ มากกว่า 30 อุตสาหกรรมผ่าน Volcano Engine และมีการเรียกใช้โทเค็นเฉลี่ยต่อวันเกินกว่า 4 ล้านล้าน ซึ่งเพิ่มขึ้น 33 เท่าจากเวลาที่เปิดตัวในเดือนพฤษภาคม
ที่อยู่อย่างเป็นทางการ: https://mp.weixin.qq.com/s/KVfu86njzyK2iK4j6VJONw
โดยรวมแล้ว การพัฒนาอย่างรวดเร็วและการประยุกต์ใช้โมเดลบีนแบ็กอย่างกว้างขวาง บ่งชี้ถึงศักยภาพมหาศาลของเทคโนโลยีปัญญาประดิษฐ์ในสาขาต่างๆ และการพัฒนาในอนาคตก็คุ้มค่ากับการรอคอย