超級應用什麼時候才能出現?這或許是過去一年AI產業最普遍的焦慮。
人們很容易把人工智慧和PC網路或行動網路相比,兩者出現幾年後便有了廣受歡迎的超級應用。但人工智慧是工業革命級的技術浪潮,人工智慧超級應用的出現時間,與蒸汽機和電力出現後超級應用的出現時間更具可比性。
1776年,第一台有實用價值的蒸汽機被製造出來,成為萬能的原動機,引領著人類社會邁入“蒸汽時代”,直到1800年代後,蒸汽機才大規模地應用於鐵路和航運,並廣泛應用於各種工業部門。熱力學第二定律出現,更是接近100年後的事;電力革命同樣是這樣一個演進過程,電力發明掀起了第二次工業革命的高潮,電廠、電燈、流水線等出現,都是在電之後,經歷數十年時光逐步演變出來的新的業態。
所以,人工智慧時代的超級應用一定會出現,但時機還沒到。過去一年,AI產業都在追求所謂的“超級應用”,似乎有點急功近利。
大模型作為基礎技術,本身並不會直接產生實用價值。基於基礎大模型,建構出來的各類應用,才是模型存在的意義。對於ai應用程式開發者和創業者來說,最好的策略顯然不是死磕agi或“超級應用”,而是小步快跑、持續迭代,做出超級有用的應用。
近期,在2024百度世界大會上,百度公佈了旗下文心大模型的最新數據:半年前,文心大模型API日調用量是2億,現在則超過了15億,短短半年增長7.5倍。這既是中國AI應用爆發的縮影,也說明大模型對應用真正產生了實際價值。
很長一段時間內,國內大模型很難賣到其他行業,一位業內人士曾向36氪表示,「無論是智能硬件,還是AI智能體,業內的需求非常強烈,但很少有人真的願意買單,因為大模型生成效果太差,到處都是幻覺」。受限於多模態能力的發展,生成式人工智慧在最初的使用體驗上更接近簡單的對話bot,一開始用戶有嚐鮮需求,但由於體驗一般,留存很差。
而過去一年,大模型最大的變化就是基本上消除了“幻覺”,讓模型變得可用。大模型本質上是一個機率模型,在文本生成中,自動生成下一個最可能的文本,這導致了AI常常出現“幻覺”,也就是所謂的“一本正經的胡說八道”。
要基於大模型開發應用,就必須消除「幻覺」。 AI產業普遍透過檢索增強技術(RAG,Retrieval-augmented Generation),基本上消除了大模型生成文字的幻覺,使大模型具備了實用價值。而多模態技術要實用,也需要準確度與可控性,來拓展AI應用空間。
百度在這次世界大會上發布了全新的iRAG(image based RAG)-檢索增強的文生圖技術。百度在今年初決定解決多模態生成「幻覺」問題,讓文生圖也能消除幻覺,進而在影視作品、漫畫作品、連續畫本、海報製作等領域落地。
例如,汽車產業非常依賴市場推廣,常常需要大量高品質的攝影作品,為了一張完美的圖片作品,所要耗費的人力財力物力都不斐。利用iRAG技術,車商可以用極低成本、更快的時間拿到一張在視覺表現上可圈可點的攝影作品。甚至有可能在視覺表現上更加驚艷。
目前,生成式人工智慧的技術路線基本上分為兩派,一類是AGI派,夢想一步到位,透過基礎大模型,若干年內實現通用人工智慧;另一派是應用驅動派,從應用需求出發,透過應用回饋模型創新。
百度在持續研發底層大模型的基礎上,更強調應用驅動。據了解,iRAG就是因為應用程式需要產生準確的影像,例如公司的logo不能變形或顏色失真,這需要精確的多模態能力。經過近一年努力,這項技術已經實用。而應用的進展,也能反哺模型本身的研發。
經過兩年時間,生成式AI正處於一個換檔的關鍵時期。先前36氪曾披露,國內有兩家AI新創公司暫停了大模型的預訓練,近兩日,業界對Scaling Law(擴展定律)是否已到達「投資收益遞減」的爭論更是愈演愈烈。
實際上,在全球範圍內,變化也已開始了。 OpenAI、微軟、Google等全球科技巨頭先後下場,佈局智能體。 9月中,OpenAI的研究員Noam Brown在社群媒體上宣布,正在為新的多智能體研究團隊招募機器學習工程師。微軟CEO、董事長納德拉則親自宣布自家AI新進展,一口氣發了10個新商業智能體,組團出道。幾乎在同一時間,有消息稱谷歌也要發智能體,很快谷歌“意外”洩露了最新AI 發展成果Jarvis 的“內部預覽版”,正是一個代理型人工智能,一款能夠瀏覽互聯網並自主檢索資訊的智能體。
國內引領智能體趨勢的是百度。在這次百度世界大會活動上,智能體成為主角。百度重點介紹了四類智能體:公司類、角色類、工具類、產業類。
例如,其中工具類智能體「自由畫布」:基於百度早年間文庫業務的長時間積累,再疊加生成式人工智慧技術,實現了創作上的極大飛躍。
早年間人們使用文庫的需求是找現成的文檔。然而,當生成式人工智慧技術出現,百度發現人們最根本的需求,不是找現成的文檔,而是創作更適合自己的內容。
為了滿足這樣的需求,百度開始思考基於現成的文檔,或者在沒有素材基礎的前提下,如何能夠讓人們更好地創作,沿著這條路走下去最早百度文庫被重構。後來百度又發布了獨立產品橙篇,可以一鍵生成長文,自由畫布的誕生同樣基於這一邏輯,讓人們能夠更加方便地“communicate your ideas(傳遞創意)”通俗地來說,就是如何把心裡的想法更方便、準確地表達出來。
百度創辦人李彥宏認為,「智能體是AI應用的最主流形態,即將迎來它的爆發點。」做智能體類比為PC時代做網站,或是行動時代做自媒體帳號。不同之處是智能體更像人、更智能,更像你的銷售、客服和助理。智能體可能會變成AI原生時代,內容、資訊和服務的新載體。
OpenAI CEO Sam Altman上個月在Reddit回答問題時,也在表達轉向AI代理開發商的可能性。 「我們將擁有越來越好的模型,但我認為下一個重大突破將是AI代理」。英偉達黃仁勳同樣表示,未來英偉達將有1億個智能體。
智能體的特點是,門檻足夠低,天花板足夠高,可以成長為非常強大的公司,就像谷歌、Meta都是許多年前由大學生創業做出的網站,並成長為全球最強大的科技巨頭。某種程度上看,現在不做智能體,就像二十年前沒做網站,十年前沒做APP。
很少有一家中國公司像百度這樣,在全球人工智慧發展的人才節點、資源節點和技術節點,扮演過這麼多重要的角色。這背後,離不開創始人對AI的信仰與執著。在行業內,李彥宏有一句經典名言,“有1塊錢的時候,我會投進技術裡;有1個億,我會投進技術裡;有100個億,我還是會投進技術裡” 。
百度做AI最早可以追溯到十多年前,那場著名的拍賣會。 2012年12月的某一天,一場秘密拍賣會在美國內華達州太浩湖南邊的滑雪山腳下進行。被競拍的資產其實是「三個人」— 「AI教父」傑弗瑞‧辛頓(Geoffrey E. Hinton)教授和他的兩位學生。
來自百度、Google、微軟、DeepMind的代表們頻頻舉牌,報價飆升至4400萬美元,到這裡參與者只剩下了百度和谷歌。儘管百度不設上限參與競標,但最終仍沒有成功。
這也讓李彥宏意識到,一定要自己做深度學習、自動駕駛等技術,在那之後,他便建立了百度美國研究所,同時開始大力招徠全球人才,此後成功吸納了包括吳恩達、Dario Amodei等在內的全球頂尖人才加入。
此後十年,百度開啟了在人工智慧技術上的全端自研時期,從晶片、框架、模型再到應用層,逐一擊破。百度先後發布了自動駕駛開放平台Apollo、開源了深度學習框架飛槳(PaddlePaddle),甚至在2019年就早早發布了文心大模型1.0版本。
但直到ChatGPT誕生前,AI技術應用都沒有找到引爆點,一直被業界看成是燒錢無底洞,落地應用也遙遙無期。
堅持總能得到回報。逆轉發生在2023年3月,基於文心大模型3.0版本,百度在全球第一個發布了對標ChatGPT的產品文心一言。至此,十年默默投入終於有了回報。
2023年下半年開始,在保證基礎模型持續領先的情況下,百度突然意識到,大模型的同質化競爭已經出現了巨大的資源浪費,李彥宏多次公開呼籲“要卷應用,不要卷模型” ,並在公司內部要求要做第一個用大模型把全部產品重構一遍的公司。 2023年世界大會,百度向外界展示了搜尋、地圖、網盤等重要應用的重構成果,而今年世界大會,百度的主題更是直接定為《應用來了》,讓外界看到了大模型在智能體、產業應用等領域創造的龐大價值。
回顧過去不難看出,百度在過去十幾年全球人工智慧發展的歷次重要節點,都做出了正確選擇。在更長遠的未來,李彥宏希望AI能真正被每個普通人所使用,讓每個人都具備程式設計師的能力。
李彥宏在這次百度世界大會上,也發表了One More Thing——秒噠,一個無程式碼程式設計、多智能體協作、多工具調用的軟體。
秒噠和先前任何輔助程式碼產生工具都很不一樣,它不需要使用者能看懂程式碼。相較之下,以往的AI工具,作為生產力工具更多是加強金字塔頂端的精英能力,比如在矽谷,輔助代碼生成很受重視,因為美國很缺乏工程師,工程師的時薪也很貴,輔助工具可以提效,讓金字塔塔尖的人更powerful。
但AI本來應該讓每個人都能從中受益,而不應該是少數人使用的專利。
隨著基礎模型和智能體能力逐步提升,百度把這些技術能力綜合在一起,讓真正的普通人,一行程式碼都看不懂的人,具備程式設計師的能力。
試想一下,當幾億、十億人都具備這種能力的時候,對應的是巨大的市場空間,尤其是創造力的爆發,是輔助代碼產生工具等技術無法比擬的。百度希望的是每一個普通人,都可以擁有金字塔塔尖這些人的能力,其意義自然更深遠。
李彥宏在大會期間說:“百度不是要推出一個'超級應用',而是要不斷地幫助更多人、更多企業打造出數百萬'超級有用'的應用。”
試想在AI時代,越來越多人可以透過學習創造新的產品和服務,用自然語言程式設計這樣一個富有創造力的低門檻行動,將一些天馬行空的想法付諸實現,做出無數個有價值的應用,這才是真正的科技普惠。