超级应用什么时候才能出现?这或许是过去一年AI行业最普遍的焦虑。
人们很容易把人工智能和PC互联网或移动互联网相比,两者出现几年后便有了广受欢迎的超级应用。但人工智能是工业革命级的技术浪潮,人工智能超级应用的出现时间,与蒸汽机和电力出现后超级应用的出现时间更具可比性。
1776年,第一台有实用价值的蒸汽机被制造出来,成为万能的原动机,引领着人类社会迈入“蒸汽时代”,直到1800年代后,蒸汽机才大规模地应用于铁路和航运,并广泛应用于各种工业部门。热力学第二定律出现,更是接近100年后的事;电力革命同样是这样一个演进过程,电力发明掀起了第二次工业革命的高潮,电厂、电灯、流水线等出现,都是在电之后,经历数十年时光逐步演变出来的新的业态。
所以,人工智能时代的超级应用一定会出现,只是时机还未到。过去一年,AI行业都在追求所谓的“超级应用”,似乎有点急功近利。
大模型作为一项基础技术,本身并不直接产生实用价值。基于基础大模型,构建出来的各类应用,才是模型存在的意义。对于ai应用开发者和创业者来说,最好的策略显然不是死磕agi或“超级应用”,而是小步快跑、持续迭代,做出超级有用的应用。
近期,在2024百度世界大会上,百度公布了旗下文心大模型的最新数据:半年前,文心大模型API日调用量是2亿,现在则超过了15亿,短短半年增长7.5倍。这既是中国AI应用爆发的一个缩影,也说明大模型对应用真正产生了实际价值。
很长一段时间内,国内大模型很难卖到其他行业,一位业内人士曾向36氪表示,“无论是智能硬件,还是AI智能体,业内的需求非常强烈,但很少有人真的愿意买单,因为大模型生成效果太差,到处都是幻觉”。受限于多模态能力的发展,生成式人工智能在最初的使用体验上更接近于简单的对话bot,一开始用户有尝鲜需求,但由于体验一般,留存很差。
而过去一年,大模型最大的变化就是基本消除了“幻觉”,让模型变得可用。大模型本质上是一个概率模型,在文本生成中,自动生成下一个最可能的文本,这导致了AI常常出现“幻觉”,也就是所谓的“一本正经的胡说八道”。
要想基于大模型开发应用,就必须消除“幻觉”。AI行业普遍通过检索增强技术(RAG,Retrieval-augmented Generation),基本消除了大模型生成文字的幻觉,使大模型具备了实用价值。而多模态技术要实用,也需要准确性和可控性,来拓展AI应用空间。
百度在这次世界大会上发布了全新的iRAG(image based RAG)——检索增强的文生图技术。百度在今年年初决定解决多模态生成“幻觉”问题,让文生图也能消除幻觉,从而在影视作品、漫画作品、连续画本、海报制作等领域落地。
比如,汽车行业非常依赖市场推广,常常需要大量高质量的摄影作品,为了一张完美的图片作品,所要耗费的人力财力物力都不菲。利用iRAG技术,车企可以用极低成本、更快的时间拿到一张在视觉表现上可圈可点的摄影作品。甚至有可能在视觉表现上更加惊艳。
目前,生成式人工智能的技术路线基本分为两派,一类是AGI派,梦想一步到位,通过基础大模型,若干年内实现通用人工智能;另一派是应用驱动派,从应用需求出发,通过应用反馈模型创新。
百度在持续研发底层大模型的基础上,更强调应用驱动。据了解,iRAG就是因为应用需要生成准确的图像,比如公司的logo不能变形或颜色失真,这就需要精确的多模态能力。经过近一年努力,这项技术已经实用。而应用的进展,也能反哺模型本身的研发。
经过两年时间,生成式AI正处在一个换挡的关键时期。此前36氪曾披露,国内有两家AI创业公司暂停了大模型的预训练,近两日,业界对Scaling Law(扩展定律)是否已到达“投资收益递减”的争论更是愈演愈烈。
实际上,在全球范围内,变化也已开始了。OpenAI、微软、谷歌等全球科技巨头先后下场,布局智能体。9月中,OpenAI的研究员Noam Brown在社交媒体上宣布,正为新的多智能体研究团队招聘机器学习工程师。微软CEO、董事长纳德拉则亲自宣布自家AI新进展,一口气发了10个新商业智能体,组团出道。几乎同一时间,有消息称谷歌也要发智能体,很快谷歌“意外”泄露了最新 AI 发展成果 Jarvis 的“内部预览版”,正是一个代理型人工智能,一款能够浏览互联网并自主检索信息的智能体。
国内引领智能体趋势的是百度。在这次百度世界大会活动上,智能体成为主角。百度重点介绍了四类智能体:公司类、角色类、工具类、行业类。
比如,其中工具类智能体“自由画布”:基于百度早年间文库业务的长时间积累,再叠加生成式人工智能技术,实现了创作上的极大飞跃。
早年间人们使用文库的需求是找现成的文档。然而,当生成式人工智能技术出现,百度发现人们最根本的需求,不是找一个现成的文档,而是要创作更加适合自己的内容。
为了满足这样的需求,百度开始思考基于现成的文档,或者在没有素材基础的前提下,如何能够让人们更好地创作,沿着这条路走下去最早百度文库被重构。后来百度又发布了独立产品橙篇,可以一键生成长文,自由画布的诞生同样基于这一逻辑,让人们能够更加方便地“communicate your ideas(传递创意)”通俗地来说,就是如何把心里的想法更方便、准确地表达出来。
百度创始人李彦宏认为,“智能体是AI应用的最主流形态,即将迎来它的爆发点。”做智能体类比为PC时代做网站,或是移动时代做自媒体账号。不同之处是智能体更像人、更智能,更像你的销售、客服和助理。智能体可能会变成AI原生时代,内容、信息和服务的新载体。
OpenAI CEO Sam Altman上个月在Reddit回答问题时,也在表达转向AI代理开发商的可能性。“我们将拥有越来越好的模型,但我认为下一个重大突破将是AI代理”。英伟达黄仁勋同样表示,未来英伟达将有1亿个智能体。
智能体的特点是,门槛足够低,天花板足够高,可以成长为非常强大的公司,就像谷歌、Meta都是许多年前由大学生创业做出的网站,并成长为全球最强大的科技巨头。某种程度上看,现在不做智能体,就像二十年前没做网站,十年前没做APP。
很少有一家中国公司像百度这样,在全球人工智能发展的人才节点、资源节点和技术节点,扮演过这么多重要的角色。这背后,离不开创始人对AI的信仰和执着。在行业内,李彦宏有一句经典名言,“有1块钱的时候,我会投进技术里;有1个亿,我会投进技术里;有100个亿,我还是会投进技术里”。
百度做AI最早可以追溯到十多年前,那场著名的拍卖会。2012年12月的一天,一场秘密拍卖会在美国内华达州太浩湖南边的滑雪山脚下进行。被竞拍的资产实际上是“三个人”—— “AI教父”杰弗里·辛顿(Geoffrey E. Hinton)教授和他的两名学生。
来自百度、谷歌、微软、DeepMind的代表们频频举牌,报价飙升至4400万美元,到这里参与者只剩下了百度和谷歌。尽管百度不设上限参与竞拍,但最终仍没有成功。
这也让李彦宏意识到,一定要自己做深度学习、自动驾驶等技术,在那之后,他便建立了百度美国研究所,同时开始大力招徕全球人才,此后成功吸纳了包括吴恩达、Dario Amodei等在内的全球顶级人才加入。
此后十年,百度开启了其在人工智能技术上的全栈自研时期,从芯片、框架、模型再到应用层,逐一击破。百度先后发布了自动驾驶开放平台 Apollo、开源了深度学习框架飞桨(PaddlePaddle),甚至在2019年就早早发布了文心大模型1.0版本。
但直到ChatGPT诞生前,AI技术应用都没有找到引爆点,一直被业内看作是烧钱无底洞,落地应用也遥遥无期。
坚持总能得到回报。逆转发生在2023年3月,基于文心大模型3.0版本,百度在全球第一个发布了对标ChatGPT的产品文心一言。至此,十年默默投入终于有了回报。
2023年下半年开始,在保证基础模型持续领先的情况下,百度突然意识到,大模型的同质化竞争已经出现了巨大的资源浪费,李彦宏多次公开呼吁“要卷应用,不要卷模型”,并在公司内部要求要做第一个用大模型把全部产品重构一遍的公司。2023年世界大会,百度向外界展示了搜索、地图、网盘等重要应用的重构成果,而今年世界大会,百度的主题更是直接定为《应用来了》,让外界看到了大模型在智能体、产业应用等领域创造的巨大价值。
回顾过去不难看出,百度在过去十几年全球人工智能发展的历次重要节点,都作出了正确选择。在更长远的未来,李彦宏希望AI能真正被每一位普通人所使用,让每个人都具备程序员的能力。
李彦宏在这次百度世界大会上,还发布了One More Thing——秒哒,一个无代码编程、多智能体协作、多工具调用的软件。
秒哒和此前任何辅助代码生成工具都很不一样,它不需要使用者能看懂代码。相比之下,以往的AI工具,作为生产力工具更多是加强金字塔顶端的精英能力,比如在硅谷,辅助代码生成很受重视,因为美国很缺工程师,工程师的时薪也很贵,辅助工具可以提效,让金字塔塔尖的人更加powerful。
但是AI本应该让每个人都能从中受益,而不应该是少数人使用的专利。
随着基础模型和智能体能力逐步提升,百度把这些技术能力综合在一起,让真正的普通人,一行代码都看不懂的人,具备程序员的能力。
试想一下,当几亿、十几亿人都具备这种能力的时候,对应的是巨大的市场空间,尤其是创造力的爆发,是辅助代码生成工具等技术无法比拟的。百度希望的是每一个普通人,都可以拥有金字塔塔尖这些人的能力,其意义自然更加深远。
李彦宏在大会期间说:“百度不是要推出一个‘超级应用’,而是要不断地帮助更多人、更多企业打造出数百万‘超级有用’的应用。”
试想在AI时代,越来越多人可以通过学习创造新的产品和服务,用自然语言编程这样一个富有创造力的低门槛行动,将一些天马行空的想法付诸实现,做出无数个有价值的应用,这才是真正的技术普惠。