AI智能體，人工智慧的「增程模式」？

作者：Eve Cole 更新時間：2024-11-15 12:36:02

在人工智慧的發展長河中，我們正站在一個令人興奮的轉折點。

想像一下，未來的人工智慧是什麼樣子？只要簡單一個指令，它們就能領悟並執行複雜的任務；它們還能透過視覺捕捉使用者的表情和動作，判斷其情緒狀態。這不再是好萊塢科幻電影中的場景，而是正逐步走進現實的AI智能體時代。

早在2023年11月，微軟創辦人比爾蓋茲就發文表示，智能體不僅會改變每個人與電腦互動的方式，還將顛覆軟體產業，帶來自我們從鍵入指令到點擊圖示以來最大的運算革命。 OpenAI執行長山姆·奧特曼也曾在多個場合表示：建構龐大AI模型的時代已經結束，AI智能體才是未來的真正挑戰。今年4月份，AI著名學者、史丹佛大學教授吳恩達指出，智能體工作流程將在今年推動AI取得巨大進步，甚至可能超越下一代基礎模式。

類比智慧電動車，猶如其在新能源技術應用和里程焦慮之間尋找到某種平衡的增程路線一樣，AI智能體讓人工智能進入了“增程模式”，在AI技術和行業應用之間盡可能達成新的平衡。

被看好的AI智能體

顧名思義，AI智能體就是具有智慧的實體，能夠自主感知環境、做出決策並執行行動，它可以是一個程式、一個系統，也可以是一個機器人。

去年，史丹佛大學和Google的聯合研究團隊發表了一篇題為《生成式智能體：人類行為的互動模擬》的研究論文。在文中，居住在虛擬小鎮Smallville的25個虛擬人在接入ChatGPT之後，表現出各種類似人類的行為，由此帶火了AI智能體概念。

此後，許多研究團隊將自己研發的大模型連接到《我的世界》等遊戲，例如，英偉達首席科學家Jim Fan在《我的世界》中創造出了一個名叫Voyager的AI智能體，很快， Voyager展現了十分高超的學習能力，可以無師自通地學習到挖掘、建造房屋、收集、打獵等遊戲中的技能，還會根據不同的地形條件調整自己的資源收集策略。

OpenAI曾列出實現通用人工智慧的五級路線圖：L1是聊天機器人；L2是推理者，即像人類一樣能夠解決問題的AI；L3是智能體，即不僅能思考，還可採取行動的AI系統；L4是創新者；L5是組織者。這其中，AI智能體恰好位於承前啟後的關鍵位置。

作為人工智慧領域的一個重要概念，學術界和產業界對AI智能體提出了各種定義。大致來說，一個AI智能體應具備類似人類的思考和規劃能力，並具備一定的技能以便與環境和人類進行交互，完成特定的任務。

或許把AI智能體類比成電腦環境中的數位人，我們會更好理解──數位人的大腦就是大語言模型或是人工智慧演算法，能夠處理資訊、在即時互動中做出決策；感知模組就相當於眼睛、耳朵等感官，用來獲得文字、聲音、圖像等不同環境狀態的資訊；記憶和檢索模組則像神經元，用來儲存經驗、輔助決策；行動執行模組則是四肢，用來執行大腦所做的決策。

長久以來，人類一直在追求更「類人」甚至「超人」的人工智慧，而智能體被認為是實現這項追求的有效手段。近些年，隨著大數據和運算能力的提升，各種深度學習大模型得到了快速發展。這為開發新一代AI智能體提供了巨大支撐，並在實踐中取得了較為顯著的進展。

例如，GoogleDeepMind人工智慧系統展示了用於機器人的AI智能體「RoboCat」；亞馬遜雲端科技推出了Amazon Bedrock智能體，可以自動分解企業ai應用開發任務等等。 Bedrock中的智能體能夠理解目標、制定計劃並採取行動。新的記憶保留功能允許智能體隨時間記住並從互動中學習，實現更複雜、更長期運作和更具適應性的任務。

這些AI智能體的核心是人工智慧演算法，包括機器學習、深度學習、強化學習、人工神經網路等技術。透過這些演算法，AI智能體可以從大量資料中學習並改進自身的效能，不斷優化自己的決策和行為，還可以根據環境變化做出靈活地調整，適應不同場景和任務。

目前，AI智能體已在不少場景中得到應用，如客服、程式設計、內容創作、知識取得、財務、手機助理、工業製造等。 AI智能體的出現，標誌著人工智慧從簡單的規則匹配和計算模擬向更高層次的自主智能邁進，促進了生產效率的提升和生產方式的變革，開闢了人們認識和改造世界的新境界。

AI智能體的感官革命

莫拉維克悖論（moravec's paradox）指出，對於人工智慧系統而言，高階推理只需非常少的運算能力，而實現人類習以為常的感知運動技能卻需要耗費龐大的運算資源。實質上，與人類本能可以完成的基本感官任務相比，複雜的邏輯任務對AI而言更加容易。這悖論凸顯了現階段的AI與人類認知能力之間的差異。

著名電腦科學家吳恩達曾說：「人類是多模態的生物,我們的AI也應該是多模態的。」這句話道出了多模態AI的核心價值－讓機器更接近人類的認知方式，從而實現更自然、更有效率的人機互動。

我們每個人就像一個智慧終端，通常需要去學校上課接受學識薰陶（訓練），但訓練與學習的目的和結果是我們有能力自主工作和生活，而不需要總是依賴外部的指令和控制。人們透過視覺、語言、聲音、觸覺、味覺和嗅覺等多種感官模式來了解周圍的世界，進而審時度勢，進行分析、推理、決斷並採取行動。

AI智能體的核心在於“智能”，自主性是其主要特徵之一。它們可以在沒有人類幹預的情況下，根據預設的規則和目標，獨立地完成任務。

想像一下，一輛無人駕駛車裝備了先進的攝影機、雷達和感測器，這些高科技的「眼睛」讓它能夠「觀察」周圍的世界，捕捉到道路的即時狀況、其他車輛的動向、行人的位置以及交通號誌的變化等資訊。這些資訊被傳送到無人駕駛汽車的大腦——一個複雜的智慧決策系統，這個系統能夠迅速分析這些數據，並制定出相應的駕駛策略。

例如，面對錯綜複雜的交通環境，自動駕駛汽車能夠計算出最優的行駛路線，甚至在需要時做出變換車道等複雜決策。一旦決策制定，執行系統便將這些智慧決策轉化為具體的駕駛動作，例如轉向、加速和煞車。

在基於龐大資料和複雜演算法建構的大型智能體模型中，互動性體現得較為明顯。能夠「聽懂」並回應人類複雜多變的自然語言，正是AI智能體的神奇之處——它們不僅能夠「理解」人類的語言，還能夠進行流暢而富有洞察力的互動。

AI智能體不僅能迅速適應各種任務和環境，還能透過持續學習不斷優化自己的表現。自從深度學習技術取得突破以來，各種智能體模型透過不斷累積數據和自我完善，變得更加精準和高效。

此外， AI智能體對環境的適應性也十分強大，在倉庫工作的自動化機器人能夠即時監測並避開障礙物。當感知到某個貨架位置發生變化時，它會立即更新其路徑規劃，有效地完成貨物的揀选和搬運任務。

AI智能體的適應性也體現在它們能夠根據使用者的回饋進行自我調整。透過辨識使用者的需求和偏好，AI智能體可以持續優化自己的行為和輸出，提供更個人化的服務，例如音樂軟體的音樂推薦、智慧醫療的個人化治療等等。

多模態大模型和世界模型的出現，顯著提升了智能體的感知、互動和推理能力。多模態大模型能夠處理多種感知模式（如視覺、語言），使智能體能更全面地理解並回應複雜的環境。世界模型則透過模擬和理解物理環境中的規律，為智能體提供了更強的預測和規劃能力。

經過多年的感測器融合和AI演進，機器人現階段基本上都配備有多模態感測器。隨著機器人等邊緣設備開始具備更多的運算能力，這些設備正變得愈加智能，能夠感知周圍環境，理解並以自然語言進行溝通，透過數位感測介面獲得觸覺，以及透過加速計、陀螺儀與磁力計等的組合，來感知機器人的比力、角速度，甚至是機器人周圍的磁場。

在Transformer和大語言模型（LLM）出現之前，要在AI中實現多模態，通常需要用到多個負責不同類型資料（文字、圖像、音訊）的單獨模型，並透過複雜的過程對不同模態進行整合。

而在Transformer和LLM出現後，多模態變得更加整合化，使得單一模型可以同時處理和理解多種資料類型，從而產生對環境綜合感知能力更強大的AI系統，這一轉變大大提高了多模態AI應用的效率和有效性。

雖然GPT-3等LLM主要以文本為基礎，但業界已朝著多模態取得了快速進展。從OpenAI的CLIP和DALL·E，到現在的sora和GPT-4o，都是朝向多模態和更自然的人機互動邁進的模型範例。

例如，CLIP可理解與自然語言配對的圖像，從而在視覺和文字訊息之間架起橋樑；DALL·E旨在根據文字描述生成圖像。我們看到Google Gemini模型也經歷了類似的演進。

2024年，多模態演進加速發展。今年2月，OpenAI發布了Sora，它可以根據文字描述產生逼真或富有想像力的影片。仔細想想，這可以為建造通用世界模擬器提供一條頗有前景的道路，或成為訓練機器人的重要工具。

3個月後，GPT-4o顯著提高了人機互動的效能，並且能夠在音訊、視覺和文字之間即時推理。綜合利用文本、視覺和音頻資訊來端到端地訓練一個新模型，消除從輸入模態到文本，再從文本到輸出模態的兩次模態轉換，進而大幅提升性能。

多模態大模型可望改變機器智能的分析、推理和學習能力，使機器智能從專用轉向通用。通用化將有助於擴大規模，產生規模化的經濟效應，價格也能隨著規模擴大而大幅降低，進而被更多領域採用，形成良性循環。

潛在風險不容忽視

AI智能體透過模擬擴展人類的認知能力，可望廣泛應用於醫療、交通、金融及國防等多個領域。有學者推測，到2030年，人工智慧將助推全球生產毛額成長12%左右。

不過，在看到AI智能體快速發展的同時，也要看到其面臨的技術風險、倫理和隱私等問題。一群證券交易機器人透過高頻買賣合約便在納斯達克等證券交易所短暫地抹去了1萬億美元的價值，世界衛生組織使用的聊天機器人提供了過時的藥品審核信息，美國一位資深律師沒能判斷出自己向法庭提供的歷史案例文書竟然均由ChatGPT憑空捏造……這些真實發生的案例表明，AI智能體帶來的隱患不容小覷。

因為AI智能體可以自主決策，又能透過與環境互動施加對物理世界的影響，其一旦失控將為人類社會帶來極大威脅。哈佛大學教授齊特雷恩認為，這種不僅能與人交談，還能在現實世界中行動的AI智能體，是“數字與模擬、比特與原子之間跨越血腦屏障的一步”，應當引起警覺。

首先，AI智能體在提供服務的過程中會收集大量數據，使用者需要確保資料安全，防止隱私外洩。

其次，AI智能體的自主性越強，越有可能在複雜或未預見的情境中做出不可預測或不當的決策。 AI智能體的運作邏輯可能使其在實現特定目標過程中出現有害偏差，其帶來的安全隱患不容忽視。用更通俗的話來說，就是在某些情況下，AI智能體可能只捕捉到目標的字面意思，沒有理解目標的實質意思，從而做出了一些錯誤的行為。

再一次，AI大語言模式本身俱備的「黑箱」和「幻覺」問題也會增加出現操作異常的頻率。還有一些「狡猾」的AI智能體能夠成功規避現有的安全措施，相關專家指出，如果一個AI智能體夠先進，它就能夠辨識出自己正在接受測試。目前已經發現一些AI智能體能夠識別安全測試並暫停不當行為，這將導致識別對人類危險演算法的測試系統失效。

此外，由於目前並無有效的AI智能體退出機制，因此一些AI智能體被創造後可能無法被關閉。這些無法停用的AI智能體，最終可能會在與最初啟動它們時完全不同的環境中運行，徹底背離其最初用途。 AI智能體也可能以不可預見的方式相互作用，造成意外事故。

為此，人類目前需盡快從AI智能體開發生產、應用部署後的持續監管等方面全鏈條著手，及時制定相關法律法規，規範AI智能體行為，從而更好地預防AI智能體帶來的風險、防止失控現象的發生。

展望未來，AI智能體有望成為下一代人工智慧的關鍵載體，它將不僅改變我們與機器互動的方式，更有可能重塑整個社會的運作模式，正成為推動人工智慧轉化過程中的一道新齒輪。