記者張杰倫報導
隨著多模態人工智能技術走向普及,一個全新的科技詞彙正悄然重塑整個 AI 的行業格局,那便是「世界模型」(World Model)。從大語言模型、自動駕駛、機器人再到遊戲開發,彷彿一夜之間,所有最尖端的 AI 研究都與這個詞綁定。究竟什麼是世界模型?它與我們熟知的 ChatGPT 等大語言模型有何本質區別?它會是人類通往通用人工智能(AGI)的終極密碼嗎?
概念的起源:大腦中的「心智模型」
要理解世界模型,必須先回到人類自身的認知方式。當我們看見一杯水放在桌子邊緣,不用等它掉下去,大腦就已經預判了它可能會摔碎的結果。認知科學家認為,人類之所以能預測未來、想像行動的後果,是因為我們從小就在大腦中構建了一個理解現實世界運行規律的內部模型。1943年,科學家 Kenneth Craik 便提出,人類在對現實做出反應前,會先在大腦中模擬可能發生的過程,這就是世界模型的思想雛形。
而在 AI 領域,世界模型的核心假定是:智能體之所以能做出更好的決策,不是因為它反應更快,而是因為它能在行動之前,在內部的「平行宇宙」中先看見未來。2018年,Google Brain 的 David Ha 與深度學習先驅 Jürgen Schmidhuber 發表了奠基性論文《World Models》,正式將世界模型簡化為三個核心模塊:觀察世界的視覺(V)、預測未來的記憶(M)、以及在內部世界中學習行動的控制(C)。這意味著 AI 能夠像人類一樣,在記憶的「夢境」中推演千百次,最後在現實中執行一次最優解。
世界模型與大語言模型的本質區別
許多人容易將世界模型與大語言模型(LLM)混淆,但兩者在技術路線與底層邏輯上存在根本不同。
大語言模型的目標是「生成語言維度上最合理、最流暢的序列」,它預測的是「下一個詞」(Next Token)。當你問它杯子會掉下來嗎,它回答會,是因為無數文字數據裡都這麼寫,它是由語言間接理解世界的「知識容器」。
相反地,世界模型的任務是預測「下一幀畫面、下一步動作、下一次的狀態變化」。它的單元不是文字,而是像素(Pixels)或體素(Voxels)。它依賴的是攝像頭、傳感器等時序性的動態視頻數據,目標是直接學習物理規律、空間幾何與因果關係。正如計算機科學家 Yann LeCun、李飛飛等人指出:LLM 雖然能言善辯,卻脫離現實物理;而世界模型則是為了讓 AI 學會「觀察、推理與行動」,補上現實世界的維度。
多軌並行的三大核心層級與實踐
當前產業界面對世界模型的探索,主要可以拆解為三層結構:底層是抽象預測的「思維範式」,中層是「表現形式(世界生成)」,頂層則是讓 AI 做決策的「智能體訓練(目的層)」。
目前最熱鬧的賽道集中在中層的「世界生成」。主要分為兩大派系:
一是以 OpenAI 的 Sora 和 Google 的 Genie 為代表的視頻生成路線,通過學習海量視頻數據,讓 AI 生成物理一致、隨時間流動演化的視覺世界;
二是以李飛飛的 World Labs 為代表的3D空間生成路線,他們不追求電影級畫面,而是利用技術把世界「建」出來,讓 AI 顯式地理解物體的長寬高、幾何結構與空間距離。
然而,也有不走生成路線的硬核派。圖靈獎得主 Yann LeCun 主導的 JEPA 架構(如 V-JEPA)便主張「不畫出世界細節,只學習世界的抽象結構」。例如當球滾動時,JEPA 不耗費算力去模擬光影與反射像素,它只關心球的滾動方向、速度以及是否會撞到障礙物。這種隱式的、高維的潛在表示,更接近具身智能真正需要的決策底座。
邁向 AGI 的現實拐點與挑戰
世界模型一旦成熟,將徹底 radical 地解放 AI 的應用場景。首當其衝的是機器人與自動駕駛行業。過去機器人只能執行工程師寫死的代碼,遇到環境變化就失能;有了世界模型,機器人能在腦海中自主練習、跨環境遷移。自動駕駛系統(如 Waymo 正在探索的世界模型架構)也將從單純的場景識別,進化為具備人類駕駛般的「預判能力」。而在內容與遊戲產業,未來的開放世界遊戲將不再需要一磚一瓦手動搭建,而是由 AI 根據世界觀「隨時實時生成(Fly-generation)」,每一次玩都是全新且不同的體驗。
然而,這項技術也伴隨著巨大風險。世界模型本質上是在給 AI 構建逼真的夢境,一旦出現「幻覺」,將是系統級的錯誤(例如誤判碰撞後果、構建錯誤因果),這對自動駕駛和實體機器人來說是致命的。
世界模型讓我們看到 AI 從「敷衍對話」走向「理解未來」的希望,雖然哪條技術路線會最終勝出仍是未知數,但可以肯定的是,當 AI 真正開始在內在物理世界中試錯與行動時,我們距離通用人工智能的終極目標,又前進了一大步。這也許正是 AI 時代真正發生的文明拐點。

