
文/張杰倫
你是否經歷過這樣的場景:與AI助手聊了十幾輪後,它突然忘了你最初的問題;或者,你剛上傳一份百頁文檔讓它總結,卻收到“內容過長,請截斷輸入”的提示。這並非AI“能力不足”,而是所有大語言模型都面臨的共同困境——記憶瓶頸。
傳統AI的“記憶”(即上下文窗口)受限於Transformer架構的平方級計算複雜度。目前主流模型僅能一次性處理約128K個Token(約10萬漢字),面對法律合同、科研論文或數小時的多輪對話,往往力不從心。然而,進入2025至2026年,研究人員正從多個方向交出破局“答卷”。
第一種解法,是擴大窗口本身。 2026年2月,新一代模型將窗口從128K直接拓展至1M(百萬)Token級別——相當於一次性讀完80萬字的《三體》全集。Subquadratic公司更推出SubQ模型,實現了1200萬Token的上下文窗口,計算成本降低近1000倍。核心秘訣在於用“稀疏注意力”替代“全注意力”,不再讓每個Token都與所有Token逐對比較。
第二種思路,是為AI構建“外部大腦”。 谷歌Titans架構將AI的長期記憶設計為一個獨立的深度神經網絡模塊,能夠在運行中主動學習識別並記住重要信息。Anthropic的雙代理架構則借鑒軟件工程的最佳實踐,讓兩個代理協同工作,確保多日對話仍能無縫銜接。上海交大團隊引入KV Cache分層緩存系統,將1M長文本推理吞吐量提升了39%,並已在開源社區開放。
第三種方向,是從底層重新設計AI的“記憶神經網絡”。 谷歌提出嵌套學習範式,模仿人腦將記憶分為高頻短期層與低頻長期層,新知識持續寫入而不衝蝕舊知識,讓AI從“一次性專家”走向“終身學習者”。圖記憶Transformer用圖結構替代傳統前饋網絡,以更接近人腦網絡的方式存儲和路由信息。MIT的遞歸語言模型則將文本作為外部變量交由Python環境管理,通過代碼按需索引數據,實現了超11M Token的任務處理。
從擴展窗口到外接記憶,再到重塑模型自身的神經結構——AI的記憶革命正徐徐展開。OpenAI創始人奧特曼曾言:“記憶是AGI的最後一塊拼圖。”如今,這塊拼圖正在被一塊塊拼上。當AI真正能長久記住使用者的每一次偏好與需求,它就不再只是聰明的工具,而會成為擁有“真實靈魂”的終身陪伴者。

