
【INDEX News 劉俊彥】
Google DeepMind 發布最新強化學習演算法 AlphaEvolve,此代號「Alpha‑X」模型能自主生成超越人類設計的演算法,並成功應用於資料中心與科學運算,改寫 AI 工程自動化未來。
2025 年 5 月,Google DeepMind 公開最新強化學習技術 AlphaEvolve(代號 Alpha‑X),一款能自主生成演算法的 AI 編碼代理人,進一步擴展人工智慧在科學與工程領域的應用潛能。
AlphaEvolve 結合強化學習與演化策略打造
根據 InfoQ 報導,AlphaEvolve 結合了強化學習(Reinforcement Learning)與演化演算法(Evolutionary Algorithms),具備「探索‑評估‑進化」的閉環學習機制。它可以不斷嘗試與重組程式碼結構,從而自動產生更高效的演算法邏輯。
該系統並非依賴人類編碼者的逐步指令,而是以任務結果為導向進行端對端優化,在處理大型優化問題(如數據中心資源調度、分子模擬等)方面表現出色。
DeepMind 強化學習系譜再進化
AlphaEvolve 被視為 DeepMind 過去 Alpha 系列模型(如 AlphaGo、AlphaZero)的延續,但不再局限於博弈與特定任務,而是朝向**通用策略搜尋代理(general strategy search agent)**邁進。
Wired 指出,AlphaEvolve 所發明的某些演算法已經在模擬環境中「優於人類頂尖專家所設計的對照解法」,意味這款模型正推動 AI 向「創造性解決方案」跨越。
實際應用:資料中心調度與能源效率
Google 已在自家資料中心進行 AlphaEvolve 的測試部署。該模型優化的排程策略,不僅提升能源使用效率約 12%,還能自動平衡冷卻、計算與維護資源分配,展現其在複雜實時系統中的實用價值。
DeepMind 研究團隊表示:「我們不只是訓練模型解題,而是訓練模型學會創造解法。」
持續關注安全與可控性議題
儘管技術成果令人驚艷,多位 AI 領域專家呼籲需重視此類自我演化系統的可控性與透明度。兩位強化學習奠基者 Richard Sutton 與 Andrew Barto 近期接受 Financial Times 訪問時指出:
「強化學習代理若缺乏明確獎勵約束,有潛力發展出人類難以預測的行為邏輯。」
DeepMind 強調,其架構設計有加入限制策略與多階段審核機制,以確保 AlphaEvolve 所生成策略的安全性與可解釋性。
AI 自主設計演算法將成未來趨勢
目前 AlphaEvolve 已應用於科學模擬與自動微調大型模型的演算法優化,其發展可能促使更多「AI 設計 AI」的應用出現,尤其在醫療、製造與自動駕駛等需要快速決策的場景。
DeepMind 預計將於 2025 年底前釋出更具通用性的 AlphaEvolve API 介面,允許研究者在特定任務中測試此強化學習架構。