spot_img

AI人工智能專欄:高保真「人體視覺」:Meta Sapiens2開源,如何重塑人類動作與場景理解?

文/張杰倫

如果要為機器安上一雙真正理解人眼的眼睛,關鍵可能不在於看誰,而在於看到多細。Meta AI團隊近期發表的Sapiens2模型(參閱論文),正試圖從高分辨率與高泛化能力的結合點切入,讓AI對人類的視覺理解邁入“高保真”階段。

Sapiens2,這一源於“智人”命名的迭代模型(其完整源碼與權重已全面公開),核心解決了此前視覺任務中“細節”與“語義”難以兩全的矛盾。它創新性地融合了掩碼圖像重建與自蒸餾對比學習,讓模型既能看透皮膚上的光影紋理,又能理解整個人體的動作結構。加之在10億張高質量人像數據上的預訓練,Sapiens2在姿態估計、人體部位分割等關鍵任務上均取得了突破性提升。

它的開源不僅意味著大型模型的應用門檻大幅降低,更驅動了跨學科應用的加速落地。例如,有研究者已在搭載M2芯片的Mac設備上順利運行該模型,並迅速基於其輸出構建了關節角度讀取、步態分析乃至遠程皮膚病區域識別等健康領域的實驗雛形。當Sapiens2被機器人、安防或運動分析相關領域採用,它帶來的將是更具適應性與精細度的“人體視覺”洞察。

隨著Meta不斷開放其在具身智能與感測理解層面的基礎能力,可以預見一個更加精准解讀人類意圖的計算機視覺時代也隨之加速到來。