周三,微軟研究院推出了 Magma,這是一個集成的 AI 基礎(chǔ)模型,結(jié)合了視覺和語言處理能力,可以控制軟件界面和機器人系統(tǒng)。如果這些結(jié)果在微軟內(nèi)部測試之外依然有效,這可能標(biāo)志著一個支持多模態(tài)的通用 AI 在現(xiàn)實和數(shù)字空間中進行交互操作的重要進展。
微軟聲稱,Magma 是第一個不僅能處理多模態(tài)數(shù)據(jù) (如文本、圖像和視頻),還能對其進行原生操作的 AI 模型——無論是導(dǎo)航用戶界面還是操控物理對象。該項目是微軟、KAIST、馬里蘭大學(xué)、威斯康星麥迪遜大學(xué)和華盛頓大學(xué)研究人員合作的成果。
我們已經(jīng)見過其他基于大語言模型的機器人項目,如 Google 的 PALM-E 和 RT-2,或微軟的 ChatGPT for Robotics,它們都將大語言模型用作接口。然而,與許多需要單獨模型來進行感知和控制的傳統(tǒng)多模態(tài) AI 系統(tǒng)不同,Magma 將這些能力整合到一個基礎(chǔ)模型中。
微軟將 Magma 定位為朝著代理式 AI 邁出的一步,這意味著系統(tǒng)可以代表人類自主制定計劃并執(zhí)行多步驟任務(wù),而不僅僅是回答關(guān)于所見內(nèi)容的問題。
微軟在其研究論文中寫道:"給定一個描述性目標(biāo),Magma 能夠制定計劃并執(zhí)行行動來實現(xiàn)它。通過有效地從免費獲取的視覺和語言數(shù)據(jù)中轉(zhuǎn)移知識,Magma 將語言、空間和時間智能結(jié)合起來,以應(yīng)對復(fù)雜的任務(wù)和場景。"
微軟并不是唯一追求代理式 AI 的公司。OpenAI 一直在通過 Operator 等項目實驗 AI 代理,該項目可以在網(wǎng)頁瀏覽器中執(zhí)行 UI 任務(wù),而 Google 則通過 Gemini 2.0 探索多個代理項目。
空間智能
雖然 Magma 建立在基于 Transformer 的大語言模型技術(shù)之上,將訓(xùn)練 Token 輸入神經(jīng)網(wǎng)絡(luò),但它與傳統(tǒng)的視覺語言模型 (如 GPT-4V) 不同,它超越了所謂的"語言智能",還包括"空間智能" (規(guī)劃和行動執(zhí)行)。通過對圖像、視頻、機器人數(shù)據(jù)和 UI 交互的混合訓(xùn)練,微軟聲稱 Magma 是一個真正的多模態(tài)代理,而不僅僅是一個感知模型。
Magma 模型引入了兩個技術(shù)組件:Set-of-Mark,通過為交互元素(如 UI 中的可點擊按鈕或機器人工作空間中的可抓取物體)分配數(shù)字標(biāo)簽來識別可在環(huán)境中操作的對象;以及 Trace-of-Mark,用于從視頻數(shù)據(jù)中學(xué)習(xí)移動模式。微軟表示,這些功能使模型能夠完成導(dǎo)航用戶界面或指導(dǎo)機器人手臂抓取物體等任務(wù)。
微軟 Magma 研究員 Jianwei Yang 在 Hacker News 的評論中解釋說,"Magma"代表"M(ultimodal) Ag(entic) M(odel) at Microsoft (Rese)A(rch)",這是因為有人指出"Magma"已經(jīng)被一個現(xiàn)有的矩陣代數(shù)庫使用,可能會在技術(shù)討論中造成混淆。
相比之前模型的改進
在 Magma 的介紹中,微軟聲稱 Magma-8B 在各項基準(zhǔn)測試中表現(xiàn)出色,在 UI 導(dǎo)航和機器人操作任務(wù)中展現(xiàn)了強大的結(jié)果。
例如,它在 VQAv2 視覺問答基準(zhǔn)測試中得分為 80.0,高于 GPT-4V 的 77.2,但低于 LLaVA-Next 的 81.8。它在 POPE 測試中的得分為 87.4,領(lǐng)先所有對比模型。在機器人操作方面,Magma 據(jù)報道在多個機器人操作任務(wù)中表現(xiàn)優(yōu)于開源視覺語言動作模型 OpenVLA。
一如既往,我們對 AI 基準(zhǔn)測試持謹慎態(tài)度,因為許多測試尚未經(jīng)過科學(xué)驗證,無法證明其能夠測量 AI 模型的有用特性。一旦其他研究人員能夠訪問公開發(fā)布的代碼,對微軟的基準(zhǔn)測試結(jié)果進行外部驗證就成為可能。
與所有 AI 模型一樣,Magma 并非完美。根據(jù)微軟的文檔,它在需要隨時間推移進行多個步驟的復(fù)雜決策方面仍然面臨技術(shù)限制。該公司表示,將通過持續(xù)研究來改進這些能力。
Yang 表示,微軟將在下周在 GitHub 上發(fā)布 Magma 的訓(xùn)練和推理代碼,允許外部研究人員在此基礎(chǔ)上繼續(xù)研究。如果 Magma 實現(xiàn)其承諾,它可能會推動微軟的 AI 助手超越有限的文本交互,使其能夠自主操作軟件并通過機器人執(zhí)行現(xiàn)實世界的任務(wù)。
Magma 也表明 AI 文化可以如何快速變化。就在幾年前,這種代理式的討論還讓許多人感到恐懼,他們擔(dān)心這可能導(dǎo)致 AI 接管世界。雖然一些人仍然擔(dān)心這種結(jié)果,但在 2025 年,AI 代理已成為主流 AI 研究的常見話題,而且這種研究的進行通常不會引發(fā)暫停所有 AI 開發(fā)的呼聲。