信息服務(wù)

微軟新的 AI 代理可以控制軟件和機器人

發(fā)布于：2025-02-21 點擊量：251 來源：至頂網(wǎng)

周三，微軟研究院推出了 Magma，這是一個集成的 AI 基礎(chǔ)模型，結(jié)合了視覺和語言處理能力，可以控制軟件界面和機器人系統(tǒng)。如果這些結(jié)果在微軟內(nèi)部測試之外依然有效，這可能標(biāo)志著一個支持多模態(tài)的通用 AI 在現(xiàn)實和數(shù)字空間中進行交互操作的重要進展。

微軟聲稱，Magma 是第一個不僅能處理多模態(tài)數(shù)據(jù) (如文本、圖像和視頻)，還能對其進行原生操作的 AI 模型——無論是導(dǎo)航用戶界面還是操控物理對象。該項目是微軟、KAIST、馬里蘭大學(xué)、威斯康星麥迪遜大學(xué)和華盛頓大學(xué)研究人員合作的成果。

我們已經(jīng)見過其他基于大語言模型的機器人項目，如 Google 的 PALM-E 和 RT-2，或微軟的 ChatGPT for Robotics，它們都將大語言模型用作接口。然而，與許多需要單獨模型來進行感知和控制的傳統(tǒng)多模態(tài) AI 系統(tǒng)不同，Magma 將這些能力整合到一個基礎(chǔ)模型中。

微軟將 Magma 定位為朝著代理式 AI 邁出的一步，這意味著系統(tǒng)可以代表人類自主制定計劃并執(zhí)行多步驟任務(wù)，而不僅僅是回答關(guān)于所見內(nèi)容的問題。

微軟在其研究論文中寫道："給定一個描述性目標(biāo)，Magma 能夠制定計劃并執(zhí)行行動來實現(xiàn)它。通過有效地從免費獲取的視覺和語言數(shù)據(jù)中轉(zhuǎn)移知識，Magma 將語言、空間和時間智能結(jié)合起來，以應(yīng)對復(fù)雜的任務(wù)和場景。"

微軟并不是唯一追求代理式 AI 的公司。OpenAI 一直在通過 Operator 等項目實驗 AI 代理，該項目可以在網(wǎng)頁瀏覽器中執(zhí)行 UI 任務(wù)，而 Google 則通過 Gemini 2.0 探索多個代理項目。

空間智能

雖然 Magma 建立在基于 Transformer 的大語言模型技術(shù)之上，將訓(xùn)練 Token 輸入神經(jīng)網(wǎng)絡(luò)，但它與傳統(tǒng)的視覺語言模型 (如 GPT-4V) 不同，它超越了所謂的"語言智能"，還包括"空間智能" (規(guī)劃和行動執(zhí)行)。通過對圖像、視頻、機器人數(shù)據(jù)和 UI 交互的混合訓(xùn)練，微軟聲稱 Magma 是一個真正的多模態(tài)代理，而不僅僅是一個感知模型。

Magma 模型引入了兩個技術(shù)組件：Set-of-Mark，通過為交互元素（如 UI 中的可點擊按鈕或機器人工作空間中的可抓取物體）分配數(shù)字標(biāo)簽來識別可在環(huán)境中操作的對象；以及 Trace-of-Mark，用于從視頻數(shù)據(jù)中學(xué)習(xí)移動模式。微軟表示，這些功能使模型能夠完成導(dǎo)航用戶界面或指導(dǎo)機器人手臂抓取物體等任務(wù)。

微軟 Magma 研究員 Jianwei Yang 在 Hacker News 的評論中解釋說，"Magma"代表"M(ultimodal) Ag(entic) M(odel) at Microsoft (Rese)A(rch)"，這是因為有人指出"Magma"已經(jīng)被一個現(xiàn)有的矩陣代數(shù)庫使用，可能會在技術(shù)討論中造成混淆。

相比之前模型的改進

在 Magma 的介紹中，微軟聲稱 Magma-8B 在各項基準(zhǔn)測試中表現(xiàn)出色，在 UI 導(dǎo)航和機器人操作任務(wù)中展現(xiàn)了強大的結(jié)果。

例如，它在 VQAv2 視覺問答基準(zhǔn)測試中得分為 80.0，高于 GPT-4V 的 77.2，但低于 LLaVA-Next 的 81.8。它在 POPE 測試中的得分為 87.4，領(lǐng)先所有對比模型。在機器人操作方面，Magma 據(jù)報道在多個機器人操作任務(wù)中表現(xiàn)優(yōu)于開源視覺語言動作模型 OpenVLA。

一如既往，我們對 AI 基準(zhǔn)測試持謹慎態(tài)度，因為許多測試尚未經(jīng)過科學(xué)驗證，無法證明其能夠測量 AI 模型的有用特性。一旦其他研究人員能夠訪問公開發(fā)布的代碼，對微軟的基準(zhǔn)測試結(jié)果進行外部驗證就成為可能。

與所有 AI 模型一樣，Magma 并非完美。根據(jù)微軟的文檔，它在需要隨時間推移進行多個步驟的復(fù)雜決策方面仍然面臨技術(shù)限制。該公司表示，將通過持續(xù)研究來改進這些能力。

Yang 表示，微軟將在下周在 GitHub 上發(fā)布 Magma 的訓(xùn)練和推理代碼，允許外部研究人員在此基礎(chǔ)上繼續(xù)研究。如果 Magma 實現(xiàn)其承諾，它可能會推動微軟的 AI 助手超越有限的文本交互，使其能夠自主操作軟件并通過機器人執(zhí)行現(xiàn)實世界的任務(wù)。

Magma 也表明 AI 文化可以如何快速變化。就在幾年前，這種代理式的討論還讓許多人感到恐懼，他們擔(dān)心這可能導(dǎo)致 AI 接管世界。雖然一些人仍然擔(dān)心這種結(jié)果，但在 2025 年，AI 代理已成為主流 AI 研究的常見話題，而且這種研究的進行通常不會引發(fā)暫停所有 AI 開發(fā)的呼聲。

【版權(quán)聲明】:本站內(nèi)容來自于與互聯(lián)網(wǎng)(注明原創(chuàng)稿件除外），如文章或圖像侵犯到您的權(quán)益，請及時告知，我們第一時間刪除處理！

上一篇：Meta 宣布大幅調(diào)整事實核查和內(nèi)容管理政策

下一篇：英偉達網(wǎng)絡(luò)技術(shù)連續(xù)第二屆 GTC 大會成為焦點

欧美国产人妖另类色视频-欧美国产日本高清不卡-欧美国产日韩在线-欧美国产日韩在线观看-jizz国产在线播放-jizz国产在线观看

微軟新的 AI 代理可以控制軟件和機器人