隨著大語言模型 (LLM) 在各行業得到更廣泛的應用,確保這些強大 AI 工具的安全性已成為一個日益增長的關切。本周在新加坡舉行的 Black Hat Asia 2025 大會上,一組專家深入探討了 LLM 防火墻是否是 AI 安全的解決方案,還是僅僅是整個安全體系中的一部分。
網絡安全公司 CloudsineAI 的創始人 Matthias Chin 首先指出了防護機制和防火墻之間的區別:"防護機制是一種保護機制,而防火墻是一個具有更多功能的安全概念 - 例如,它是一個控制點,包含防護機制,擁有威脅向量數據庫,并可以與 SIEM (安全信息和事件管理) 工作流程集成。"
新加坡內政團隊科技局 (HTX) 首席創新官兼首席云工程師 Pan Yong Ng 指出,將 AI 安全整合到組織 IT 基礎設施的基礎中非常重要,盡管對于安全控制應該放在哪里仍存在不確定性。他建議在各個層面實施組合控制,從推理服務模型到 Web 應用程序安全,甚至擴展到 AI 代理。
AI Singapore 的 AI 創新總監 Laurence Liew 表示,開發人員對 AI 代理和大語言模型的使用日益增加,這將需要使用 LLM 防火墻來執行防護機制和企業政策。他說:"我們告訴年輕工程師要確保設置某些防護機制,他們會去做,但他們經常忙于編碼,以至于防護機制可能沒有得到更新。"
新加坡南洋理工大學研究員 Xiaojun Jia 指出了傳統防火墻在解決 LLM 特定安全問題方面的局限性。他說:"傳統防火墻專注于網絡安全,這使得它們在防御利用 LLM 邏輯流程的越獄攻擊方面效果不佳。"
Chin 補充說,LLM 防火墻不僅僅是為了確保 AI 安全 - 它們也用于 AI 安全性,以防止模型幻覺和產生有偏見和有害的輸出。它們還可以防范通過人類語言和提示而不是代碼執行的新一代攻擊。
專家組還探討了通用 LLM 防火墻是否能夠在所有行業中有效運作,還是需要定制化的問題。
Liew 特別提到了 AI Singapore 與政府機構的轉錄項目,其中語音轉文本引擎根據每個機構的需求進行了微調。他說,同樣地,LLM 防火墻應該經過精心設計,以處理醫療保健和金融服務等特定場景。
在實施 LLM 防火墻方面,Jia 提倡采用包括輸入檢測、模型調優和輸出過濾的多層次方法。
"輸入檢測在提示輸入模型之前檢測惡意輸入,模型調優確保輸出與人類價值觀一致,輸出過濾檢測有害輸出,"Jia 說,同時他也承認在安全性和可用性之間取得平衡是一個挑戰,呼吁采用能夠應對不斷演變的攻擊的自適應防御措施。
測試和基準測試對于確保 LLM 及其防火墻按預期工作至關重要。Chin 表示這個領域仍在發展中,需要完成的工作將取決于測試用例,并與防火墻將部署的行業(無論是銀行還是醫療保健)保持一致。他指出 Meta 的 CyberSecEval 和新加坡的 AI Verify 是可以幫助支持測試和基準測試工作的示例。
Liew 強調了在構建和測試 LLM 時擁有多元化團隊的重要性。他說:"擁有跨不同學科的人才非常重要。確保團隊中有了解領域的人。你會驚訝地發現,他們提出的問題是網絡安全工程師從未想到的。"
關于 LLM 防火墻是否會阻礙 AI 創新,Chin 表示,隨著模型上下文協議 (MCP) 等新興技術的采用 - 這是 Anthropic 開發的一個開放標準,允許 AI 代理與其他應用程序和數據源通信 - AI 代理可能會繞過 LLM 防火墻并開始與其他代理通信。他補充說:"我們必須讓創新蓬勃發展,并繼續建立應對挑戰的敏捷性。"
Chin 表示,LLM 防火墻將繼續發展,這是由代理式 AI 框架的興起推動的,組織,特別是大型企業和政府,將需要某種形式的防護機制或防火墻。就像網絡防火墻現在包括 Web 應用防火墻和終端防火墻一樣,他指出 LLM 防火墻可以采用部署在安全控制點和終端的硬件或軟件形式。