在大模型繼續上新的這個年底,12月18日,字節跳動火山引擎的豆包系列大模型也迎來了再次更新,一口氣上新了15款大模型產品。
這其中,尤以豆包視覺理解模型最為亮眼,不僅擁有內容識別、理解推理、視覺描述等能力,還將價格再次打到了每千tokens 0.003元。
視覺大模型由此也或將迎來又一次大范圍的普及應用。
就接下來的大模型產業落地來看,模型推理正在被提升到一個新高度,這對異構算力提出了更高要求。
在豆包系列大模型冬季發布會上,火山引擎聯合英特爾展示了雙方的合作成果,我們看到了基于AI PC的“扣子”,看到了企業級的AI方案。
我們也看到了,火山引擎聯合英特爾對外發布了基于英特爾至強6性能核處理器的火山引擎第四代通用計算型實例g4il。
在英特爾至強6性能核處理器加持下,火山引擎的g4il云實例,也將再次降低大模型的應用門檻,為AI時代下的云服務提供了一個新選擇。
01 火山引擎g4il實例,要降低大模型使用門檻
中國信通院《2024全球數字經濟白皮書》統計數據顯示,截至今年一季度,全球人工智能核心企業約有3萬家,全球AI獨角獸達到了234家,其中,中國則涌現出了71家AI獨角獸企業。
就大模型而言,全球人工智能大模型數量為1328個,中國占比高達36%。
作為國內大模型領域的核心玩家,字節跳動先是在2023年8月上線了云雀大模型,后又在2024年5月正式推出了多模態大模型豆包,而如今的豆包已經成了日均調用量高達4萬億次的主流模型。
大模型的發展,進一步催生了對算力的高需求,尤其是在當下大模型進入產業落地階段時,對于高性能異構算力也提出了更高的需求。
英特爾公司市場營銷集團副總裁、中國區云與行業解決方案和數據中心銷售部總經理梁雅莉指出,“英特爾至強6處理器正是為了適配數據中心異構多元算力需求而生。”
在大模型進入到應用落地階段后,越來越多企業有了嘗鮮大模型的想法和需求,為了滿足這樣的大模型測試、預研和輕量級大模型應用開發需求,火山引擎的g4il實例應運而生。
g4il實際上已經是火山引擎第四代通用計算型實例。
據火山引擎計算產品負責人王睿介紹,“g4il搭載了最新的英特爾至強6性能核處理器和火山引擎自研的DPU,實現了計算、存儲和網絡性能的全面升級,相比上一代產品,g4il在視頻轉碼、Web應用、和數據庫應用方面分別實現了17%、19%和20%的性能提升。”
此外,g4il還在以下幾個方面得到了進一步提升:
首先,得益于英特爾至強6性能核處理器在CPU核數上的突破,g4il的單機CPU核密度相比上一代產品有了翻倍的提升,在算力的性價比上也有了很大的提升;
其次,通過采用火山引擎雙單路創新服務器架構,g4il再次降低了整體的爆炸半徑,有力地保障了產品穩定性;
第三,通過新增大包傳輸能力(Jumbo Frame)、機密計算能力(TDX),以及支撐最新云盤吞吐類型SSD,火山引擎進一步豐富了g4il實例的功能。
王睿指出,“英特爾在英特爾至強6性能核處理器上引入了MRDIMM技術,并新增支持AMX FP16指令集,更大的內存帶寬和更強的矩陣運算能力,為AI推理加速提供了更優的底層基礎環境。”
火山引擎的實測數據顯示,相較于英特爾EMR CPU+DDR5內存,基于英特爾至強6性能核的g4il吞吐性能最高提升了80%,相較于單卡的A10和L20 GPU也有不小的優勢。
在火山引擎FORCE原動力大會現場,我們在英特爾展區也看到了基于g4il實例的文生文的大模型演示,在現場演示過程中,當向PC上的大模型提問“什么是AMX時”,它可以在用戶界面流暢地生成對應的答案。
據現場工作人員介紹,“這其實是在g4il實例上基于16個虛擬CPU核做7B模型的推理效果,這樣的配置已經基本可以滿足用戶量較小、請求并發度較低的使用場景。”
在大模型成為全球焦點時,GPU開始被視為大模型的標配產品,實際上,作為通用算力的CPU依然可以滿足不少大模型使用場景的需求。
據現場工作人員介紹,“基于g4il實例,企業用戶只需要16個虛擬CPU核就可以做7B左右模型的推理驗證工作,而當企業最終將這樣的產品轉化為真實落地產品時,可以再基于這一模型最終的用戶數、并發量選配更高配的硬件規格,由此就可以降低用戶使用門檻。”
對于一個百人規模的中小型公司,當需要在公司內部自研一個知識庫問答系統時,甚至完全可以基于CPU、在g4il實例上來實現,這也將極大降低企業的大模型使用門檻。
而在生成式AI成為云時代標配,越來越多企業結合內部數據嘗試使用大模型時,數據安全性也變得越來越重要。
對此,作為算力供應商的英特爾和火山引擎也深有體會。
02 如何消除大模型的數據安全隱憂?
2024年6月,在今年的WWDC2024上,蘋果終于發布了他們的Apple Intelligence,高度重視隱私安全的蘋果在WWDC2024上多次強調了用戶隱私安全的重要性,并采用端云結合模式打造了Apple Intelligence。
數據安全問題并非只是大模型遇到的問題,相應的隱私計算技術也已經在近些年逐漸成熟。
如今成熟的隱私計算技術大致可以分為兩個流派:
第一個流派是基于密碼學的同態加密、多方安全計算、差分隱私、零知識證明等技術,這些技術完全依賴密碼學方式實現數據可用不可見的保護。
不過,基于密碼學的技術如今存在一個普遍問題,那就是會為企業帶來較高的計算和通訊開銷。
第二個流派是基于硬件、芯片構建數據安全處理的可信執行環境,此類技術又被稱為機密計算。
據英特爾技術專家介紹,“機密計算得益于更低的損耗、更高的性能,更符合如今云計算時代的部署要求,正在成為云計算中構建數據可用而不可見的保護策略的主流技術方式。”
2019年,Linux基金會成立了機密計算聯盟,該聯盟的目標旨在定義機密計算標準,支持和推廣開源機密計算工具和框架的開發,聯盟創始成員包括英特爾、AMD、Arm、谷歌、紅帽、阿里、華為、騰訊等來自全球的科技公司。
面對當下數據應用環境,機密計算主要致力于解決三大問題:
第一,數據機密性,確保用戶數據在處理和使用過程中不外泄;
第二,數據完整性,確保待處理數據安全可靠、未發生篡改,確保計算結果的安全性和可信性;
第三,代碼完整性,確保用戶數據的程序代碼安全可靠,未被植入惡意代碼。
作為機密計算的創始成員之一,英特爾在機密計算領域一直都在進行著技術研發,并在將這些技術應用到至強處理器中。
英特爾最早是在第三代英特爾至強可擴展處理器中應用了SGX技術,后又在第四代和第五代英特爾至強可擴展處理器中應用了TDX技術。
英特爾技術專家指出,“TDX技術構建的可信執行環境可以承載完整的用戶虛擬化實例,只要用戶的程序能跑在虛擬化環境里,都可以直接遷移到機密計算解決方案。”
而隨著機器學習、大模型應用等高算力場景的不斷涌現,用戶數據有了在通用處理器和異構加速器之間進行協同計算的需求,英特爾又進一步推出了TDX Connect技術,這項技術可以使用戶數據在異構加速場景中的計算得到機密性保護。
以大模型核心應用場景之一RAG為例。
RAG是檢索增強生成模型,本質上是基于知識庫、數據庫的內容檢索,大模型在生成內容時,參照數據庫有針對性地增強生成結果,從而提升生成結果質量和準確性。
在這一應用場景中,由于行業知識庫或企業知識庫一定含有企業敏感信息,例如行業流程、企業流程,乃至技術文檔。
用戶在部署RAG服務時,對其是否會被竊取會存有疑慮,基于英特爾TDX構建的機密虛擬化實例,無論是RAG應用中的信息提取、數據庫應用,還是模型生成流程,都可以在不改變應用程序中間框架前提下直接訪問機密虛擬機,從而實現在云中隔離和保護用戶在使用RAG部署過程中的數據安全。
實際上,火山引擎最近就基于英特爾TDX技術,推出了g3ilt TDX機密計算實例,這一云實例可以為云上AI場景構建端到端的機密計算方案。
我們在大會現場,也看到了g3ilt TDX機密計算實例的現場展示。
當然,基于英特爾至強6性能核處理器的火山引擎第四代通用計算型實例g4il同樣支持TDX機密虛擬機,與此同時,針對云上AI場景,火山引擎打造了端到端安全解決方案。
王睿在大會上介紹稱,“基于CPU和GPU硬件機密計算能力,火山引擎在固件、內核、虛擬化以及操作系統等方面做了深度調優,在機密計算云服務器上,火山引擎提供了機密容器、密鑰管理、基線管理、遠程證明和安全RAG等豐富的安全能力和服務,為AI應用當中的訓練推理,前后端數據處理全場景提供安全保障。”
上一篇:云市場將走向何方?財報中一探究竟