身為英偉達公司CTO,Kagan解釋了AI計算需求如何推動半導(dǎo)體技術(shù)突破摩爾定律的邊界。
英偉達正積極擁抱一種新的計算范式,利用大規(guī)模并行計算機系統(tǒng)為新一代應(yīng)用程序提供服務(wù)。而這場變化的開端,主要始于以色列。
英偉達公司CTO Michael Kagan指出,“雖然計算元件隨著發(fā)展而尺寸愈小,但21世紀(jì)的計算設(shè)備本體卻向著大小兩極延伸——小至智能手表、大至超大規(guī)模數(shù)據(jù)中心。”
“數(shù)據(jù)中心本身就相當(dāng)于一臺計算機,而英偉達正在建立數(shù)據(jù)中心架構(gòu)。我們正在打造幾乎一切的必要元素,包括調(diào)整芯片、框架乃至應(yīng)用程序,以便讓這臺21世紀(jì)機器上的一切都高效執(zhí)行。”
Kagan居住在以色列海法區(qū),三年前經(jīng)由Mellanox Technologies收購案正式加入英偉達,目前擔(dān)任公司CTO。英偉達創(chuàng)始人兼CEO黃仁勛對Kagan寄予厚望,任命他督導(dǎo)一切系統(tǒng)架構(gòu)事宜。
超越摩爾定律著名的摩爾定律,源自戈登·摩爾 (Gordon Moore) 1965 年撰寫的一篇論文《在集成電路上塞入更多元件》。這位后來擔(dān)任英特爾CEO的技術(shù)先驅(qū)在文中預(yù)測,隨著技術(shù)與經(jīng)濟的雙重驅(qū)動,未來半導(dǎo)體行業(yè)每年都將在同樣大小的空間內(nèi)將晶體管的布置數(shù)量翻倍,而且這種情況將持續(xù)10年。
他的觀察和總結(jié)后來被稱為摩爾定律,且10年后稍做修改就繼續(xù)適用。1975年,摩爾表示發(fā)展的速度將變成約每兩年翻一番。他還提到,在可預(yù)見的未來,這樣的情況將一直持續(xù)下去。直到2005年左右,芯片制造商都始終保持著這樣的發(fā)展速度,但之后情況開始變化——無論是在經(jīng)濟還是在物理特性上,各晶體管元件間的距離已經(jīng)太小,每過兩年將相同空間內(nèi)的晶體管數(shù)量增加一倍將難以實現(xiàn)。
為此,芯片制造商想出了各種辦法來提高算力水平。其一就是增加核心數(shù)量,另一種則是用網(wǎng)絡(luò)替代容易引發(fā)性能瓶頸的共享總線,將不同組件間直接互連以改善多芯片/處理器和內(nèi)存之間的通信能力。
半導(dǎo)體制造商還發(fā)明了其他提升計算能力的新方法,包括研究算法、加速器和新的數(shù)據(jù)處理方式。加速器是一類專用組件(通常采取芯片形式),能夠以極快速度執(zhí)行特定任務(wù)。一旦系統(tǒng)遇到此類任務(wù),就會將其交由加速器處理,從而實現(xiàn)整體性能提升。
廠商們還特別關(guān)注人工智能(AI)。與計算機行業(yè)慣用的馮·諾依曼架構(gòu)相比,AI用例中的數(shù)據(jù)處理方式可謂截然不同。
Kagan解釋稱,“AI基于神經(jīng)網(wǎng)絡(luò),這是一種與馮·諾依曼架構(gòu)大相徑庭的數(shù)據(jù)處理方式。馮·諾依曼架構(gòu)的本質(zhì),是一種執(zhí)行指令、查看結(jié)果、再決定下一步做什么的串行機器。”
“而處理數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)模型則受到人腦研究的啟發(fā)。向神經(jīng)網(wǎng)絡(luò)提供數(shù)據(jù),它就會從中學(xué)習(xí)。其工作原理類似于向三歲的小孩展示狗和貓,最終讓對方學(xué)會區(qū)分這兩者。在神經(jīng)網(wǎng)絡(luò)的幫助下,我們得以解決眾多以往在馮·諾依曼架構(gòu)上不知該如何處理的問題。”
AI與數(shù)字孿生等新型應(yīng)用也加快了對于計算性能的需求,新需求自然需要搭配新的范式。以往,軟件開發(fā)只需要很少算力,主要算力需求都集中在程序的運行過程上。相比之下,AI則需要大量算力來訓(xùn)練神經(jīng)網(wǎng)絡(luò),但訓(xùn)練完成之后的運行成本卻要低得多。
單個GPU或CPU都不足以訓(xùn)練大型AI模型。例如,ChatGPT的訓(xùn)練就需要使用約1萬個GPU。所有GPU并行工作,彼此之間也自然需要相互通信。除了大規(guī)模并行處理之外,新的計算范式還要求使用新型專用芯片,名為數(shù)據(jù)處理單元(DPU)。
黃氏定律Kagan談到,“2003年時,世界上最快的計算機器是Earth-Simulator地球模擬器,性能為每秒萬億次浮點運算。而當(dāng)今最快的計算機是Frontier,運算速度已經(jīng)達成百億億級別,是當(dāng)初的100萬倍。是的,20年間從萬億級提升到了百億億級。”
他補充道,“在1983年至2003年這20年間,計算性能則提高了數(shù)千倍。從數(shù)千倍到數(shù)百萬倍,這種計算性能的飛躍就是很多人說的「黃氏定律」。即我們英偉達CEO黃仁勛觀察到的,GPU加速計算性能每隔一年就會翻一番。”
“事實上,算力的增長速度還不止每年倍增。現(xiàn)在我們討論的是AI工作負(fù)載和數(shù)據(jù)處理的新方法。如果把目光轉(zhuǎn)向這一代英偉達Hopper GPU上運行的應(yīng)用程序,就會發(fā)現(xiàn)與上代Ampere相比,速度的增幅超過了20倍。”
Kagan表示,這種計算速度的提升主要源自算法和加速器的雙重加持:“每推出新一代GPU,都會添加更多、更強的加速器,以及更復(fù)雜的數(shù)據(jù)處理方式。”
“新設(shè)計完全取決于如何在不同部件之間劃分功能。現(xiàn)在我們面對三大計算要素——GPU、CPU和DPU,外加連通彼此的網(wǎng)絡(luò)。是的,網(wǎng)絡(luò)本身也執(zhí)行一部分計算。在英偉達收購的Mellanox公司,我們引入了網(wǎng)絡(luò)內(nèi)計算技術(shù),能夠在數(shù)據(jù)流經(jīng)網(wǎng)絡(luò)時執(zhí)行一部分計算。”
從當(dāng)初每兩年讓晶體管數(shù)量倍增、從而令計算性能翻一番的摩爾定律,到如今依靠GPU加速計算實現(xiàn)每年翻番的黃氏定律,半導(dǎo)體行業(yè)仍在不斷突破新的極限。但目前來看,即使是黃氏定律恐怕也跟不上AI應(yīng)用不斷增長的需求。畢竟AI應(yīng)用已經(jīng)給出了明確的性能需求:每年算力提升10倍!