摩爾線程副總裁王華:AI工廠全棧技術(shù)重構(gòu)算力基建,開(kāi)啟國(guó)產(chǎn) GPU 黃金時(shí)代

摩爾線程在世界人工智能大會(huì)(WAIC 2025)前夕舉辦以“算力進(jìn)化,線程精度革命”為主題的副總技術(shù)分享會(huì),創(chuàng)新性提出“AI工廠” 理念。裁王廠全產(chǎn)這一系統(tǒng)性工程通過(guò)全功能GPU、華A黃金自研架構(gòu)、工構(gòu)算集群技術(shù)與軟件生態(tài)的棧技深度協(xié)同,重新定義了AI基礎(chǔ)設(shè)施的術(shù)重時(shí)代生產(chǎn)力公式 ——AI工廠生產(chǎn)效率=加速計(jì)算通用性 × 單芯片有效算力 × 單節(jié)點(diǎn)效率 × 集群效率 × 集群穩(wěn)定性。作為國(guó)內(nèi)率先實(shí)現(xiàn)單芯片集成AI計(jì)算、力基圖形渲染、建開(kāi)物理仿真、啟國(guó)超高清視頻編解碼四大引擎的線程GPU廠商,摩爾線程此次提出的副總 “AI工廠” 并非單純的硬件升級(jí),而是裁王廠全產(chǎn)涵蓋芯片架構(gòu)、集群管理、華A黃金算法優(yōu)化、工構(gòu)算資源調(diào)度的全棧式創(chuàng)新。正如創(chuàng)始人張建中在主題演講中所言:“我們正在建造的,是能夠生產(chǎn)AGI時(shí)代先進(jìn)模型的超級(jí)工廠。”

一、大模型算力需求呈指數(shù)級(jí)增長(zhǎng),參數(shù)量與數(shù)據(jù)量成核心驅(qū)動(dòng)力

在WAIC 2025摩爾線程技術(shù)分享日上,副總裁王華首先聚焦大模型算力需求的發(fā)展趨勢(shì)。他指出,2020年至2025年間,主流大模型的算力需求呈現(xiàn)出近乎指數(shù)級(jí)的增長(zhǎng)態(tài)勢(shì),從單位為flops的數(shù)值來(lái)看,每一格代表10倍增長(zhǎng)的縱軸上,模型所需算力持續(xù)攀升。

圖:摩爾線程副總裁王華在大會(huì)上演講分享他對(duì)大模型智算集群的看法(圖片來(lái)源:電子發(fā)燒友網(wǎng))

以具體模型為例,2020 年大模型算力需求 TOP 值為 1023flops,而到 2025 年,Grok-3 的算力需求已達(dá) 102?flops,短短五年間實(shí)現(xiàn)了約 1000 倍的增長(zhǎng);GPT-4 的訓(xùn)練量更是達(dá)到 102?flops,較早期模型提升一個(gè)數(shù)量級(jí)。這種增長(zhǎng)的核心驅(qū)動(dòng)力來(lái)自參數(shù)量與數(shù)據(jù)量的雙重?cái)U(kuò)張 —— 根據(jù) Scaling Law,參數(shù)量和數(shù)據(jù)量的增大能顯著降低模型 loss 值,提升模型效果,進(jìn)而推動(dòng)算力需求激增。

王華還通過(guò)不同規(guī)模集群的訓(xùn)練時(shí)間對(duì)比,直觀展現(xiàn)了算力需求的規(guī)模。以英偉達(dá)H100 集群為例:DeepSeek 模型算力需求約 3.4×102?flops,在千卡集群中需訓(xùn)練 97 天,五千卡集群需 22 天,萬(wàn)卡集群需 13 天;萬(wàn)億參數(shù)的 Kimi K2 模型計(jì)算量為 2.98×102?flops,對(duì)應(yīng)訓(xùn)練時(shí)間分別為 85 天、19 天、11 天;而 GPT-4 因算力需求達(dá) 102?flops,千卡集群需 602 天,五千卡集群需 137 天,萬(wàn)卡集群需 80 天。即便是早期的 GPT-3,雖參數(shù)量不小,但因數(shù)據(jù)量有限,訓(xùn)練效率相對(duì)更高。這些數(shù)據(jù)清晰表明,參數(shù)量與數(shù)據(jù)量的 “雙增長(zhǎng)” 正持續(xù)推高大模型訓(xùn)練的算力門(mén)檻。

二、FP8 成低精度訓(xùn)練 “甜點(diǎn)”,技術(shù)突破平衡效率與效果

在算力需求激增的背景下,低精度訓(xùn)練技術(shù)成為提升效率的關(guān)鍵。王華介紹,從FP32 到 FP16 再到 FP8,精度每下降一半,算力可提升一倍 —— 這源于顯存占用減少、緩存速度提升,但同時(shí)也可能因數(shù)值損失導(dǎo)致模型效果下降。因此,如何在精度、參數(shù)量、數(shù)據(jù)量之間找到平衡,成為核心課題。

引入精度參數(shù)P 后的新 Scaling Law 顯示,在固定計(jì)算量下,需合理配置參數(shù)量(N)、數(shù)據(jù)量(D)與精度(P):精度越高,loss 值(L)越小,但算力成本也越高。通過(guò)對(duì)比 FP32、FP16、FP8、FP6、FP4 的效果,發(fā)現(xiàn) FP6 和 FP8 處于 loss 值最低的 “甜點(diǎn)區(qū)域”,而 FP4 因精度過(guò)低導(dǎo)致 loss 值回升。近期研究進(jìn)一步驗(yàn)證,F(xiàn)P8 是當(dāng)前兼顧效率與效果的最優(yōu)選擇,相比 FP16 訓(xùn)練有巨大提升空間。

不過(guò),F(xiàn)P8 訓(xùn)練面臨兩大核心挑戰(zhàn):一是取值范圍有限,易出現(xiàn)上溢(梯度爆炸)和下溢(梯度消失);二是不同操作對(duì)精度敏感度差異大 —— 矩陣乘等操作對(duì)精度不敏感,累加 / 歸約類(lèi)操作敏感度中等,非線性函數(shù)(如指數(shù)級(jí)增長(zhǎng)的計(jì)算)則高度敏感。對(duì)此,行業(yè)普遍采用混合精度訓(xùn)練策略:對(duì)精度不敏感的部分(如矩陣乘)用 FP8 計(jì)算,敏感部分保留高精度

王華強(qiáng)調(diào),F(xiàn)P8 技術(shù)的落地離不開(kāi)軟硬件協(xié)同支撐。硬件上,新一代 Tensor Core(如英偉達(dá)產(chǎn)品)已支持 FP8 輸入與高精度輸出;軟件層面,權(quán)重更新用 FP32 表達(dá)、Tensor Scaling 動(dòng)態(tài)調(diào)整數(shù)值范圍等技術(shù),有效緩解了精度損失問(wèn)題。以 DeepSeek 模型為例,其前向和反向傳播中的 3 次矩陣乘均采用 FP8,激活值的緩存與傳輸也用 FP8,僅對(duì)精度敏感部分保留高精度,大幅提升了訓(xùn)練效率。

三、摩爾線程全棧支持FP8 訓(xùn)練,技術(shù)創(chuàng)新攻克落地難點(diǎn)

作為國(guó)內(nèi)GPU 廠商代表,摩爾線程已構(gòu)建起 FP8 訓(xùn)練的軟硬件全棧支持能力。王華詳細(xì)介紹了其技術(shù)布局:

在硬件層面,摩爾線程GPU 為全功能芯片,原生支持從 FP64、FP32 到 FP8 的全精度算力,為低精度訓(xùn)練提供基礎(chǔ)支撐。

軟件棧則包含三大開(kāi)源框架:一是Torch-MUSA,作為 Torch 棧上的 MUSA 底層插件,已實(shí)現(xiàn)對(duì) FP8 數(shù)據(jù)類(lèi)型的完整支持,可在 MUSA 平臺(tái)上順暢運(yùn)行整個(gè) Torch 生態(tài);二是 MT-MegatronLM,支持 Dense、多模態(tài)、MoE 等模型的高效訓(xùn)練,支持FP8 混合精度訓(xùn)練、高性能 muDNN 庫(kù)與 MCCL 通信庫(kù);三是 MT-TransformerEngine,專(zhuān)注于 Transformer 模型的高效訓(xùn)練與推理優(yōu)化,通過(guò)算子融合、并行加速等技術(shù)提升效率。

依托這套軟件棧,摩爾線程成為行業(yè)內(nèi)率先復(fù)現(xiàn)DeepSeek-V3 “滿血版” 訓(xùn)練的廠商(其他廠商多聚焦推理復(fù)現(xiàn))。其核心突破包括:通過(guò) MT FlashMLA 和 DeepGEMM 庫(kù)優(yōu)化算子性能,精準(zhǔn)復(fù)現(xiàn)了 DeepSeek 的訓(xùn)練邏輯。

針對(duì)FP8 訓(xùn)練的具體難點(diǎn),摩爾線程還做了針對(duì)性創(chuàng)新:在 scaling factor 選擇上,Per-Tensor 維度因數(shù)值范圍穩(wěn)定(最小值約 200,最大值約 2000),采用固定因子;Per-Block 維度因最小值可能為 0,易導(dǎo)致數(shù)值異常,故用 JIT 動(dòng)態(tài)的scalingfactor的選擇。在處理outlier(異常值)方面,通過(guò) Smooth SwiGLU 技術(shù),在量化后先乘縮放因子、第二次量化后再恢復(fù),降低了 FP8 上溢風(fēng)險(xiǎn),提升了訓(xùn)練穩(wěn)定性。

四、大規(guī)模集群訓(xùn)練:模擬優(yōu)化與可靠性保障并重

隨著集群規(guī)模擴(kuò)大(萬(wàn)卡、十萬(wàn)卡級(jí)),訓(xùn)練的效率與可靠性成為關(guān)鍵。王華指出,大規(guī)模訓(xùn)練無(wú)法全靠實(shí)驗(yàn)驗(yàn)證(資源消耗過(guò)大),需依賴(lài)模擬工具與可靠性技術(shù)。

在模擬優(yōu)化方面,摩爾線程開(kāi)源了Simumax 軟件(GitHub 可下載),通過(guò)理論與仿真結(jié)合,估算訓(xùn)練中的資源開(kāi)銷(xiāo)。該工具支持多種并行策略、優(yōu)化策略,可在主流模型上通過(guò)計(jì)算圖仿真,收集各類(lèi)開(kāi)銷(xiāo)數(shù)據(jù),快速評(píng)估資源需求,并定位性能偏差原因。其核心邏輯是基于經(jīng)驗(yàn)與理論數(shù)據(jù),在計(jì)算圖上模擬全流程,匯總開(kāi)銷(xiāo)后形成量化結(jié)果,為集群配置提供精準(zhǔn)參考。

在可靠性保障上,摩爾線程建立了“全生命周期管理” 體系:一是 “起飛檢查”,訓(xùn)練前對(duì)硬件、網(wǎng)絡(luò)進(jìn)行全面檢測(cè),跑小負(fù)載驗(yàn)證棧穩(wěn)定性,自動(dòng)剔除異常節(jié)點(diǎn),降低人工排查帶來(lái)的時(shí)間成本和人力成本;二是“飛行檢查”,實(shí)時(shí)檢測(cè)訓(xùn)練中的hang、異常退出、訓(xùn)練亞健康等問(wèn)題并及時(shí)處理;三是“落地檢查”,訓(xùn)練中斷時(shí)自動(dòng)抓取故障上下文,定位問(wèn)題根源。

針對(duì)“慢節(jié)點(diǎn)” 拖累整體效率的問(wèn)題,摩爾線程通過(guò)兩方面檢查解決:起飛階段用小工作負(fù)載測(cè)試識(shí)別明顯慢節(jié)點(diǎn);訓(xùn)練中對(duì)比節(jié)點(diǎn)通信時(shí)間,挑出異常節(jié)點(diǎn)。此舉常能帶來(lái)10%-20% 的性能提升。

在容錯(cuò)訓(xùn)練上,針對(duì)萬(wàn)卡級(jí)集群的高故障率,采用“動(dòng)態(tài)摘除” 策略:若某 DP(數(shù)據(jù)并行)節(jié)點(diǎn)故障,將其從通信組中摘除,剩余節(jié)點(diǎn)繼續(xù)工作;若 DP 規(guī)模較大,可摘除單個(gè)節(jié)點(diǎn),跳過(guò)該節(jié)點(diǎn)的參數(shù)計(jì)算與更新 —— 因數(shù)據(jù)量巨大,少量數(shù)據(jù)缺失對(duì)整體效果影響極小,但能避免集群重啟的巨額開(kāi)銷(xiāo)。

王華總結(jié),算力需求激增推動(dòng)低精度訓(xùn)練技術(shù)崛起,F(xiàn)P8 成為當(dāng)前最優(yōu)解,而摩爾線程通過(guò)軟硬件全棧創(chuàng)新與集群管理技術(shù),正為大規(guī)模大模型訓(xùn)練提供高效、可靠的支撐。未來(lái),其開(kāi)發(fā)者大會(huì)將分享更多技術(shù)探索,持續(xù)推動(dòng) AI 算力基礎(chǔ)設(shè)施的進(jìn)化。

五、對(duì)未來(lái)趨勢(shì)的總結(jié)

最后,王總特別總結(jié)指出現(xiàn)在的AI三個(gè)大趨勢(shì):第一、算力需求的發(fā)展趨勢(shì),使得大智算集群成為訓(xùn)練的剛需。第二,低精度的訓(xùn)練,會(huì)帶來(lái)大規(guī)模訓(xùn)練效率的提升。第三,集群的可靠性對(duì)大規(guī)模訓(xùn)練至關(guān)重要。(完)

發(fā)表評(píng)論

您的電子郵件地址不會(huì)被公開(kāi). 必需的地方已做標(biāo)記 *