DeepSeek在8月21日正式發(fā)布V3.1,一則官方補(bǔ)充留言激起千層浪。
是的,因?yàn)楣俜皆赩3.1的發(fā)布文章里把有關(guān)過程算力支持的描述寫的太隱晦,又自己在評(píng)論區(qū)補(bǔ)充了一句。
一夜過去,短短的一句話,A股市場(chǎng)集體“開香檳”。據(jù)財(cái)聯(lián)社報(bào)道,全市場(chǎng)超2800只個(gè)股上漲。從板塊來看,算力股全線爆發(fā),云天勵(lì)飛等多股漲停。芯片股集體大漲,寒武紀(jì)漲停創(chuàng)歷史新高,中芯國(guó)際大漲14%,海光信息漲停。
資本市場(chǎng)的反應(yīng)并不是對(duì)一句口號(hào)的追捧,而是看到了國(guó)產(chǎn)芯片在算力賽道上真正切入國(guó)際前沿的可能。DeepSeek的這句話,不僅被視作一次“技術(shù)換擋”的信號(hào),更是國(guó)內(nèi)算力產(chǎn)業(yè)鏈罕見的共振時(shí)刻。
DeepSeek這枚炸彈,到底是什么?
要理解“UE8M0 FP8”為何能引發(fā)如此大的關(guān)注,必須將其拆解為兩個(gè)部分:作為本體的“FP8”和作為靈魂的“UE8M0”。FP8本身是一種將數(shù)字壓縮到僅用8位(bit)來存儲(chǔ)的浮點(diǎn)格式,旨在用更少的數(shù)據(jù)位寬降低AI大模型訓(xùn)練和推理中對(duì)顯存帶寬的空前壓力。
而DeepSeek的模型一直使用的都是這個(gè)格式,但有一個(gè)問題,國(guó)內(nèi)的芯片公司只有極少數(shù)GPU廠商原生支持FP8,比如摩爾線程,其旗艦產(chǎn)品MTT S5000就是國(guó)內(nèi)首批原生支持FP8并大規(guī)模量產(chǎn)的GPU。大家普遍支持的都是FP16,這使得國(guó)產(chǎn)芯片在跑DeepSeek的模型時(shí),性能至少會(huì)折損一半,所以,這也解釋了為什么大家還是喜歡買英偉達(dá)的芯片,因?yàn)槿绻沁^去的國(guó)產(chǎn)芯片,起手就已經(jīng)不是“滿血”了,更別說自己在本地調(diào)配時(shí)還有可能因?yàn)樗讲蛔阍俳档托阅堋?/p>
圖|豆包AI生成
有AI infra企業(yè)告訴鳳凰網(wǎng)科技,解決方案就是在軟件上做突破,國(guó)內(nèi)有專門針對(duì)國(guó)產(chǎn)芯片做軟件適配DeepSeek的企業(yè),比如清程極智,其原則是讓國(guó)產(chǎn)芯片在用DeepSeek的時(shí)可以提升性能。
這里補(bǔ)充一個(gè)知識(shí),純粹的FP8(如常見的E4M3或E5M2格式)在動(dòng)態(tài)范圍和精度上存在固有權(quán)衡,處理具有極端大小值的復(fù)雜數(shù)據(jù)時(shí)仍可能面臨精度損失或數(shù)值溢出的挑戰(zhàn)。通俗的說,就是數(shù)據(jù)會(huì)有損,就像你壓縮打包一批衣服,可以壓到很小,但衣服會(huì)皺的厲害。
而真正的突破來自于由Meta、谷歌等科技巨頭推動(dòng)的開放計(jì)算項(xiàng)目(OCP)所制定的MX(Microscaling)格式,其核心思想不再是整個(gè)張量共用一個(gè)大縮放因子,而是將其切分為微小的數(shù)據(jù)塊,并為每個(gè)塊單獨(dú)配備一個(gè)輕量級(jí)的8位縮放因子,從而在保持8位存儲(chǔ)效率的同時(shí),動(dòng)態(tài)范圍擴(kuò)展了數(shù)十倍。通俗說,就是把一批衣服分開打包。
回到DeepSeek這次發(fā)布的“UE8M0”,正是MX格式中為每個(gè)數(shù)據(jù)塊指定的那個(gè)關(guān)鍵縮放因子的數(shù)據(jù)格式。它是一種極為高效的8位指數(shù)表示法:“U”代表無符號(hào)(Unsigned),意味著它永遠(yuǎn)是一個(gè)正數(shù),無需符號(hào)位;“E8”代表8個(gè)比特全部用于表示指數(shù)(Exponent);“M0”代表沒有尾數(shù)(Mantissa)。用一個(gè)比喻來形容,UE8M0就像一個(gè) “只調(diào)檔位、不調(diào)微刻度”的超級(jí)節(jié)能燈泡開關(guān),就像AI芯片里的快進(jìn)鍵。
這種“全指數(shù)”設(shè)計(jì)帶來了兩大根本性優(yōu)勢(shì):其一,硬件在執(zhí)行縮放(即數(shù)據(jù)還原)時(shí)異常簡(jiǎn)單快捷,只需進(jìn)行簡(jiǎn)單的整數(shù)次冪運(yùn)算(相當(dāng)于直接移動(dòng)二進(jìn)制小數(shù)點(diǎn)),完全規(guī)避了復(fù)雜的浮點(diǎn)乘法與舍入操作,極大縮短了關(guān)鍵計(jì)算路徑,提升了能效。其二,其巨大的動(dòng)態(tài)范圍(從2?¹²?到2¹²?)足以確保任何數(shù)據(jù)塊都能被恰到好處地縮放至FP8的表示范圍內(nèi),從而幾乎完全避免了因數(shù)值過大而溢出或過小而被舍入為零的信息損失問題,錯(cuò)誤率曲線得以從高位大幅降至一條平坦的低水平線。
所以說UE8M0 FP8是讓國(guó)產(chǎn)芯片在跑大模型,尤其是在跑DeepSeek的模型時(shí)——更快、更省、更能扛大數(shù)。
許多現(xiàn)有國(guó)產(chǎn)AI加速器并未原生支持完整的E4M3/E5M2 FP8計(jì)算單元,但其架構(gòu)正在向支持塊縮放(Block Scaling)的MX格式演進(jìn)。UE8M0作為縮放因子,其本身格式極簡(jiǎn),無需復(fù)雜的專用浮點(diǎn)乘法器即可實(shí)現(xiàn),降低了硬件實(shí)現(xiàn)門檻。
更重要的是,它為突破“內(nèi)存墻”提供了最優(yōu)解:相較于傳統(tǒng)的為每個(gè)數(shù)據(jù)塊配備一個(gè)32位FP32縮放因子,UE8M0僅需追加8位,即可高效管理32個(gè)FP8數(shù)據(jù),帶寬開銷驟降75%。這對(duì)于HBM帶寬仍處于追趕階段的國(guó)產(chǎn)芯片而言,是一項(xiàng)通過數(shù)據(jù)格式創(chuàng)新實(shí)現(xiàn)“帶寬減負(fù)”的架構(gòu)級(jí)優(yōu)化,成為了在下一代競(jìng)爭(zhēng)中實(shí)現(xiàn)效能躍升的關(guān)鍵技術(shù)路徑。因此,這不僅是單純的技術(shù)兼容,更是一次在主流標(biāo)準(zhǔn)框架內(nèi),通過前沿設(shè)計(jì)實(shí)現(xiàn)差異化競(jìng)爭(zhēng)力的精準(zhǔn)卡位。
中國(guó)算力產(chǎn)業(yè)正在迎來“頓悟時(shí)刻”
從產(chǎn)業(yè)層面看,DeepSeek的這次表態(tài)不只是一種技術(shù)選擇,更是一次產(chǎn)業(yè)生態(tài)的確認(rèn)。想想看,中國(guó)最好用的大模型產(chǎn)品與英偉達(dá)如此緊密的捆綁,本身是一件不樂觀的事情,DeepSeek這一次的發(fā)布,可以看作是一種漸進(jìn)式的解綁,官方主動(dòng)下場(chǎng)為國(guó)產(chǎn)芯片發(fā)展生態(tài)站位。
UE8M0 FP8的落地,也意味著國(guó)產(chǎn)算力廠商已經(jīng)在浮點(diǎn)格式、編譯器優(yōu)化、訓(xùn)練框架適配等環(huán)節(jié)上實(shí)現(xiàn)全棧打通,這背后意味著長(zhǎng)期積累的軟硬件協(xié)同終于顯現(xiàn)成果。
至于其所提到的下一代國(guó)產(chǎn)芯片是誰,鳳凰網(wǎng)科技此前了解到的,目前成熟的頭部國(guó)產(chǎn)芯片公司其實(shí)都與DeepSeek有所接觸。另外,有不少本身都是支持FP8的,除了摩爾線程,今天漲得最兇猛的寒武紀(jì),旗下的思元590以及最新690系列都支持。鳳凰網(wǎng)科技還了解到,摩爾線程的MUSA架構(gòu)本就原生支持硬件FP8張量加速計(jì)算,現(xiàn)在還能夠很好地支持UE8M0 FP8 Scale,利用硬件原生FP8,相對(duì)于傳統(tǒng)的FP16計(jì)算能夠?qū)崿F(xiàn)兩倍的浮點(diǎn)算力提升、訪存和通信帶寬效率提升和存儲(chǔ)容量利用率提升,同時(shí)最優(yōu)化張量表達(dá)精度。
所以說,其實(shí)利好誰并不需要猜測(cè),因?yàn)镈eepSeek此次就是要普遍支持國(guó)產(chǎn)芯片生態(tài)。
DeepSeek一句話背后,是對(duì)未來大模型算力效率的重新定義,也是國(guó)產(chǎn)芯片廠商獲得國(guó)際話語權(quán)的起點(diǎn)。資本市場(chǎng)的集體狂歡,既有情緒成分,更折射出一個(gè)信號(hào):中國(guó)芯片正迎來前所未有的窗口期,而這一次,它們有機(jī)會(huì)真正站到技術(shù)潮水的前沿。