聯(lián)想將單臺(tái)服務(wù)器運(yùn)行大模型性能推向新高


中國產(chǎn)業(yè)經(jīng)濟(jì)信息網(wǎng)   時(shí)間:2025-03-22





  3月17日,聯(lián)想宣布旗下首款A(yù)MD AI大模型訓(xùn)練服務(wù)器聯(lián)想問天WA7785a G3在單機(jī)部署671B(滿血版) DeepSeek大模型時(shí),可實(shí)現(xiàn)極限吞吐量6708token/s,將單臺(tái)服務(wù)器運(yùn)行大模型的性能推向了新高。


  據(jù)悉,依托聯(lián)想萬全異構(gòu)智算平臺(tái),聯(lián)想通過訪存優(yōu)化、顯存優(yōu)化、PCIe 5.0全互聯(lián)架構(gòu)創(chuàng)新以及精選SGLang框架中性能最優(yōu)算子等諸多創(chuàng)新方式,對大模型從預(yù)訓(xùn)練、后訓(xùn)練到推理的全流程進(jìn)行持續(xù)優(yōu)化,在單臺(tái)部署DeepSeek 671B大模型的聯(lián)想問天WA7785a G3上實(shí)測最高吞吐量達(dá)6708 token/s。


  在模擬問題對話場景(上下文序列長度128/1K)時(shí),最高可支持并發(fā)數(shù)158,TPOT 93毫秒, TTFT 2.01秒;而在模擬代碼生成(上下文序列長度512/4K )時(shí),并發(fā)數(shù)可達(dá)140,TPOT 100毫秒, TTFT 5.53秒。意味著單臺(tái)聯(lián)想問天WA7785a G3可以支撐1500人規(guī)模企業(yè)的正常使用,是繼聯(lián)想問天WA7780 G3服務(wù)器單機(jī)部署滿血版DeepSeek大模型總吞吐量突破2500 token/s之后,單機(jī)部署該大模型推理性能的又一次突破。


  此次突破是聯(lián)想中國基礎(chǔ)設(shè)施業(yè)務(wù)群、聯(lián)想研究院ICI實(shí)驗(yàn)室和AMD聯(lián)合設(shè)計(jì)、協(xié)同調(diào)優(yōu)、共同實(shí)現(xiàn)的。此結(jié)果也并非最終結(jié)果,聯(lián)想與AMD還在持續(xù)嘗試深度調(diào)優(yōu)新方法,實(shí)現(xiàn)更高調(diào)優(yōu)突破。(記者 李方)


  轉(zhuǎn)自:中國經(jīng)濟(jì)網(wǎng)

  【版權(quán)及免責(zé)聲明】凡本網(wǎng)所屬版權(quán)作品,轉(zhuǎn)載時(shí)須獲得授權(quán)并注明來源“中國產(chǎn)業(yè)經(jīng)濟(jì)信息網(wǎng)”,違者本網(wǎng)將保留追究其相關(guān)法律責(zé)任的權(quán)力。凡轉(zhuǎn)載文章及企業(yè)宣傳資訊,僅代表作者個(gè)人觀點(diǎn),不代表本網(wǎng)觀點(diǎn)和立場。版權(quán)事宜請聯(lián)系:010-65363056。

延伸閱讀

?

版權(quán)所有:中國產(chǎn)業(yè)經(jīng)濟(jì)信息網(wǎng)京ICP備11041399號(hào)-2京公網(wǎng)安備11010502035964